人工智能与大模型最新资讯与技术博客

评测结果超GPT-5 mini和Claude 4 Sonnet，阿里再发开源版本Qwen3-VL模型：手机可运行的Qwen3-VL-2B和Qwen3-VL-32B

就在今日，阿里巴巴Qwen团队重磅推出Qwen3-VL-2B和Qwen3-VL-32B两款视觉语言模型，这些dense架构的创新之作，将多模态AI的强大能力压缩进更紧凑的框架中，显著降低了部署门槛。作为Qwen3系列的最新扩展，它们在保持顶级性能的同时，支持从边缘设备到云端的无缝应用——想象一下，一款手机App就能实时分析2小时视频，或从模糊手写笔记中提取精确信息。这不仅仅是参数缩减，更是AI普惠化的关键一步，帮助开发者以更低的成本实现视觉智能的突破。

2025/10/22 21:55:52 阅读 262

Qwen3-VL/Qwen3-VL-2B/Qwen3-VL-32B/图像识别/多模态理解

Scale AI 发布 SWE-Bench Pro 评测：AI 软件工程代理的新基准

Scale AI 于 2025 年 9 月 21 日发布了 SWE-Bench Pro，这是一个针对 AI 代理在软件工程任务上的评估基准。该基准包含 1,865 个问题，来源于 41 个活跃维护的代码仓库，聚焦企业级复杂任务。现有模型在该基准上的表现显示出显著差距，顶级模型的通过率低于 25%，而最近的榜单更新显示部分模型已超过 40%。这一发布旨在推动 AI 在长时程软件开发中的应用研究。

2025/10/22 20:34:35 阅读 90

SWE-BenchPro/大模型编程能力/大模型评测/大模型评测基准

DeepSeekAI开源全新的DeepSeek-OCR模型：参数规模仅30亿的MoE大模型，图像文本结构化提取成本下降十倍！准确率超过Qwen2.5-VL-7B

DeepSeek AI团队重磅推出DeepSeek-OCR，该模型不仅在文档提取上达到了行业领先水平，更通过创新的视觉压缩技术，将长上下文处理效率提升了 10 倍以上。根据测算，在A100-40G的一个GPU上，它每天可以将20万页的文档图像数据转为Markdown文本！

2025/10/20 20:47:35 阅读 331

DeepSeek/DeepSeek-OCR/多模态大模型

Anthropic发布Claude Haiku 4.5：一个不可忽视的低成本模型，1/3的价格，1.5倍的速度，但是有Claude Sonnet 4的水平！

Anthropic正式发布最新一代入门级模型Claude Haiku 4.5。相较上一代小模型，Haiku 4.5 在编码、推理与“计算机使用/子代理编排”等关键生产力场景上实现逼近甚至局部追平 Sonnet 4，但价格更低、速度更快，定位于“面向规模化落地的高性价比主力”。

2025/10/19 22:15:00 阅读 165

Anthropic/Claude/ClaudeHaiku4.5

DocVQA：文档视觉问答基准详解

DocVQA是一个针对文档图像的视觉问答基准数据集。该数据集包含50,000个问题，这些问题基于12,767张文档图像构建而成。数据集旨在评估模型在提取和理解文档内容方面的能力，特别是当问题涉及布局、表格和文本时。基准通过提供标注的问答对，支持模型在真实文档场景下的测试。

2025/10/19 17:51:04 阅读 94

FrontierMath：AI大模型高级数学推理评测的新基准

FrontierMath是一个由Epoch AI开发的基准测试套件，包含数百个原创的数学问题。这些问题由专家数学家设计和审核，覆盖现代数学的主要分支，如数论、实分析、代数几何和范畴论。每个问题通常需要相关领域研究人员投入数小时至数天的努力来解决。基准采用未发表的问题和自动化验证机制，以减少数据污染风险并确保评估可靠性。当前最先进的AI模型在该基准上的解决率低于2%，这反映出AI在处理专家级数学推理时的局限性。该基准旨在为AI系统向研究级数学能力进步提供量化指标。

2025/10/19 17:45:17 阅读 95

FrontierMath/大模型数学能力/大模型评测/大模型评测基准

如何让你的Agent更快，支持更多上下文？Anthropic发布Skills：专为AI Agent系统打造的专业领域工具规范，MCP强大的补充，更低的门槛和资源消耗

Anthropic 正式推出全新功能 Claude Skills，旨在让通用 AI 代理（Agent）具备专业领域能力。该功能允许用户通过创建包含 SKILL.md 文件的技能文件夹，为 Claude 注入可执行脚本、模板与资源，实现 Excel 处理、PPT 生成等特定任务的自动化操作。与传统提示词不同，Skills 采用结构化加载与本地沙箱执行机制，兼顾安全性与效率。

2025/10/17 13:12:33 阅读 763

AIAgent/Claude/ClaudeSkills

谷歌发布视频大模型Veo 3.1：电影级别的视频生成，声音合成和同步能力大幅提升，但相比较Sora2依然有明显差距！

就在今日，Google 正式推出 Veo 3.1 和 Veo 3.1 Fast，这两款升级版视频生成模型以付费预览形式登陆 Gemini API。Veo 3.1的核心亮点是：更丰富的原生音频（从自然对话到同步音效）、更强的电影风格理解与叙事控制、以及显著增强的图生视频（Image-to-Video）质量与一致性。

2025/10/16 08:53:14 阅读 145

Sora/Veo/视频生成大模型/谷歌

阿里开源2个全新多模态理解大模型Qwen3-VL-4B和8B：主流评测结果超Gemini 2.5 Flash Lite、GPT-5 Nano，面向多模态Agent和机器人应用打造

就在刚才，阿里云Qwen团队推出了两个多模态理解大模型Qwen3-VL-4B和Qwen3-VL-8B，本次发布的模型是较小参数规模的模型，可以用于消费级硬件（手机/PC）等，且都是稠密架构。

2025/10/15 09:06:34 阅读 324

Qwen3-VL/图像识别/多模态理解

如何评估大模型的Agent能力？τ²-Bench：评估双控对话智能体的新标准

为了解决大模型的Agent操作依赖交互和人工处理这个问题，普林斯顿大学与 Sierra Research 的研究团队在 2025 年 6 月提出了 τ²-Bench（Tau-Squared Benchmark），并发布了论文《τ²-Bench: Evaluating Conversational Agents in a Dual-Control Environment》。它是对早期 τ-Bench 的扩展版本，旨在建立一种标准化方法，评估智能体在与用户共同作用于环境时的表现。

2025/10/12 10:03:58 阅读 204

大模型Agent能力评测/大模型评测/大模型评测基准

直接使用大模型通过界面来操作电脑和浏览器：谷歌发布Gemini 2.5 Computer Use 模型，重塑 AI 与界面交互能力，实测优秀~

就在昨天，2025年10月7日，Google DeepMind 正式发布其最新模型——Gemini 2.5 Computer Use。该模型基于 Gemini 2.5 Pro 的视觉理解与推理能力，新增了“界面交互（UI 控制）”能力，能够在浏览器或移动端界面上像人类那样点击、输入、滚动、选择控件等操作。

2025/10/08 22:15:37 阅读 329

AIAgent/Gemini2.5ComputerUse/计算机使用

如何更好地使用 Sora2 生成视频？来自 OpenAI 官方的终极 Prompt 指南

Sora2 的发布再次引爆了视频生成领域。你可能已经看到过一些令人惊叹的演示视频，但当你自己上手时，生成的作品可能并不尽如人意。问题出在哪里？很可能就在你的提示词（Prompt）上。

2025/10/07 23:35:12 阅读 680

Sora2/视频生成大模型

自己制作电影不是梦，视频生成大模型的巨大进步！OpenAI发布第二代视频生成大模型Sora2：物理规律符合率达到88%，可以同步生成音频！物理真实感与声音控制全面突破

就在今日，OpenAI正式推出了 Sora 2 ——其旗舰级视频与音频生成模型。相比2024年2月发布的初代 Sora，本次升级带来了断层级的真实感与显著增强的可控性。它不仅能更好地遵循物理规律生成视频，还首次实现了同步对话与环境音效的生成，并通过全新 iOS 应用“Sora”开放给公众使用。

2025/10/01 15:17:59 阅读 278

OpenAI/Sora/Sora2/视频生成大模型

全球最强编程大模型升级：Anthropic发布Claude Sonnet 4.5！同时还有一波重磅工具更新：Claude Code支持保存状态等

就在刚才，Anthropic 正式推出了 Claude Sonnet 4.5——全球最强的编码模型。这款新模型不仅在软件开发能力上实现了断层领先，更在构建复杂 AI 代理、计算机操控以及数学推理等多个维度展现出革命性突破。

2025/09/30 08:44:27 阅读 254

ClaudeSonnet4.5

如何快速五分钟就能了解GitHub中一个项目的代码架构和逻辑：智谱类DeepResearch的大模型产品Zread介绍，GitHub仓库解读神器

智谱AI于2025年7月发布了Zread。这款产品能够利用其大模型能力，结合类似Deep Research的Agent技术，对GitHub项目进行深度解读和问答。其价值在于将强大的模型能力通过优秀的工程化设计，变成了一个真正“好用”的工具。它解决的正是那种“代码就在那里，但我就是看不懂”的尴尬，这种体验是单纯聊天机器人无法替代的。

2025/09/27 20:55:06 阅读 151

AIAgent/Zread/智谱AI

阿里正式开源最强视觉理解大模型Qwen3-VL：关键评测基准超Gemini 2.5 Pro，支持针对视觉输入进行推理，甚至可以理解3D场景

今日，QwenTeam 正式发布了全新一代多模态视觉语言模型 —— Qwen3-VL 系列。这是 Qwen 家族迄今为止最强大的视觉语言模型，在视觉感知、跨模态推理、长上下文理解、空间推理和智能代理交互等多个维度全面提升。旗舰开源模型 Qwen3-VL-235B-A22B 已经上线，并提供 Instruct 和 Thinking 两个版本，前者在视觉感知上全面对标并超过 Gemini 2.5 Pro，后者则在多模态推理基准上创下新纪录，成为开源阵营的最强视觉理解大模型。

2025/09/24 08:14:19 阅读 335

Qwen3-VL

阿里一次发布3款Qwen大模型：开源的全模态Qwen3-Omni和图像编辑大模型Qwen-Image-Edit-2509和不开源的语音识别大模型Qwen3-TTS

几个小时前，阿里一次更新了3个大模型，分别是开源的全模态大模型Qwen3-Omni、开源的图像编辑大模型Qwen3-Image-Edit和不开源的语音识别大模型Qwen3-TTS。本次发布的3个模型均为多模态大模型，可以说阿里的大模型真的是全面开花，节奏很快！

2025/09/23 09:40:47 阅读 280

Qwen-Image-Edit/Qwen3-Omni/Qwen3-TTS

大模型速度、效果与价格的完美结合？xAI发布Grok 4 Fast：性能接近Grok 4，成本降 98%，生成速度翻倍！

xAI 正式发布 Grok 4 Fast —— 一款以极致性价比与前沿性能为核心卖点的新一代推理模型。相比前代产品，它不仅在推理准确率上几乎与旗舰模型Grok 4等持平，还凭借 40%更高的推理效率和高达98%的成本降低，将高质量智能推理真正带入大众用户和企业应用场景。

2025/09/21 21:09:22 阅读 262

Grok4/Grok4Fast

模型不能停，阿里又又又又要开源新模型：Qwen3-Next-80B-A3B

继阿里刚发布Qwen3-ASR模型之后，Qwen团队又在社区提交了全新的Qwen3-Next代码。这意味着阿里即将开源Qwen3家族的新成员。这个模型最大的特点是架构变化很大，与此前Qwen系列很不一样。

2025/09/10 04:24:02 阅读 1044

Qwen3/Qwen3-Next/Qwen3-Next-80B-A3B

Qwen3家族新成员：阿里发布自动语音识别大模型Qwen3-ASR-Flash，中英文语音识别错误率低于GPT-4o和Gemini 2.5 Pro！

阿里发布了全新的语音识别大模型Qwen3-ASR-Flash，该模型是Qwen3系列模型中首个语音识别大模型，中英文语音识别错误率低于GPT-4o-transcribe和Gemini 2.5 Pro。不过，该模型目前仅通过API提供，不开源！

2025/09/09 03:31:42 阅读 635

ASR/Qwen3/Qwen3-ASR

OpenAI收入大揭秘：2024年收入40亿美金，2030年预计达到2000亿，年均复合增长超90%！ChatGPT占比将逐年下降！

根据TheInformaiton的披露，近期OpenAI更新了他们最新财务预测（截至2025年第三季度）。这份收入预测展示了当前OpenAI的收入情况，并描绘了一幅引人注目的未来图景。与2025年第一季度OpenAI自己的预测相比，新数据不仅上调了收入预期，也揭示了公司因基础设施投入而面临的巨大现金消耗压力。本文将简单解读一下这份数据，包括OpenAI的收入情况，不同产品占比，如ChatGPT的比重等。

2025/09/06 20:21:00 阅读 430

ChatGPT/OpenAI

Google DeepMind 发布 EmbeddingGemma：面向端侧的多语言开源向量模型（308M），小体量也能打

EmbeddingGemma 是基于 Gemma 3 架构打造的全新开源多语言向量模型，专为移动端/本地离线应用而生。它以约 308M 参数的紧凑体量，在 RAG、语义搜索、分类、聚类等任务上提供高质量表征，同时将隐私与可用性拉满：无需联网即可在本地生成向量。

2025/09/06 05:02:35 阅读 211

EmbeddingGemma/Gemma/向量大模型

Moonshot AI发布Kimi K2-Instruct-0905：256K上下文长度加持，全面升级的开放式智能体模型

今日，Moonshot AI正式发布了最新旗舰模型 Kimi K2-Instruct-0905。这是一款基于混合专家架构（MoE）的前沿大语言模型，总参数规模达到 1万亿，激活参数为 320亿，不仅在编码智能上实现了断层式提升，更凭借 256K超长上下文成为当前同类产品中的佼佼者。官方称其在公共基准和真实智能体任务上的表现均有显著突破，已对标并超越部分国际顶尖模型。

2025/09/06 04:23:04 阅读 255

AIAgent/K2/Kimi/KimiK20905/MoE架构

大语言模型（Large Language Model）为什么会“幻觉”？OpenAI最新发布揭示大模型幻觉根源与解决路径

尽管人工智能语言模型的能力日益强大，但它们依然面临一个棘手的问题：“幻觉”（Hallucination）。所谓幻觉，指的是模型自信地生成一个事实上错误的答案。OpenAI 的最新研究论文指出，这一现象的根源在于标准的训练和评估方式实际上在鼓励模型“猜测”而非“承认不确定性”。

2025/09/06 03:41:27 阅读 313

大模型幻觉

最新博客