人工智能与大模型最新资讯与技术博客

大模型评测SimpleVQA全方位深度解析，直击多模态模型“事实幻觉”

随着多模态大语言模型（MLLM）在各个领域的应用日益广泛，一个核心问题浮出水面：我们如何信赖它们生成内容的准确性？当模型需要结合图像和文本进行问答时，其回答是否基于事实，还是仅仅是“看似合理”的幻觉？为了应对这一挑战，一个名为SimpleVQA的新型评测基准应运而生，旨在为多模态模型的事实性能力提供一个清晰、可量化的度量衡。

2025/08/01 15:49:57 阅读 131

多模态评测/大模型评测

Zhipu AI重磅发布GLM-4.5系列：技术深度解析与多维度性能评测

7月28日，智谱AI（Zhipu AI）向开源社区投下了一枚重磅炸弹，正式发布了其最新的旗舰模型系列：GLM-4.5。该系列包含两个新成员——GLM-4.5和GLM-4.5-Air，两者均以开源权重形式提供。官方技术报告详细阐述了其设计理念、技术细节以及在多项基准测试中的表现。本次发布的核心目标是打造一个能够统一推理、代码和Agent智能体能力的模型，以应对日益复杂的AI应用需求。本文将深入解析这份官方报告，剖析其核心技术、性能表现，并探讨其在当前大模型竞争格局中的战略定位。

2025/07/29 11:06:25 阅读 497

GLM-4.5系列/MoE架构/开源大模型/混合推理

阿里发布Qwen3小幅更新版本，放弃混合思考模式，发布全新的2个版本Qwen3-235B-A22B-2507模型，1/5的参数，性能直逼Kimi K2，推理模式版本评测结果接近o3

阿里今天开源了一个Qwen3-235B-A22B模型的小幅更新版本，命名为Qwen3-235B-A22B-Thinking-2507，这是一个只支持带推理过程的模型，而四天前，阿里还开源了Qwen3-235B-A22B-Instruct-2507，一个不支持推理过程的模型。这2个版本模型去除了Qwen3此前的一个模型的混合架构模式（即一个模型同时支持thinking和non-thinking），而是拆分成2个不同的版本。阿里官方说这是从社区获得了反馈之后决策的。

2025/07/26 08:22:25 阅读 705

Qwen3/Qwen3更新版/千问大模型

如何评价大模型和AI Agent在命令行环境中执行工具解决任务的能力？Terminal Bench评测简介

Terminal-Bench是一个新兴的开源基准测试，专为评估人工智能Agent（AI Agent）在命令行终端环境中的实际操作能力而设计。它通过一系列模拟真实世界场景的复杂任务，旨在客观、可量化地衡量AI Agent在执行代码编译、服务器管理和数据处理等任务时的熟练程度与自主性。

2025/07/23 16:56:16 阅读 447

AIAgent评测/TerminalBench/大模型评测/评测基准

阿里开源全新编程大模型Qwen3-Coder-480B-A35B，官方宣称其编程水平接近Claude Sonnet 4，免费开源可商用，同时开源Claude Code免费平替选择Qwen Code

阿里宣布开源第三代编程大模型Qwen3-Coder-480B-A35B，该模型是Qwen3编程大模型中第一个开源的版本，同时官方还基于Google的Gemini CLI改造并开源了阿里自己的命令行编程工具Qwen Code，完全免费使用。

2025/07/23 08:30:01 阅读 573

Agentic编程/Qwen-Coder/Qwen3/编程大模型

OpenAI内部通用大模型已经可以拿到国际数学奥利匹克竞赛金牌：AI推理能力已经接近人类顶级水平

几个小时前，OpenAI的研究人员披露，其一款内部实验性的大语言模型，在模拟的国际数学奥林匹克（International Math Olympiad ，IMO）竞赛2025中取得了金牌水平的成绩。这是一个里程碑式的突破，因为IMO被认为是衡量创造性数学推理能力的巅峰，远超以往任何AI基准测试。这项成就并非通过专门针对数学的“窄”方法实现，而是源于通用人工智能研究的根本性突破，尤其是在处理难以验证的任务和长时间推理方面。

2025/07/19 18:22:05 阅读 1231

GPT/OpenAI/大模型/大模型评测/数学推理

OpenAI正在测试一个新的o3模型：o3 alpha模型，实测编码和游戏能力十分突出

2025年7月17日，LMArena的大模型Web能力匿名竞技场出现了一个代号为anonymous-chatbot-0717的模型，而根据ChatGPT网页版的抓包显示，这个模型应该是o3家族系列的一员，其模型的api的id为“o3-alpha-responses-2025-07-17”。

2025/07/19 11:14:05 阅读 224

ChatGPT/o3alpha/OpenAI/新模型

OpenAI发布ChatGPT Agent系统：一个新模型驱动的系统，可以写代码运行代码，使用浏览器订票，写PPT、做excel的全能Agent

OpenAI刚刚发布了一个全新的AI Agent产品，称为ChatGPT Agent。这个全新的Agent系统可以控制我们的电脑，然后使用电脑上的浏览器、PPT、Excel等工具帮我们完成一些日常的工作，从头开始帮我们完成一些非常复杂的任务。根据OpenAI的描述，这个Agent系统的目标未来是一个通用的Agent，而这些能力未来将会随着这个产品不定期更新。

2025/07/19 09:03:39 阅读 209

AIAgent/AIAgent系统/ChatGPTAgent/OpenAI

Vibe Coding再迎重磅玩家，AWS发布AI IDE：Kiro，你可以直接通过自然语言来生成代码，创建网站、游戏或者程序了。

Kiro 是一款AWS刚发布的、具有代理（agentic）能力的集成开发环境（IDE），它的目的是希望通过简化的开发者体验，帮助开发者从概念原型无缝过渡到生产级别的应用。它的核心理念是“规格驱动开发”（spec-driven development），以解决当前 AI 编程从有趣的原型到可靠的生产系统之间存在的鸿沟。

2025/07/15 23:21:36 阅读 392

AIIDE/Kiro/VibeCoding/自然语言编程

如何评估向量大模型在多种任务上的表现？Massive Text Embedding Benchmark（MTEB）评测介绍

MTEB是一个用于评估向量大模型向量化准确性的评测排行榜。它全称为Massive Text Embedding Benchmark，是一个旨在衡量文本嵌入模型在多种任务上表现的基准测试。

2025/07/15 18:48:21 阅读 164

MTEB/RAG评测/向量大模型评测/大模型向量能力评测基准/大模型嵌入能力评测

如何评估大模型的创意写作能力？Creative Writing v3 评测基准介绍

Creative Writing v3 是一个用于评估大型语言模型（LLM）创意写作能力的评测基准。该基准采用混合评分系统，旨在更精确地区分不同模型，特别是顶尖模型之间的性能差异。

2025/07/15 17:33:32 阅读 535

CreativeWriting/大模型评测/大模型评测基准/大模型评测能力介绍/评测基准

Kimi K2为什么开源？基于Kimi团队成员内容解释Kimi K2模型背后的决策思路与技术细节：继承于DeepSeek V3架构，只为追求模型智能的上限

上周，MoonshotAI 发布了 Kimi K2，并宣布完全开源、允许商用。发布 24 小时内，社区即完成了 MLX 移植、4-bit 量化等后续工作。外网很多人评价说，Kimi K2是另一个DeepSeek R1时刻。本文尝试以第三方视角，把Kimi开发者公开的技术讨论、社区疑问与公开配置里的数字串成一条完整的技术决策链，解释Kimi K2背后的技术决策以及他们眼中大模型创业企业的方向。

2025/07/14 22:42:55 阅读 487

AIAgent/K2/Kimi/KimiK2/MoE架构/MoonshotAI

【辟谣，该数据是预测】重磅！疑似GPT-5评测结果泄露，超过当前所有模型评分，人类最后难题得分56.6，比当前最好模型还要高27%，大幅超过Gemini 2.5 Pro，Grok 4 Heavy等

刚刚，X平台疑似泄露出GPT-5的评测结果，共四项评测结果，均排名第一。根据泄露的信息，GPT-5的评测包含2个不同的版本，分别是基础版本的GPT-5以及带推理模式的GPT-5 Reasoning。各项评测结果均大幅超越当前现有其它模型，都是第一！且都是断档领先！

2025/07/14 11:56:22 阅读 566

GPT/GPT-5/GPT-5Reasoning/OpenAI

Kimi开源K2大模型：全球首个开源可商用的1万亿参数规模大模型，MoE架构，评测结果与DeepSeekV3相当，但模型文件有1TB！

Kimi K2是由Moonshot AI最新推出的旗舰级大模型，首次将开放Agentic Intelligence（自主代理智能）与强大工具调用能力有机整合。它不仅在知识推理、数学、代码等传统“非思维模型”任务上展现出全球领先的能力，还特别针对一系列实际Agentic（自动决策与操作型）任务进行了深度优化。在业内，这代表AI模型正从“只会答题”向“能自主完成复杂任务”转变。K2模型完全开源，可免费商用授权。

2025/07/12 09:36:27 阅读 819

AIAgent/K2/Kimi/MoE架构

MistralAI发布全新编程大模型：24B开源Devstral Small 1.1在SWE-Bench Verified评分超过旧版DeepSeek R1，编程大模型新的替代

编程领域大模型一直是进展非常快的大模型领域。因为编程能力更强的模型，通常在逻辑思维、工具调用上有更好的表现，在很多领域，特别是Agent领域有很大的应用价值。今天法国人工智能明星公司MistralAI发布了2个全新的编程大模型，分别是Devstral Medium和 Devstral Small 1.1，后者是一个开源的240亿参数的编程大模型。

2025/07/11 20:06:06 阅读 248

DevstralMedium/DevstralSmall/MistralAI/编程大模型/领域大模型

AIME 2025满分，xAI正式发布Grok模型，其中Grok 4 Heavy评测超越当前所有大模型，美国数学竞赛满分！一年3000美元订阅费！

马斯克旗下的xAI公司正式发布Grok4大模型，包含Grok 4和Grok4 Heavy版本，其中Grok4 Heavy是一个Agent系统，在AIME2025（美国的数学邀请赛）得分满分，超过了所有大模型。此前透露的Grok 4 Code和视频生成能力都没有发布。

2025/07/10 16:15:56 阅读 668

Grok4/Grok4Code/GrokHeavy/xAI/大模型/马斯克

ARC-AGI-2：重塑大模型通用智能评测

人工智能（AI）的通用智能（AGI）发展一直是研究领域的焦点。近期，由 ARC Prize 基金会推出并由 AI 研究者 François Chollet 联合发起的 ARC-AGI-2 评测基准，为衡量大模型在未知情境下的实时推理能力和学习效率提供了新的视角。

2025/07/10 12:51:46 阅读 335

ARC-AGI-2/大模型评测/大模型评测基准/评测基准

ManusAI产品介绍和特点总结，以及用户对该产品的评价总结，背后的开发团队介绍

Manus AI 是一款尖端的人工智能代理程序，于 2025 年 3 月 6 日正式发布，旨在跨多个领域自主执行复杂任务，弥合人类意图与可操作结果之间的差距。它由 Butterfly Effect 开发，该公司在中国（北京和武汉）以及新加坡（BUTTERFLY EFFECT PTE. LTD.）设有运营机构。以下内容基于截至 2025 年 7 月 5 日的最新信息，涵盖其产品功能、关键技术特点及用户反馈。

2025/07/06 11:07:34 阅读 139

AIAgent/Manus/ManusAI

Grok-4未发布评测结果已泄露：2个版本，支持长推理输出，但是最高上下文仅132K，泄露的评测数据显示Grok4是迄今为止得分最高的大模型，甚至大幅超越Gemini 2.5 Pro！

Grok4是马斯克旗下大模型初创企业xAI的第四代代码，在五月份的时候，马斯克就透露他们马上要发布Grok 3.5模型，六月份的时候说这个模型效果很好，版本号就直接改为4，这中间经过多次波折，最终马斯克说Grok 4将在7月4日之后发布。截止目前，虽然xAI官方没有正式宣布Grok 4，但是目前Grok 4已经透露了很多的消息。本文将对这些信息做总结和分析。

2025/07/05 11:30:43 阅读 696

Grok4/Grok4Code/xAI/大模型/马斯克

生成式AI重塑新闻分发格局：搜索衰退与流量转移下的出版商和传统网站压力山大！SimilarWeb最新报告解释大模型产品对搜索引擎和内容网站的影响！

今天，SimilarWeb发布了一个全新的报告，描述了自从ChatGPT这种大模型产品发布之后，新闻出版网站的流量下滑严重，并提供了相关的分析。尽管这是针对新闻网站的报告，但是实际上所有的内容网站或者是内容生产者可能都是有影响的。我们基于这份报告进行解读，为大家提供一个参考。

2025/07/03 23:30:07 阅读 252

AI技术影响/大模型应用

智谱AI开源多模态推理大模型GLM-4.1V-Thinking：90亿参数，基于强化学习技术，带推理能力，多模态理解能力接近720亿的Qwen2.5-VL-72B，免费商用授权

GLM-4.1V-Thinking是智谱AI（Zhipu AI）与清华大学KEG实验室联合推出的多模态推理大模型。这款模型并非简单的版本迭代，而是通过一个以“推理为中心”的全新训练框架，旨在将多模态模型的能力从基础的视觉感知，推向更复杂的逻辑推理和问题解决层面。多模态理解能力接近720亿的Qwen2.5-VL-72B。

2025/07/02 21:11:34 阅读 376

GLM/多模态大模型/多模态推理大模型/智谱AI

Ai2发布全新评测基准SciArena：为科学文献任务而生的大模型评测新基准，o3大幅领先所有大模型

Ai2近日发布的全新评测平台——SciArena，为这一痛点带来了创新解法。此次产品不仅继承了“人类众包对比评测”的理念，更结合科学问题的独特复杂性，构建了开放、透明且可迭代的模型评测生态。

2025/07/02 21:06:29 阅读 195

SciArena/大模型科研评测/大模型评测

华为开源2个Pangu大模型：分别是MoE架构，720亿总参数，160亿激活参数的Pangu Pro MoE以及Pangu Embedded，评测结果略超同级别的Qwen3

盘古大模型是华为自研的大语言模型，基于华为的硬件和技术栈进行训练。此前一直被认为是国产技术占比很高的国产大模型。今天，华为开源了2个盘古大模型，分别是MoE架构的Pangu Pro MoE模型以及70亿参数规模的Pangu Embedded模型。

2025/07/01 07:36:33 阅读 408

Pangu/Pangu大模型/华为/开源大模型/盘古大模型

重磅！百度文心一言开源，包含2个多模态大模型，4个大语言模型，最大参数量4240亿！完全免费商用授权！

今天，百度正式宣布开源其最新的旗舰级大模型系列——ERNIE 4.5。ERNIE 4.5系列模型当前包含2个多模态大模型，4个大语言模型及其不同变体的庞大家族，还区分了PyTorch版本和paddlepaddle版本，共23个模型，其核心采用了创新的异构多模态混合专家（MoE）架构，在提升多模态理解能力的同时，实现了文本处理性能的同步增强。每个版本的模型都开源了基座（Base）版本和后训练版本（不带Base）。

2025/06/30 13:44:47 阅读 433

ERINE/ERINE-4.5/开源大模型

最新博客