Name: ERNIE X1
Price: 不开源
Rating: 5

ERNIE X1是百度在2025年3月16日发布的文心一言最新的一代推理大模型，发布之日开始用户就可以在文心一言上可以使用，但接口暂未上线。

该模型属于多模态大模型，可以理解文本、图片甚至是视频。

官方宣布未来这个模型会开源。

3月16日，百度宣布推出两款新一代文心大模型——ERNIE 4.5与ERNIE X1，并提前向公众免费开放其智能对话平台“文心一言”（ERNIE Bot）。官方宣称，这两款模型的能力均超过了GPT-4o，但是价格只有GPT-4o的1%，且是DeepSeek的一半。

ERNIE 4.5：多模态大模型，没有思维链推理模式ERNIE X1：最新一代推理大模型ERINE 4.5和ERINE X1实际测试百度开始走免费开放与开源的路子

尽管官方宣布未来几个月开源，但是目前官方只在推特发了消息，没有官方博客介绍，实在是令人费解百度的操作（今天才发现百度没有官方博客介绍自己的模型和更新情况，真是神级产品思路！）。

ERNIE 4.5：多模态大模型，没有思维链推理模式

作为百度新一代原生多模态基础模型，ERNIE 4.5的核心优势在于其跨模态的理解与生成能力。它能够无缝整合文本、图像、音频和视频内容，甚至能解读互联网文化中的梗图与讽刺漫画。例如，当用户输入一张包含流行网络梗的图片时，ERNIE 4.5不仅能识别画面元素，还能结合上下文理解其中的幽默或隐喻。

技术层面，ERNIE 4.5通过“FlashMask动态注意力遮蔽”和“异质多模态混合专家”架构，实现了多模态数据的协同优化。据百度披露，该模型在多项基准测试中已超越GPT-4o，而成本仅为后者的1%。

下图是官网给出的一个对比结果。其多模态能力和GPT-4o对比如下：

其文本能力和GPT-4o对比如下：

当然，除了均值，其它数据均是“模糊”的。

ERNIE X1：最新一代推理大模型

如果说ERNIE 4.5是“多面手”，那么ERNIE X1则更像一位“策略家”。作为百度首个支持工具调用的深度推理模型，X1的强项在于逻辑规划与复杂任务处理。例如，它可以通过调用代码解释器解决数学难题，或结合高级搜索功能为企业生成市场分析报告。

更值得注意的是，X1的“进化能力”使其在反复交互中逐步优化输出结果。这种特性使其在文学创作、学术研究等需要长期思考的场景中尤为突出。例如，用户若要求X1撰写一篇商业计划书，模型不仅能生成初稿，还能根据反馈调整结构、补充数据，甚至自动调用行业数据库更新内容。

ERINE 4.5和ERINE X1实际测试

为了测试这两个模型的能力，我们构造了一个复杂的计算题，如下：

一个商店，牛肉30元一斤，猪肉20元一斤，茄子5元一斤，西红柿6元一斤，豆角1元一斤，每个月28日是会员日，会员每个月费用20元。购买肉类可以八折，但是最多3斤，打折从最便宜的品类开始。那么小红在3月28日购买了2.5斤牛肉和3.5斤猪肉，3斤西红柿，随后退了1斤猪肉，小红是会员，那么小红花费了多少钱

最终结果显示，DeepSeek V3回答错误，DeepSeek R1错误，ERINE 4.5回答错误，ERINE X1回答正确。可以说，ERINE X1有点东西。不过这只是一次测试而已，但至少说明ERINE X1还可以。

百度开始走免费开放与开源的路子

百度此次提前开放ERNIE Bot的免费访问，无疑降低了AI技术的使用门槛。个人用户现可通过官网直接体验两大模型，而企业开发者则能通过百度智能云千帆平台接入API。

并且官方还透露，即将未来几个月开源ERINE 4.5系列

ERNIE X1

模型基本信息

是否支持推理过程

最高上下文输入长度

最长输出结果

模型类型

发布时间

模型预文件大小

开源和体验地址

代码开源状态

预训练权重开源

GitHub 源码

Hugging Face

在线体验

官方介绍与博客

官方论文

DataLearnerAI博客

API接口信息

接口速度（满分5分）

接口价格

输入价格:

输出价格:

输入支持的模态

文本

图片

视频

音频

Embedding（向量）

输出支持的模态

文本

图片

视频

音频

Embedding（向量）

ERNIE X1模型在各大评测榜单的评分

发布机构

模型介绍

ERNIE 4.5：多模态大模型，没有思维链推理模式

ERNIE X1：最新一代推理大模型

ERINE 4.5和ERINE X1实际测试

百度开始走免费开放与开源的路子

关注DataLearnerAI公众号