ERNIE X1
发布时间: 2025-03-16
8K tokens
推理大模型
2025-03-16
输入不支持
输入不支持
输入不支持
输入不支持
输入不支持
输出不支持
输出不支持
输出不支持
输出不支持
输出不支持
ERNIE X1是百度在2025年3月16日发布的文心一言最新的一代推理大模型,发布之日开始用户就可以在文心一言上可以使用,但接口暂未上线。
该模型属于多模态大模型,可以理解文本、图片甚至是视频。
官方宣布未来这个模型会开源。
3月16日,百度宣布推出两款新一代文心大模型——ERNIE 4.5与ERNIE X1,并提前向公众免费开放其智能对话平台“文心一言”(ERNIE Bot)。官方宣称,这两款模型的能力均超过了GPT-4o,但是价格只有GPT-4o的1%,且是DeepSeek的一半。
ERNIE 4.5:多模态大模型,没有思维链推理模式ERNIE X1:最新一代推理大模型ERINE 4.5和ERINE X1实际测试百度开始走免费开放与开源的路子
尽管官方宣布未来几个月开源,但是目前官方只在推特发了消息,没有官方博客介绍,实在是令人费解百度的操作(今天才发现百度没有官方博客介绍自己的模型和更新情况,真是神级产品思路!)。
作为百度新一代原生多模态基础模型,ERNIE 4.5的核心优势在于其跨模态的理解与生成能力。它能够无缝整合文本、图像、音频和视频内容,甚至能解读互联网文化中的梗图与讽刺漫画。例如,当用户输入一张包含流行网络梗的图片时,ERNIE 4.5不仅能识别画面元素,还能结合上下文理解其中的幽默或隐喻。
技术层面,ERNIE 4.5通过“FlashMask动态注意力遮蔽”和“异质多模态混合专家”架构,实现了多模态数据的协同优化。据百度披露,该模型在多项基准测试中已超越GPT-4o,而成本仅为后者的1%。
下图是官网给出的一个对比结果。其多模态能力和GPT-4o对比如下:
其文本能力和GPT-4o对比如下:
当然,除了均值,其它数据均是“模糊”的。
如果说ERNIE 4.5是“多面手”,那么ERNIE X1则更像一位“策略家”。作为百度首个支持工具调用的深度推理模型,X1的强项在于逻辑规划与复杂任务处理。例如,它可以通过调用代码解释器解决数学难题,或结合高级搜索功能为企业生成市场分析报告。
更值得注意的是,X1的“进化能力”使其在反复交互中逐步优化输出结果。这种特性使其在文学创作、学术研究等需要长期思考的场景中尤为突出。例如,用户若要求X1撰写一篇商业计划书,模型不仅能生成初稿,还能根据反馈调整结构、补充数据,甚至自动调用行业数据库更新内容。
为了测试这两个模型的能力,我们构造了一个复杂的计算题,如下:
一个商店,牛肉30元一斤,猪肉20元一斤,茄子5元一斤,西红柿6元一斤,豆角1元一斤,每个月28日是会员日,会员每个月费用20元。购买肉类可以八折,但是最多3斤,打折从最便宜的品类开始。那么小红在3月28日购买了2.5斤牛肉和3.5斤猪肉,3斤西红柿,随后退了1斤猪肉,小红是会员,那么小红花费了多少钱
最终结果显示,DeepSeek V3回答错误,DeepSeek R1错误,ERINE 4.5回答错误,ERINE X1回答正确。可以说,ERINE X1有点东西。不过这只是一次测试而已,但至少说明ERINE X1还可以。
百度此次提前开放ERNIE Bot的免费访问,无疑降低了AI技术的使用门槛。个人用户现可通过官网直接体验两大模型,而企业开发者则能通过百度智能云千帆平台接入API。
并且官方还透露,即将未来几个月开源ERINE 4.5系列
关注DataLearnerAI微信公众号,接受最新大模型资讯