Claude 3.5 Sonnet New - Claude 3.5 Sonnet New

模型详细情况和参数

Claude 3.5 Sonnet New

模型全称
Claude 3.5 Sonnet New
模型简称
Claude 3.5 Sonnet New
模型类型
聊天大模型
发布日期
2024-10-22
预训练文件大小
未知
是否支持中文(中文优化)
最高支持的上下文长度
200K
模型参数数量(亿)
0.0
模型代码开源协议
不开源
预训练结果开源商用情况
不开源 - 不开源
模型GitHub链接
暂无
模型HuggingFace链接
暂无
在线演示地址
暂无
基础模型
无基础模型
发布机构
评测结果
评测名称 评测能力方向 评测结果
MMLU 知识问答 88.3
MMLU Pro 知识问答 78.0
HumanEval 代码生成 93.7
MATH 数学推理 78.3
GPQA Diamond 常识推理 65.0
SimpleQA 真实性评估 28.4
AIME 2024 数学推理 16.0

Claude 3.5 Sonnet New 简介

Claude 3.5 Sonnet 是 Anthropic 最新发布的大规模语言模型升级版本。作为 Claude 3 模型家族的重要成员,它整合了文本处理、视觉理解、代码编写和计算机操作等多项能力。该版本不仅在原有功能基础上实现了全面提升,还新增了计算机操作能力这一重要特性。其知识库更新截止到2024年4月,使其能够处理更多最新的信息和任务。

二、本次升级的主要特点

此次升级最引人注目的是新增的计算机操作能力,这使得模型能够理解和处理图形用户界面截图,并生成相应的操作指令。这项功能让模型可以像人类用户一样操作计算机,执行从简单到复杂的各类任务。除此之外,模型的视觉理解、推理能力、代码开发效率等核心能力也都得到了显著提升,使其在处理多模态任务时表现更为出色。

主要升级点包括:

  • 新增计算机操作能力
  • 视觉理解系统升级
  • 推理能力优化
  • 代码开发效率提升

三、性能评测分析

1. 计算机操作能力评测(OSWorld)


任务类别15步限制50步限制人类基准
OS任务54.2%41.7%75.00%
办公软件7.7%17.9%71.79%
日常任务16.7%24.4%70.51%
专业任务24.5%40.8%73.47%
工作流程7.9%10.9%73.27%
整体表现14.9%22.0%72.36%


在计算机操作能力的评测中,新版本展现出了良好的基础性能,但与人类表现相比仍有较大差距。特别值得注意的是,模型在操作系统相关任务中表现最为出色,达到了人类基准的72%。然而在复杂的工作流程处理方面,模型的表现相对较弱。通过增加操作步骤限制的测试发现,模型在处理某些复杂任务时,更长的操作步骤序列能够显著提升成功率,这表明模型具备处理复杂任务的潜力,但可能需要更多的中间步骤来完成任务。

关键发现:

  • OS任务表现最佳,展现出基础操作的稳定性
  • 步骤限制的增加对复杂任务成功率影响显著
  • 工作流程类任务仍需重点改进

2. 视觉理解能力评测


视觉理解的提升也很高。在主流评测结果如下:


评测指标Claude 3.5 Sonnet(新)GPT-4Gemini 1.5 Pro
MMMU70.4%69.1%65.9%
MathVista70.7%63.8%68.1%
AI2D95.3%94.2%-
ChartQA90.8%85.7%-
DocVQA94.2%92.8%-


视觉理解能力的评测结果展示了新版本在这一领域的全面领先地位。尤其在科学图表理解和文档分析方面,模型表现出色,超过了当前市场上的主要竞品。在数学视觉理解方面,虽然相比其他领域表现略逊,但仍保持了领先优势。这些结果表明,模型在处理各类视觉信息时具备了更强的理解和分析能力,为其在实际应用中处理多模态任务奠定了坚实基础。

重要观察:

  • 全面超越主要竞争对手的性能
  • 科学图表和文档理解领域优势明显
  • 数学视觉理解仍有提升空间

3. 软件工程能力评测(SWE-bench)


模型通过率
Claude 3.5 Sonnet(新)49.0%
Claude 3.5 Haiku40.6%
Claude 3.5 Sonnet(原)33.4%
Claude 3 Opus22.2%


在软件工程能力评测中,新版本取得了显著的进步。相比原版提升了15.6个百分点,达到了49.0%的通过率,这一成绩大幅领先于其他同类模型。值得注意的是,即使是轻量级的Haiku版本也实现了40.6%的通过率,超过了早期的Opus版本,这表明模型在代码理解和生成方面的基础能力得到了实质性提升。

关键进展:

  • 整体通过率提升显著
  • 轻量版本表现优异
  • 代码理解和生成能力全面增强

4. 通用推理能力评测




测试指标Claude 3.5 Sonnet(新)GPT-4Llama 3.1
MMLU89.3%88.7%88.6%
HumanEval93.7%90.2%89.0%
DROP88.383.4-
AIME 202416.0%9.3%-




在通用推理能力评测中,新版本展现出了全面而稳定的性能优势。在MMLU测试中略微领先于GPT-4和Llama 3.1,显示出强大的知识理解和应用能力。特别是在编程评测(HumanEval)中,以93.7%的成绩大幅领先于其他模型。在高难度的AIME数学竞赛题目中,虽然整体成绩不高,但仍然显著优于其他模型,展现出较强的数学推理能力。

核心表现:

  • 基础推理能力保持领先
  • 编程任务优势明显
  • 高难度数学题表现突出

四、总体评估

本次升级使Claude 3.5 Sonnet在多个维度都实现了实质性突破。在保持原有优势的基础上,通过新增计算机操作能力,显著扩展了模型的应用场景。虽然在某些领域还有提升空间,但整体性能已经达到了业界领先水平。

优势领域

  • 视觉理解能力全面领先
  • 软件工程能力大幅提升
  • 通用推理能力稳定可靠

改进空间

  • 计算机操作能力的复杂任务处理
  • 工作流程自动化的稳定性
  • 数学视觉理解的进一步优化

这次升级不仅展示了模型性能的显著提升,也为未来AI助手的发展指明了新的方向。随着这些能力的不断完善,Claude 3.5 Sonnet有望在更多实际应用场景中发挥重要作用。

欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

Claude 3.5 Sonnet New所属的领域
自然语言处理

自然语言处理

Natural Language Process

35个资源

Claude 3.5 Sonnet New相关的任务
问答系统

问答系统

Question Answering

35个资源