Claude 3.5 Sonnet New（Claude 3.5 Sonnet New）详细信息 | 名称、简介、使用方法，开源情况，商用授权信息

Claude 3.5 Sonnet New - Claude 3.5 Sonnet New

模型详细情况和参数

Claude 3.5 Sonnet New

模型全称: Claude 3.5 Sonnet New
模型简称: Claude 3.5 Sonnet New
模型类型: 聊天大模型
发布日期: 2024-10-22
预训练文件大小: 未知
是否支持中文（中文优化）: 是
最高支持的上下文长度: 200K
模型参数数量（亿）: 0.0
模型代码开源协议: 不开源
预训练结果开源商用情况: 不开源 - 不开源
模型GitHub链接: 暂无
模型HuggingFace链接: 暂无
在线演示地址: 暂无
DataLearnerAI的模型介绍: Anthropic发布新一代Claude 3.5模型：全新的Haiku 3.5和升级版Sonnet 3.5
官方博客论文: Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku
基础模型: 无基础模型
发布机构: Anthropic

评测名称	评测能力方向	评测结果
MMLU	知识问答	88.3
MMLU Pro	知识问答	78.0
HumanEval	代码生成	93.7
MATH	数学推理	78.3
GPQA Diamond	常识推理	65.0
SimpleQA	真实性评估	28.4
AIME 2024	数学推理	16.0

Claude 3.5 Sonnet New 简介

Claude 3.5 Sonnet 是 Anthropic 最新发布的大规模语言模型升级版本。作为 Claude 3 模型家族的重要成员，它整合了文本处理、视觉理解、代码编写和计算机操作等多项能力。该版本不仅在原有功能基础上实现了全面提升，还新增了计算机操作能力这一重要特性。其知识库更新截止到2024年4月，使其能够处理更多最新的信息和任务。

二、本次升级的主要特点

此次升级最引人注目的是新增的计算机操作能力，这使得模型能够理解和处理图形用户界面截图，并生成相应的操作指令。这项功能让模型可以像人类用户一样操作计算机，执行从简单到复杂的各类任务。除此之外，模型的视觉理解、推理能力、代码开发效率等核心能力也都得到了显著提升，使其在处理多模态任务时表现更为出色。

主要升级点包括：

新增计算机操作能力
视觉理解系统升级
推理能力优化
代码开发效率提升

三、性能评测分析

1. 计算机操作能力评测（OSWorld）

任务类别	15步限制	50步限制	人类基准
OS任务	54.2%	41.7%	75.00%
办公软件	7.7%	17.9%	71.79%
日常任务	16.7%	24.4%	70.51%
专业任务	24.5%	40.8%	73.47%
工作流程	7.9%	10.9%	73.27%
整体表现	14.9%	22.0%	72.36%

在计算机操作能力的评测中，新版本展现出了良好的基础性能，但与人类表现相比仍有较大差距。特别值得注意的是，模型在操作系统相关任务中表现最为出色，达到了人类基准的72%。然而在复杂的工作流程处理方面，模型的表现相对较弱。通过增加操作步骤限制的测试发现，模型在处理某些复杂任务时，更长的操作步骤序列能够显著提升成功率，这表明模型具备处理复杂任务的潜力，但可能需要更多的中间步骤来完成任务。

关键发现：

OS任务表现最佳，展现出基础操作的稳定性
步骤限制的增加对复杂任务成功率影响显著
工作流程类任务仍需重点改进

2. 视觉理解能力评测

视觉理解的提升也很高。在主流评测结果如下：

评测指标	Claude 3.5 Sonnet(新)	GPT-4	Gemini 1.5 Pro
MMMU	70.4%	69.1%	65.9%
MathVista	70.7%	63.8%	68.1%
AI2D	95.3%	94.2%	-
ChartQA	90.8%	85.7%	-
DocVQA	94.2%	92.8%	-

视觉理解能力的评测结果展示了新版本在这一领域的全面领先地位。尤其在科学图表理解和文档分析方面，模型表现出色，超过了当前市场上的主要竞品。在数学视觉理解方面，虽然相比其他领域表现略逊，但仍保持了领先优势。这些结果表明，模型在处理各类视觉信息时具备了更强的理解和分析能力，为其在实际应用中处理多模态任务奠定了坚实基础。

重要观察：

全面超越主要竞争对手的性能
科学图表和文档理解领域优势明显
数学视觉理解仍有提升空间

3. 软件工程能力评测（SWE-bench）

模型	通过率
Claude 3.5 Sonnet(新)	49.0%
Claude 3.5 Haiku	40.6%
Claude 3.5 Sonnet(原)	33.4%
Claude 3 Opus	22.2%

在软件工程能力评测中，新版本取得了显著的进步。相比原版提升了15.6个百分点，达到了49.0%的通过率，这一成绩大幅领先于其他同类模型。值得注意的是，即使是轻量级的Haiku版本也实现了40.6%的通过率，超过了早期的Opus版本，这表明模型在代码理解和生成方面的基础能力得到了实质性提升。

关键进展：

整体通过率提升显著
轻量版本表现优异
代码理解和生成能力全面增强

4. 通用推理能力评测

测试指标	Claude 3.5 Sonnet(新)	GPT-4	Llama 3.1
MMLU	89.3%	88.7%	88.6%
HumanEval	93.7%	90.2%	89.0%
DROP	88.3	83.4	-
AIME 2024	16.0%	9.3%	-

在通用推理能力评测中，新版本展现出了全面而稳定的性能优势。在MMLU测试中略微领先于GPT-4和Llama 3.1，显示出强大的知识理解和应用能力。特别是在编程评测(HumanEval)中，以93.7%的成绩大幅领先于其他模型。在高难度的AIME数学竞赛题目中，虽然整体成绩不高，但仍然显著优于其他模型，展现出较强的数学推理能力。

核心表现：