标签:OpenAI,Claude 2.1,人工智能,API,技术进步 时间:2023-12-03T15:38:33
2023年11月21日,Anthropic宣布其最新人工智能模型Claude 2.1现已通过API在其控制台上提供,并且正在支持其claude.ai聊天体验。Claude 2.1在关键能力上取得了进步,包括行业领先的200K令牌上下文窗口、显著降低的模型幻觉率、系统提示以及新的测试功能:工具使用。同时,Anthropic更新了定价策略,以提高客户跨模型的成本效率。
自今年早些时候推出以来,Claude已被数百万人用于从翻译学术论文到起草商业计划和分析复杂合同的广泛应用。用户要求更大的上下文窗口和在处理长文档时更准确的输出。
为此,Anthropic将可以传达给Claude的信息量翻倍,限制为200,000令牌,相当于大约150,000个单词或超过500页的材料。用户现在可以上传技术文档、财务报表或长篇文学作品。Claude可以对大量内容或数据进行总结、进行问答、预测趋势、比较和对比多个文档等。
处理200K长度的消息是一个复杂的壮举,也是行业首创。尽管将这一强大的新能力交到用户手中令人兴奋,但通常需要数小时人工努力完成的任务可能只需几分钟。随着技术的进步,我们预计延迟时间将大幅减少。
与先前的Claude 2.0模型相比,Claude 2.1在诚实度方面也取得了重大进步,虚假陈述的比例下降了两倍。这使企业能够构建高性能的AI应用程序,解决具体的商业问题,并在其运营中更可靠地部署AI。
我们通过策划一系列复杂的、事实性的问题来测试Claude 2.1的诚实度,这些问题探究了当前模型的已知弱点。使用区分不正确声明和不确定性表达的评分标准,Claude 2.1更倾向于表达不确定而不是提供错误信息。
Claude 2.1还在理解和总结方面取得了有意义的进步,尤其是对于需要高精度的长篇复杂文档,如法律文件、财务报告和技术规格。在我们的评估中,Claude 2.1在错误回答上显示出30%的减少,并且在错误地得出文档支持特定主张的结论上的比率降低了3-4倍。
虽然我们对这些准确性改进感到鼓舞,但提高输出的精确性和可靠性仍然是我们产品和研究团队的首要任务。
应广大需求,我们还添加了工具使用这一新的测试功能,允许Claude与用户现有的流程、产品和API集成。这种扩展的互操作性旨在使Claude在用户的日常运营中更加有用。
Claude现在可以跨开发者定义的函数或API进行编排,搜索网络资源,并从私有知识库中检索信息。用户可以为Claude定义一组工具,并指定一个请求。然后模型将决定完成任务所需的工具,并代表用户执行操作,例如:
工具使用目前处于早期开发阶段——我们正在构建开发者功能和提示指南,以便更容易地集成到您的应用程序中。我们鼓励用户分享工具使用的反馈,以帮助塑造和改进产品。
我们一直在努力简化开发者控制台体验,同时使测试新提示变得更加容易,以便更快速地学习。我们的新Workbench产品使开发者能够在类似游乐场的体验中迭代提示,并访问新的模型设置以优化Claude的行为。他们可以为不同的项目创建多个提示,并在它们之间导航,并且随着他们的保存,修订被保存以保留历史上下文。开发者还可以生成代码片段,直接在我们的SDK中使用他们的提示。
我们还引入了系统提示,允许用户提供自定义指令给Claude以提高性能。系统提示设置有用的上下文,增强了Claude扮演指定个性和角色的能力,或以一种更可定制、一致的方式结构化响应,以符合用户需求。
Claude 2.1现已在我们的API中可用,并且也在claude.ai的免费和专业层面为我们的聊天界面提供支持。200K令牌上下文窗口的使用为Claude Pro用户保留,他们现在可以上传比以往任何时候都大的文件。我们迫不及待地想看到这些新功能激发的用例,因为我们致力于构建业界最安全、技术最先进的AI系统。
OpenAI最新的推理大模型o1与GPT-4o有什么区别?o1一定比o1 mini更强吗?一文总结OpenAI对o1模型的官方答疑
重磅!OpenAI发布最强推理模型“OpenAI o1”(代号草莓),大模型逻辑推理能力大幅提升,官方宣称超越部分人类博士水平!
如何让大模型(GPT)按照特定的JSON格式输出?OpenAI给出新答案:GPT模型现在可以支持更加友好和精确的格式化JSON输出了!
重磅!OpenAI发布GPT-4o mini,这是GPT-3.5的替代升级版,价格下降60%,但是更快更强!编程能力甚至超过GPT-4!
传闻OpenAI内部大模型推理能力获得进展,Q*项目进化成Strawberry!并且距离发布时间更近了!
OpenAI发布的GPT-4o能力总结,数学推理能力超过所有模型,价格下降一半!
OpenAI首次发布语音合成大模型:VoiceEngine,一个可以用15秒原始录音就可以克隆声音的语音合成大模型
新产品越来越近!OpenAI可能会推出全球最强个人助手Jarvis个人助理工具:OpenAI新商标Voice Engine透露出OpenAI正在做的事情!
OpenAI秘密武器Q*到底是什么?一个神秘帖子的解密:Q*是一个不同于当前大模型推理方式的新对话生成系统
最新消息显示OpenAI可能还在训练GPT-5,可能在今年年中发布GPT-5
2022年全球最大的10家数据处理相关的创业公司
斯坦福2022年度AI指数报告简介及下载链接
内容生成方向的人工智能企业
吴恩达的LandingAI究竟是一家什么样的创业公司
人工智能初创企业Hugging Face是什么样的企业——HuggingFace简介
构建人工智能应用的开发者指南
工业蒸汽量预测-特征工程
一张图看全深度学习中下层软硬件体系结构
亚马逊最新发布Feature Store简介
Scikit-Learn最新更新简介
Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
回归模型中的交互项简介(Interactions in Regression)
贝塔分布(Beta Distribution)简介及其应用
矩母函数简介(Moment-generating function)
使用R语言进行K-means聚类并分析结果
普通最小二乘法(Ordinary Least Squares,OLS)的详细推导过程
H5文件简介和使用
深度学习技巧之Early Stopping(早停法)
手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署
Wishart分布简介