百川智能发布全球最长上下文窗口大模型Baichuan2-192K

<h1 id="h1--baichuan2-192k"><a name="百川智能发布全球最长上下文窗口大模型Baichuan2-192K" class="reference-link"></a><span class="header-link octicon octicon-link"></span>百川智能发布全球最长上下文窗口大模型Baichuan2-192K</h1><p>百川智能于10月30日发布了Baichuan2-192K大模型，其上下文窗口长度高达192K，是目前全球最长的上下文窗口。Baichuan2-192K能够一次处理约35万个汉字，是目前支持长上下文窗口最优秀的大模型Claude2（支持100K上下文窗口，实测约8万字）的4.4倍，更是GPT-4（支持32K上下文窗口，实测约 2.5万字）的14倍。</p>
<h2 id="h2-baichuan2-192k-"><a name="Baichuan2-192K的优势" class="reference-link"></a><span class="header-link octicon octicon-link"></span>Baichuan2-192K的优势</h2><p>Baichuan2-192K不仅在上下文窗口长度上超越Claude2，在长窗口文本生成质量、长上下文理解以及长文本问答、摘要等方面的表现也全面领先Claude2。在Dureader、NarrativeQA、LSHT、TriviaQA等10项中英文长文本问答、摘要的评测集上表现优异，有7项取得SOTA，显著超过其他长窗口模型。</p>
<p>此外，LongEval的评测结果显示，在窗口长度超过100K后Baichuan2-192K依然能够保持非常强劲的性能，而其他开源或者商用模型在窗口长度增长后效果都出现了近乎直线下降的情况。Claude2也不例外，在窗口长度超过80K后整体效果下降非常严重。</p>
<h2 id="h2-baichuan2-192k-"><a name="Baichuan2-192K的技术优化" class="reference-link"></a><span class="header-link octicon octicon-link"></span>Baichuan2-192K的技术优化</h2><p>Baichuan2-192K通过算法和工程的极致优化，实现了窗口长度和模型性能之间的平衡，做到了窗口长度和模型性能的同步提升。算法方面，百川团队提出了一种针对RoPE和ALiBi动态位置编码的外推方案，该方案能够对不同长度的ALiBi位置编码进行不同程度的Attention-mask动态内插，在保证分辨率的同时增强了模型对长序列依赖的建模能力。</p>
<p>工程方面，在自主开发的分布式训练框架基础上，百川团队整合目前市场上所有先进的优化技术，包括张量并行、流水并行、序列并行、重计算以及Offload功能等，独创了一套全面的4D并行分布式方案。该方案能够根据模型具体的负载情况，自动寻找最适合的分布式策略，极大降低了长窗口训练和推理过程中的显存占用。</p>
<h2 id="h2-baichuan2-192k-"><a name="Baichuan2-192K的应用场景" class="reference-link"></a><span class="header-link octicon octicon-link"></span>Baichuan2-192K的应用场景</h2><p>Baichuan2-192K现已正式开启内测，以API调用的方式开放给百川智能的核心合作伙伴，已经与财经类媒体及律师事务所等机构达成了合作，将Baichuan2-192K全球领先的长上下文能力应用到了传媒、金融、法律等具体场景当中。</p>
<p>Baichuan2-192K能够一次性处理和分析数百页材料，对于长篇文档关键信息提取与分析，长文档摘要、长文档审核、长篇文章或报告编写、复杂编程辅助等真实场景都有巨大的助力作用。它可以帮助基金经理总结和解释财务报表，分析公司的风险和机遇；帮助律师识别多个法律文件中的风险，审核合同和法律文件；帮助技术人员阅读数百页的开发文档，并回答技术问题；还能帮助科研人员快速浏览大量论文，总结最新的前沿进展。</p>
<h2 id="h2-u7ED3u8BBA"><a name="结论" class="reference-link"></a><span class="header-link octicon octicon-link"></span>结论</h2><p>Baichuan2-192K的发布，不仅是大模型技术层面的突破，对于学术领域同样有着重要意义。Baichuan2-192K验证了长上下文窗口的可行性，为大模型性能提升开拓出了新的科研路径。在未来，我们期待看到更多的长上下文窗口大模型的应用，为我们的生活带来更多的便利和可能性。</p>

百川智能发布全球最长上下文窗口大模型Baichuan2-192K

欢迎大家关注DataLearner官方微信，接受最新的AI技术推送

相关博客

最热博客