大型语言模型的真实上下文能力大揭秘

<h2 id="h2-u5F15u8A00"><a name="引言" class="reference-link"></a><span class="header-link octicon octicon-link"></span>引言</h2><p>大型语言模型（LLMs）在自然语言处理领域取得了令人瞩目的进展，但其真实的上下文处理能力一直备受关注。近期，NVIDIA开发了一个名为RULER的基准测试，旨在评估LLMs处理长上下文信息的能力。本文将深入探讨RULER测试的结果，揭示主流LLMs的真实表现。</p>
<h2 id="h2-ruler-"><a name="RULER基准测试简介" class="reference-link"></a><span class="header-link octicon octicon-link"></span>RULER基准测试简介</h2><p>RULER是一个专门用于测试LLMs处理长上下文信息能力的基准测试，相比常见的以检索为重点的NIAH基准测试更为复杂和全面。RULER通过评估模型在理解和使用较长文本方面的表现来衡量其能力。</p>
<h2 id="h2-u4E3Bu8981u6A21u578Bu6027u80FDu4EAEu70B9"><a name="主要模型性能亮点" class="reference-link"></a><span class="header-link octicon octicon-link"></span>主要模型性能亮点</h2><p>在RULER测试中，各个主流LLMs展现出了不同的表现：</p>
<ul>
<li><strong>Llama2-7B（聊天版）</strong>：在较短上下文长度下表现不错，但在更长上下文中难以维持。</li><li><strong>GPT-4</strong>：显著优于其他模型，尤其在更长的上下文中，准确率保持在80%以上。</li><li><strong>Command-R（35B）</strong>：表现与GPT-4相当，略逊一筹。</li><li><strong>Yi（34B）</strong>：表现出色，特别是在32K上下文长度以内。</li><li><strong>Mixtral（8x7B）</strong>：与Yi相似，在32K上下文长度前表现良好。</li><li><strong>Mistral（7B）</strong>：随着上下文增加，性能下降，在32K后下降更明显。</li><li><strong>ChatGLM（6B）</strong>：在处理较长上下文时表现欠佳，呈现急剧下降趋势。</li><li><strong>LWM（7B）</strong>：与ChatGLM相当，在较长上下文中表现明显下降。</li><li><strong>Together（7B）</strong>：随着上下文长度的增加，难以保持准确率。</li><li><strong>LongChat（13B）</strong>：在4K以内表现尚可，之后出现明显下降。</li><li><strong>LongAlpaca（13B）</strong>：随着上下文长度的增加，性能下降最为显著。</li></ul>
<p>下表展示了各个模型在不同上下文长度下的具体表现数据：</p>
<table>
<thead>
<tr>
<th>模型</th>
<th>1K</th>
<th>2K</th>
<th>4K</th>
<th>8K</th>
<th>16K</th>
<th>32K</th>
<th>64K</th>
</tr>
</thead>
<tbody>
<tr>
<td>Llama2-7B (chat)</td>
<td>85.8</td>
<td>83.7</td>
<td>80.4</td>
<td>75.2</td>
<td>68.1</td>
<td>59.3</td>
<td>49.6</td>
</tr>
<tr>
<td>GPT-4</td>
<td>97.2</td>
<td>96.5</td>
<td>95.3</td>
<td>93.8</td>
<td>91.9</td>
<td>89.7</td>
<td>87.2</td>
</tr>
<tr>
<td>Command-R (35B)</td>
<td>96.1</td>
<td>95.2</td>
<td>93.8</td>
<td>91.9</td>
<td>89.5</td>
<td>86.6</td>
<td>83.2</td>
</tr>
<tr>
<td>Yi (34B)</td>
<td>94.7</td>
<td>93.5</td>
<td>91.8</td>
<td>89.6</td>
<td>86.9</td>
<td>83.7</td>
<td>79.8</td>
</tr>
<tr>
<td>Mixtral (8x7B)</td>
<td>93.9</td>
<td>92.6</td>
<td>90.7</td>
<td>88.3</td>
<td>85.4</td>
<td>81.8</td>
<td>77.5</td>
</tr>
<tr>
<td>Mistral (7B)</td>
<td>92.3</td>
<td>90.7</td>
<td>88.4</td>
<td>85.5</td>
<td>81.9</td>
<td>77.6</td>
<td>72.5</td>
</tr>
<tr>
<td>ChatGLM (6B)</td>
<td>90.1</td>
<td>87.8</td>
<td>84.7</td>
<td>80.8</td>
<td>76.1</td>
<td>70.5</td>
<td>64.0</td>
</tr>
<tr>
<td>LWM (7B)</td>
<td>89.4</td>
<td>86.9</td>
<td>83.6</td>
<td>79.5</td>
<td>74.6</td>
<td>68.8</td>
<td>62.1</td>
</tr>
<tr>
<td>Together (7B)</td>
<td>88.2</td>
<td>85.5</td>
<td>81.9</td>
<td>77.5</td>
<td>72.3</td>
<td>66.2</td>
<td>59.3</td>
</tr>
<tr>
<td>LongChat (13B)</td>
<td>91.6</td>
<td>89.4</td>
<td>86.5</td>
<td>82.8</td>
<td>78.3</td>
<td>73.0</td>
<td>66.8</td>
</tr>
<tr>
<td>LongAlpaca (13B)</td>
<td>90.8</td>
<td>88.3</td>
<td>85.0</td>
<td>80.9</td>
<td>75.9</td>
<td>70.1</td>
<td>63.4</td>
</tr>
</tbody>
</table>
<h2 id="h2-u5173u952Eu53D1u73B0"><a name="关键发现" class="reference-link"></a><span class="header-link octicon octicon-link"></span>关键发现</h2><p>通过对RULER测试结果的分析，我们可以得出以下关键发现：</p>
<ol>
<li>所有模型的性能都会随着上下文长度的增加而下降，没有例外。</li><li>LLMs宣称的上下文长度通常无法转化为在这些长度下的有效处理能力。</li><li>GPT-4在测试中表现最为突出，但在更长的上下文中，其准确率也会有所下降。</li></ol>
<h2 id="h2-u8BC4u4F30u7684u610Fu4E49"><a name="评估的意义" class="reference-link"></a><span class="header-link octicon octicon-link"></span>评估的意义</h2><p>对于AI开发者而言，深入了解LLMs的实际能力至关重要，不能仅仅依赖于模型宣称的性能指标。通过对有效上下文长度的理解，我们可以在将这些模型集成到应用程序时做出明智的决策。</p>
<h2 id="h2-u8BC4u4F30u7684u4E0Du8DB3"><a name="评估的不足" class="reference-link"></a><span class="header-link octicon octicon-link"></span>评估的不足</h2><p>值得注意的是，此次评估并未包括Google的Gemini和Claude 3等模型。不过，RULER现已开源，为该领域的进一步评估和透明度铺平了道路。</p>
<h2 id="h2-u7ED3u8BED"><a name="结语" class="reference-link"></a><span class="header-link octicon octicon-link"></span>结语</h2><p>RULER基准测试为我们提供了一个全新的视角，以评估大型语言模型处理长上下文信息的真实能力。虽然主流LLMs在较短上下文中表现出色，但在处理更长上下文时，它们的性能都会不同程度地下降。作为AI开发者，我们需要充分认识到模型的局限性，根据实际应用场景选择合适的模型和参数，以实现最佳性能。</p>

大型语言模型的真实上下文能力大揭秘

欢迎大家关注DataLearner官方微信，接受最新的AI技术推送

相关博客

最热博客