大模型领域新讨论：自我托管小型LLM与运行GPT-4的成本比较

标签：大模型,GPT-4,LLM,自我托管,成本比较时间：2023-10-20T22:32:08

<h1 id="h1--llm-gpt-4-"><a name="自主托管小型LLM与GPT-4的成本对比分析" class="reference-link"></a><span class="header-link octicon octicon-link"></span>自主托管小型LLM与GPT-4的成本对比分析</h1><p>随着大型模型如GPT-4的日益普及，不少人对其成本表示关注。另一方面，自主托管的小型LLM（如Falcon-7B和Mistral-7B）在某些场景中也展现出较高的性价比。本文旨在对比这两种模型的成本，并为用户提供决策时的参考信息。</p>
<h2 id="h2-1-gpt-4-"><a name="1. GPT-4的成本" class="reference-link"></a><span class="header-link octicon octicon-link"></span>1. GPT-4的成本</h2><p>GPT-4的成本计算相对直观，以一个完整的上下文窗口为例，其成本大约为<strong><span class="editormd-tex">0.30/1k tokens</strong>。其中，8192的上下文窗口的提示tokens需要</span>0.03/1k，完成tokens需要$0.06/1k。</p>
<h2 id="h2-2-llm-"><a name="2. 自主托管小型LLM的成本" class="reference-link"></a><span class="header-link octicon octicon-link"></span>2. 自主托管小型LLM的成本</h2><h3 id="h3-u57FAu672Cu8BA1u7B97"><a name="基本计算" class="reference-link"></a><span class="header-link octicon octicon-link"></span>基本计算</h3><p>首先，自主托管的主要成本在于GPU服务器。假设我们使用的是<a href="https://github.com/LambdaAPI" title="@LambdaAPI" class="at-link">@LambdaAPI</a>的H100服务器，小时费用为$2。之前的测试中，使用Falcon-7B模型，在4090上的性能大约是<strong>44.1 tokens/sec</strong>。虽然H100的性能会更好，但为了简化计算，我们使用此数字。</p>
<p>基于上述数据，小时tokens数为158,760，所以成本为(<span class="editormd-tex">2/小时) / (158,760 tokens/小时) = <strong>~</span>0.013/1k tokens</strong>。</p>
<h3 id="h3-u4F18u52BF"><a name="优势" class="reference-link"></a><span class="header-link octicon octicon-link"></span>优势</h3><ol>
<li><strong>成本效益</strong>：即使在效率只有10%的情况下，其成本也只是GPT-4的30%左右。</li><li><strong>特定任务的适应性</strong>：如果有一个狭窄的任务，可以对类似Mistral-7B这样的模型进行微调，那么强烈建议选择自主托管。</li></ol>
<h3 id="h3-u52A3u52BF"><a name="劣势" class="reference-link"></a><span class="header-link octicon octicon-link"></span>劣势</h3><ol>
<li><strong>扩展性</strong>：按需付费在扩展时可能更有效。</li><li><strong>模型限制</strong>：上述的模型只有2k的上下文窗口，并不是最有效的模型。例如，Mistral可能在成本/令牌方面的性能更好。</li><li><strong>维护成本</strong>：部分节省的成本可能会用于维护。</li></ol>
<h2 id="h2-3-"><a name="3. 总结" class="reference-link"></a><span class="header-link octicon octicon-link"></span>3. 总结</h2><p>从上述对比中可以看出，对于特定的需求和场景，自主托管的小型LLM可能具有更高的性价比。但同时也要考虑到模型的限制和维护成本。建议用户根据自己的具体需求进行选择。</p>
<blockquote>
<p><em>注意：以上计算是基于特定的数据和假设，可能存在一定的误差。</em></p>
</blockquote>

大模型领域新讨论：自我托管小型LLM与运行GPT-4的成本比较

欢迎大家关注DataLearner官方微信，接受最新的AI技术推送

相关博客

最热博客