大型语言模型的新扩展规律(DeepMind新论文)——Training Compute-Optimal Large Language Models

3月29日,DeepMind发表了一篇论文,"Training Compute-Optimal Large Language Models",表明基本上每个人--OpenAI、DeepMind、微软等--都在用极不理想的计算方式训练大型语言模型。论文认为这些模型对计算的使用一直处于非常不理想的状态。并提出了新的模型缩放规律。

小木 196 deepmind/论文快讯/语言模型