Domain Reweighting with Minimax Optimization是由Google与斯坦福大学研究人员共同提出的一种通过更改训练数据混合比例的方法提供大语言模型训练速度和性能的方法。

大语言模型的训练通常都是通过从多个不同领域数据进行抽样进行的。以Pile数据集为例，它包含24%的web数据集、9%的维基百科数据集、4%的GitHub数据集等。但是，这样的混合比例不一定对LLM的训练是最优的，不同领域的训练数据集的比例不同也会影响模型的训练效果。

当前大多数方法都采用直觉或者根据下游任务情况选择数据集比例。DoReMi方法则是通过提出一个小规模的代理模型先从数据集上训练，寻找最优的数据混合比例，然后再将这个比例用于大模型的训练。

作者做了一个实验，用2.8亿参数的代理模型做数据混合比例的寻优测试，再将该比例数据用于训练一个80亿参数规模的大模型，结果发现，训练速度提升2.6倍，效果提升6.5%。

DoReMi模型的特点、相关参数和训练细节如下：

特点：

相关参数：

DoReMi的域重新加权步骤涉及到T次迭代模型更新，其中T=500。
在训练过程中，使用的小批量大小为1，训练样本数为500，域权重更新率为0.5。
在简单的例子上，DoReMi返回的域权重为[0.39, 0.61, 0.0]，这些权重对应我们的直觉：第一个域（非噪声）增加了一小部分，第三个域（噪声）减少到0权重，大部分权重分配给第二个域。

训练细节：

DoReMi

模型基本信息