模型详细情况和参数
BGE-M3-Embedding是北京智源人工智能研究院开源的一个最新的Embedding大模型,最大的特点是功能很多,体现在三个层面,包括支持100多种语言、支持短句到长文(最高8K输入)、以及支持多种不同的功能。
BGE-M3-Embedding是在三类数据上训练得到,分别是从无监督数据集种获取弱监督数据、有标签数据集中获得的微调数据以及用人工合成的数据。其中,弱监督数据集包含了11亿多语种的数据集,而微调数据集人工挑选的具有丰富语义结构的数据。
为了让BGE-M3-Embedding向量大模型有更多的能力,BAAI研究人员提出了一种self-knowledge distill技术,让模型可以一次学习多个目标。具体来说,BGE-M3-Embedding有如下能力:
BAAI在之前也开源过BGE系列的向量大模型,取得了非常好的口碑。而此次发布的BGE-M3-Embedding比之前的BGE系列更强。从输入序列长度和输出的向量维度来看都有更大的进步。虽然官方目前没有公布在MTEB的成绩,但是也在多个不同测评上做了对比,详情可参考论文。
Model Name | Dimension | Sequence Length |
---|---|---|
BAAI/bge-m3 | 1024 | 8192 |
BAAI/bge-large-en-v1.5 | 1024 | 512 |
BAAI/bge-base-en-v1.5 | 768 | 512 |
BAAI/bge-small-en-v1.5 | 384 | 512 |
BGE-M3-Embedding以MIT协议开源,代码和预训练结果均无条件商用授权。
BGE-M3-Embedding在不同语言上和其它模型的对比结果:
另外,BGE-M3-Embedding有2个版本,一个是在大量数据做 contrastive learning之后得到的一个无监督版本(bge-m3-unsupervised,参考: https://www.datalearner.com/ai-models/pretrained-models/BGE-M3-Embedding-Unsupervised ),另一个是基于这个无监督版本微调得到的,就是本模型。
BGE-M3-Embedding支持继续微调,详情参考: https://github.com/FlagOpen/FlagEmbedding/tree/master/examples/finetune