模型详细情况和参数
BAAI General Embedding是北京智源人工智能研究院开源的一系列embedding大模型,简称BGE,支持中文和英文的embedding。这里的BGE-Large-zh是BGE系列中参数规模最大的中文向量大模型,参数3.26亿。输入序列512,输出维度1024。
BGE-Large-zh模型是基于BERT-like架构,特别是在特殊的[CLS]标记的最后一层隐藏状态被训练来作为文本的嵌入表示。这种架构允许模型捕获文本中的丰富语义信息,并将其压缩到一个固定大小的向量中,这对于许多下游任务(如文本检索、分类和聚类)至关重要。
在C-MTEB(一项综合评估中文文本嵌入通用性的基准)上,BGE-Large-zh模型在各项任务中均表现出色,平均性能达到63.96%。特别是在检索、语义文本相似性(STS)、配对分类和重排序任务上,该模型显示了明显的优势,这证明了其优越的通用性和鲁棒性。超越了当前所有的中文向量大模型。
下图是BGE-Large-Zh和其它中文向量大模型在C-MTEB上的评测结果。所有的得分均为最高!
模型 | Dim | Retrieval | STS | Pair CLF | CLF | Re-rank | Cluster | Average |
---|---|---|---|---|---|---|---|---|
Text2Vec (base) | 768 | 38.79 | 43.41 | 67.41 | 62.19 | 49.45 | 37.66 | 48.59 |
Text2Vec (large) | 1024 | 41.94 | 44.97 | 70.86 | 60.66 | 49.16 | 30.02 | 48.56 |
Luotuo (large) | 1024 | 44.40 | 42.79 | 66.62 | 61.0 | 49.25 | 44.39 | 50.12 |
M3E (base) | 768 | 56.91 | 50.47 | 63.99 | 67.52 | 59.34 | 47.68 | 57.79 |
M3E (large) | 1024 | 54.75 | 50.42 | 64.30 | 68.20 | 59.66 | 48.88 | 57.66 |
Multi. E5 (base) | 768 | 61.63 | 46.49 | 67.07 | 65.35 | 54.35 | 40.68 | 56.21 |
Multi. E5 (large) | 1024 | 63.66 | 48.44 | 69.89 | 67.34 | 56.00 | 48.23 | 58.84 |
OpenAI-Ada-002 | 1536 | 52.00 | 43.35 | 69.56 | 64.31 | 54.28 | 45.68 | 53.02 |
BGE (small) | 512 | 63.07 | 49.45 | 70.35 | 63.64 | 61.48 | 45.09 | 58.28 |
BGE (base) | 768 | 69.53 | 54.12 | 77.50 | 67.07 | 64.91 | 47.63 | 62.80 |
BGE (large) | 1024 | 71.53 | 54.98 | 78.94 | 68.32 | 65.11 | 48.39 | 63.96 |
BGE-Large-zh模型使用C-MTP(Chinese Massive Text Pairs)作为训练数据,该数据集包括100M(1亿)文本对。C-MTP综合了标注数据和未标注数据,来自于多种来源,如Wudao语料库、科学文献、XLSUM-Zh、Wiki-Atomic-Edit、AmazonReviews-Zh等,确保了数据的大规模、多样性和质量。
BGE系列模型在论文中也成为C-TEM系列模型,但BGE更为著名。C-TEM全称是Chinese Text Embedding Models。
效果很好,重要的BGE-Large-zh是免费商用授权!