BG

BGE-Large-zh

embedding模型

BAAI General Embedding - Large - zh

发布时间: 2023-08-02

模型参数(Parameters)
3.0
最高上下文长度(Context Length)
0.512K
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

0.512K tokens

最长输出结果
暂无数据
模型类型

embedding模型

发布时间

2023-08-02

模型预文件大小

1.3GB

开源和体验地址

代码开源状态
预训练权重开源
MIT License - 免费商用授权
GitHub 源码
Hugging Face
在线体验
暂无在线体验地址

官方介绍与博客

官方论文
DataLearnerAI博客
暂无介绍博客

API接口信息

接口速度(满分5分)
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

BGE-Large-zh模型在各大评测榜单的评分

发布机构

北京智源人工智能研究院
北京智源人工智能研究院
查看发布机构详情

模型介绍

BAAI General Embedding是北京智源人工智能研究院开源的一系列embedding大模型,简称BGE,支持中文和英文的embedding。这里的BGE-Large-zh是BGE系列中参数规模最大的中文向量大模型,参数3.26亿。输入序列512,输出维度1024。


BGE-Large-zh模型是基于BERT-like架构,特别是在特殊的[CLS]标记的最后一层隐藏状态被训练来作为文本的嵌入表示。这种架构允许模型捕获文本中的丰富语义信息,并将其压缩到一个固定大小的向量中,这对于许多下游任务(如文本检索、分类和聚类)至关重要。


BGE-Large-zh模型的评测结果

 在C-MTEB(一项综合评估中文文本嵌入通用性的基准)上,BGE-Large-zh模型在各项任务中均表现出色,平均性能达到63.96%。特别是在检索、语义文本相似性(STS)、配对分类和重排序任务上,该模型显示了明显的优势,这证明了其优越的通用性和鲁棒性。超越了当前所有的中文向量大模型。


下图是BGE-Large-Zh和其它中文向量大模型在C-MTEB上的评测结果。所有的得分均为最高!

模型DimRetrievalSTSPair CLFCLFRe-rankClusterAverage
Text2Vec (base)76838.7943.4167.4162.1949.4537.6648.59
Text2Vec (large)102441.9444.9770.8660.6649.1630.0248.56
Luotuo (large)102444.4042.7966.6261.049.2544.3950.12
M3E (base)76856.9150.4763.9967.5259.3447.6857.79
M3E (large)102454.7550.4264.3068.2059.6648.8857.66
Multi. E5 (base)76861.6346.4967.0765.3554.3540.6856.21
Multi. E5 (large)102463.6648.4469.8967.3456.0048.2358.84
OpenAI-Ada-002153652.0043.3569.5664.3154.2845.6853.02
BGE (small)51263.0749.4570.3563.6461.4845.0958.28
BGE (base)76869.5354.1277.5067.0764.9147.6362.80
BGE (large)102471.5354.9878.9468.3265.1148.3963.96


BGE-Large-zh模型训练的数据集

BGE-Large-zh模型使用C-MTP(Chinese Massive Text Pairs)作为训练数据,该数据集包括100M(1亿)文本对。C-MTP综合了标注数据和未标注数据,来自于多种来源,如Wudao语料库、科学文献、XLSUM-Zh、Wiki-Atomic-Edit、AmazonReviews-Zh等,确保了数据的大规模、多样性和质量。


BGE系列模型在论文中也成为C-TEM系列模型,但BGE更为著名。C-TEM全称是Chinese Text Embedding Models。


BGE-Large-zh模型开源情况

效果很好,重要的BGE-Large-zh是免费商用授权!

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat