BG

BGE-M3-Embedding

embedding模型

BGE-M3-Embedding

发布时间: 2024-01-30

模型参数(Parameters)
1.13
最高上下文长度(Context Length)
8K
是否支持中文
支持
推理能力(Reasoning)

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

8K tokens

最长输出结果
暂无数据
模型类型

embedding模型

发布时间

2024-01-30

模型预文件大小

2.27GB

开源和体验地址

代码开源状态
预训练权重开源
MIT License - 免费商用授权
GitHub 源码
Hugging Face
在线体验
暂无在线体验地址

API接口信息

接口速度(满分5分)
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

BGE-M3-Embedding模型在各大评测榜单的评分

发布机构

北京智源人工智能研究院
北京智源人工智能研究院
查看发布机构详情

模型介绍

BGE-M3-Embedding是北京智源人工智能研究院开源的一个最新的Embedding大模型,最大的特点是功能很多,体现在三个层面,包括支持100多种语言、支持短句到长文(最高8K输入)、以及支持多种不同的功能。


BGE-M3-Embedding是在三类数据上训练得到,分别是从无监督数据集种获取弱监督数据、有标签数据集中获得的微调数据以及用人工合成的数据。其中,弱监督数据集包含了11亿多语种的数据集,而微调数据集人工挑选的具有丰富语义结构的数据。


为了让BGE-M3-Embedding向量大模型有更多的能力,BAAI研究人员提出了一种self-knowledge distill技术,让模型可以一次学习多个目标。具体来说,BGE-M3-Embedding有如下能力:

  • 支持100多种语言:除了英文和中文外,还支持德语俄语西班牙语等。此外,就中文来说,在简体中文中文(香港)中文(台湾)不同地区的语言表现也很好。
  • 跨语种表现良好:BGE-M3-Embedding支持跨语种检索,输入非英语的查询,基于英文结果检索匹配的MKQA评测中效果超过OpenAI的text-embedding-3
  • 支持不同长度的Embedding提取:前面说了BGE-M3-Embedding最高支持8K的输入,但是它在短句和长文上表现都不错。长文本测评MLDR等表现上超过了JinaEmbedding、OpenAI的text-embedding-3等。
  • 支持密集向量检索(输出指定长度的向量,如1024)、稀疏检索(向量长度等于词汇表长度)以及多向量检索。输入序列长度最高8192输出向量维度1024

BAAI在之前也开源过BGE系列的向量大模型,取得了非常好的口碑。而此次发布的BGE-M3-Embedding比之前的BGE系列更强。从输入序列长度和输出的向量维度来看都有更大的进步。虽然官方目前没有公布在MTEB的成绩,但是也在多个不同测评上做了对比,详情可参考论文。


Model NameDimensionSequence Length
BAAI/bge-m310248192
BAAI/bge-large-en-v1.51024512
BAAI/bge-base-en-v1.5768512
BAAI/bge-small-en-v1.5384512


BGE-M3-Embedding以MIT协议开源,代码和预训练结果均无条件商用授权


BGE-M3-Embedding在不同语言上和其它模型的对比结果:



另外,BGE-M3-Embedding有2个版本,一个是在大量数据做 contrastive learning之后得到的一个无监督版本(bge-m3-unsupervised,参考: https://www.datalearner.com/ai-models/pretrained-models/BGE-M3-Embedding-Unsupervised ),另一个是基于这个无监督版本微调得到的,就是本模型。

BGE-M3-Embedding支持继续微调,详情参考: https://github.com/FlagOpen/FlagEmbedding/tree/master/examples/finetune 


            关注DataLearnerAI公众号

            关注DataLearnerAI微信公众号,接受最新大模型资讯

            DataLearnerAI WeChat