ji

jina-embeddings-v2-small-en

embedding模型

jina-embeddings-v2-small-en

发布时间: 2023-10-27

模型参数(Parameters)
0.33
最高上下文长度(Context Length)
8K
是否支持中文
不支持
推理能力(Reasoning)

模型基本信息

最高上下文输入长度

8K tokens

最长输出结果
未披露
模型类型

embedding模型

发布时间

2023-10-27

模型预文件大小

65.4MB

开源和体验地址

代码开源状态
预训练权重开源
Apache 2.0 - 免费商用授权
GitHub 源码
Hugging Face
在线体验
暂无在线体验地址

官方介绍与博客

API接口信息

接口速度
暂无数据
接口价格
输入价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据
输出价格:
  • 文本: 暂无数据
  • 图片: 暂无数据
  • 音频: 暂无数据
  • 视频: 暂无数据
  • Embedding: 暂无数据

输入支持的模态

文本

输入不支持

图片

输入不支持

视频

输入不支持

音频

输入不支持

Embedding(向量)

输入不支持

输出支持的模态

文本

输出不支持

图片

输出不支持

视频

输出不支持

音频

输出不支持

Embedding(向量)

输出不支持

jina-embeddings-v2-small-en模型在各大评测榜单的评分

发布机构

模型介绍

jina-embeddings-v2-small-en是Jina AI推出的一个英语单语种文本嵌入模型,具备处理长达8192个字符序列的能力。该模型基于Bert架构(称为JinaBert),并采用了对称双向ALiBi(Adaptive Length and Bidirectional)技术来增强处理更长文本序列的能力。在C4数据集上进行预训练之后,jina-embeddings-v2-small-en进一步在超过4亿的句子对上进行训练,这些句子对来自多个领域并经过了严格的筛选和清洗过程。

尽管该模型在训练阶段使用了512的序列长度,但得益于ALiBi技术,它能够推断更长的序列,甚至超过训练时的长度。这一特性使得该模型尤其适用于处理长文档的场景,如长文档检索、语义文本相似度分析、文本重排、推荐系统以及基于RAG和LLM的生成式搜索等。

该模型具有3300万个参数,这确保了在保持高性能的同时,还能实现快速和内存高效的推断。作为对比,Jina AI还提供了其他几个版本的嵌入模型,包括基于T5的jina-embeddings-v1系列和支持更长序列的jina-embeddings-v2系列的其他大小版本,为不同需求的用户提供选择。

Jina AI对jina-embeddings-v2-small-en模型的详细技术细节和性能评估均在其V2技术报告中有所披露,允许感兴趣的用户和开发者更深入地了解模型的性能和应用潜力。



  • 模型名称: jina-embeddings-v2-small-en
  • 语言支持: 英语单语种
  • 序列长度支持: 高达8192个字符
  • 架构基础: 基于Bert(JinaBert)
  • 特殊技术应用: 对称双向ALiBi技术支持

训练与数据

  • 预训练数据集: C4数据集
  • 进一步训练数据: 超过4亿的句子对及硬负例
  • 域多样性: 数据覆盖多个领域,经过彻底清洗
  • 训练序列长度: 使用512序列长度进行训练,但能推断至8k长度

应用场景

  • 长文档处理: 长文档检索、语义文本相似度分析
  • 文本处理: 文本重排、推荐系统
  • 搜索引擎: RAG和LLM基于生成式搜索

性能参数

  • 模型参数量: 3300万
  • 推断效率: 高速且内存效率
  • 性能表现: 在长序列文本处理任务中保持印象性能

模型版本对比

  • V1版本(基于T5):
  • V2版本(基于JinaBert,支持8k序列):

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号,接受最新大模型资讯

DataLearnerAI WeChat