模型详细情况和参数
jina-embeddings-v2-small-en是Jina AI推出的一个英语单语种文本嵌入模型,具备处理长达8192个字符序列的能力。该模型基于Bert架构(称为JinaBert),并采用了对称双向ALiBi(Adaptive Length and Bidirectional)技术来增强处理更长文本序列的能力。在C4数据集上进行预训练之后,jina-embeddings-v2-small-en进一步在超过4亿的句子对上进行训练,这些句子对来自多个领域并经过了严格的筛选和清洗过程。
尽管该模型在训练阶段使用了512的序列长度,但得益于ALiBi技术,它能够推断更长的序列,甚至超过训练时的长度。这一特性使得该模型尤其适用于处理长文档的场景,如长文档检索、语义文本相似度分析、文本重排、推荐系统以及基于RAG和LLM的生成式搜索等。
该模型具有3300万个参数,这确保了在保持高性能的同时,还能实现快速和内存高效的推断。作为对比,Jina AI还提供了其他几个版本的嵌入模型,包括基于T5的jina-embeddings-v1系列和支持更长序列的jina-embeddings-v2系列的其他大小版本,为不同需求的用户提供选择。
Jina AI对jina-embeddings-v2-small-en模型的详细技术细节和性能评估均在其V2技术报告中有所披露,允许感兴趣的用户和开发者更深入地了解模型的性能和应用潜力。