加载中...
加载中...
嵌入(Embedding)是深度学习方法处理自然语言文本最重要的方式之一。它将人类的自然语言和文本转换成一个浮点型的向量。向量之间的距离代表了它们的关系。今天,OpenAI宣布了他们的Embedding新模型——text-embedding-ada-002。官方宣称这是目前OpenAI最强的嵌入模型,可以将任意文本转换成一个向量,且效果好于目前所有OpenAI的模型。

嵌入是一种相对低维的空间。借助嵌入,可以更轻松地对表示字词的稀疏向量等大型输入进行机器学习。理想情况下,嵌入会将语义上相似的输入置于嵌入空间中彼此靠近的位置,以捕获输入的一些语义。嵌套可以跨模型学习和重复使用。Embedding可以在如下领域发挥作用:
今天发布的text-embedding-ada-002模型有如下特点:
text-embedding-ada-002在文本搜索、代码搜索和句子相似性任务上优于所有旧的嵌入模型,并在文本分类上获得相当好的性能。
下图就是文本检索领域的评测结果:

OpenAI通过将上述五个独立的模型(文本相似性、文本搜索-查询、文本搜索-文档、代码搜索-文本和代码搜索-代码)合并为一个新的模型,大大简化了/embeddings端点的界面。在一系列不同的文本搜索、句子相似性和代码搜索基准中,这个单一的表述比以前的嵌入模型表现得更好。
新模型的上下文长度增加了4倍,从2048到8192,使得它在处理长文档时更加方便。
新的嵌入只有1536个维度,是davinci-001嵌入尺寸的八分之一,使新的嵌入在处理矢量数据库时更具成本效益。
与同样大小的旧模型相比,新嵌入模型的价格降低了90%。新模型以99.8%的价格实现了与旧Davinci模型更好或类似的性能。
虽然性能看起来不错,但是似乎贵了点,更重要的是国内用不了。