OpenAI更新新版的Assistant API接口到Assistant API v2版本，现在你可以让GPT-4同时搜索1万个文件

标签：#AIAgent##AssistantAPI# 时间：2024/04/18 09:14:16 作者：小木

Assistant API是OpenAI提供的一个大模型助手类的接口，可以让开发者更加自由、准确地构建类AI Assitant系统。一个AI Assistant可以利用大模型、工具和文件来响应用户的问题。

<center>![](https://www.datalearner.com/resources/blog_images/2025f1c3-c609-4c20-b921-4d93eba085aa.png)</center>
<center></center>

简单来说，AssistantAPI允许你将你的接口、数据、指令交给GPT-4，GPT-4根据你的数据和接口，自动规划使用你提供的工具来回复用户的问题。

[TOC]

#### OpenAI Assistant API v2更新内容

今天，OpenAI官方宣布AssitantAPI升级到了v2版本，相比此前的版本，最大的特点是将支持的检索的文件数量提高到了1万个，比v1版本增长500倍！

除了这个特性外，OpenAI的Assitant API v2版本还有如下变化：

1. **改进的检索工具**：file_search能力升级，每个助手可以处理多达 10,000 个文件，比之前的能力大得多。它更快速，支持并行查询，并具有增强的重新排名和查询重写功能。

2. **向量存储对象**：除了 file_search，API 还添加了 vector_store 对象。这些对象自动解析、分块和嵌入文件，简化了跨助手和线程的文件管理。

3. **tokens使用控制**：用户现在可以控制每次运行中使用的最大tokens数量，有助于管理tokens使用成本。他们还可以设置先前或最近使用的消息数量的限制。

4. **工具选择参数**：支持 tool_choice 参数，允许用户指定在特定运行中使用哪个工具，例如 file_search 或 code_interpreter。

5. **自定义会话历史**：现在可以创建带有助手角色的消息，以定制 Threads 中的会话历史记录。

6. **模型配置参数**：助手和运行对象现在支持流行的模型配置参数，如温度、response_format（JSON 模式）和 top_p。

7. **支持微调模型**：现在可以在助手 API 中使用微调模型，目前仅限于 gpt-3.5-turbo-0125。

8. **流式支持**：助手 API 现在支持流式处理。

9. **SDK 增强**：Node 和 Python SDK 中添加了几个流式处理和轮询辅助工具。

详情情况参考：https://platform.openai.com/docs/assistants/whats-new

#### OpenAI的AssistantAPI的文件向量化处理

这其中向量处理的模式可以关注一下：
默认的文件块大小是800个tokens，重复的tokens是400个
默认向量块（chunk）的重复是50%
可以支持元数据过滤
支持CSV文件的提取

#### Assistant API与GPTs的区别

Assistant API面向普通用户的版本就是界面化的GPTs，而Assistant API可以说是面向开发者的GPTs了。

具体参考：https://www.datalearner.com/blog/1051701996595465