AudioGPT
AudioGPT
模型参数
未披露
上下文长度
2K
中文支持
不支持
推理能力
模型基本信息
推理过程
不支持
上下文长度
2K tokens
最大输出长度
暂无数据
模型类型
暂无数据
发布时间
2023-04-25
模型文件大小
暂无数据
MoE架构
否
总参数 / 激活参数
0.0 亿 / 不涉及
知识截止
暂无数据
推理模式
暂无模式数据
开源和体验地址
代码开源状态
暂无数据
预训练权重开源
暂无数据
Hugging Face
暂无开源HuggingFace地址
在线体验
暂无在线体验地址
官方介绍与博客
DataLearnerAI博客
暂无介绍博客
API接口信息
接口速度
暂无数据
暂无公开的 API 定价信息。
评测得分
当前尚无可展示的评测数据。
发布机构
浙江大学
查看发布机构详情 模型解读
AudioGPT是浙江大学、北京大学、CMU和中国人民大学多家研究机构联合推出的一个多模态AI系统。
尽管大模型在文本处理和生成方面取得了成功的应用,但在音频、声音等领域表现不好,主要原因:
- 数据:获取人工标注的语音数据是一项昂贵且耗时的任务,而提供实际口语对话的资源非常有限。此外,与网络文本数据的广泛语料库相比,语音数据量有限,多语种会话语音数据更为稀缺;
- 计算资源:从头开始训练多模态LLM计算上密集且耗时。考虑到已经存在能够理解和生成语音、音乐、声音和人头像的音频基础模型,从头开始训练将是浪费的。
AudioGPT是一个旨在在口语对话中优秀理解和生成音频模态的系统。具体而言,
- AudioGPT利用各种音频基础模型处理复杂音频信息,而LLM(即ChatGPT)被视为通用接口,这使得AudioGPT能够解决众多音频理解和生成任务;
- AudioGPT不是训练口语语言模型,而是将LLM与输入/输出接口(ASR、TTS)连接以进行语音对话;

如上图所示,AudioGPT的整个过程可以分为四个阶段:
- 模态转换。使用输入/输出接口进行语音和文本之间的模态转换,弥合口语LLM和ChatGPT之间的差距。
- 任务分析。利用对话引擎和提示管理器帮助ChatGPT理解用户的意图以处理音频信息。
- 模型分配。接收有关语调、音色和语言控制的结构化参数,ChatGPT为理解和生成分配音频基础模型。
- 响应生成。在执行音频基础模型后生成并返回给用户最终的响应。
DataLearner 官方微信
欢迎关注 DataLearner 官方微信,获得最新 AI 技术推送
