AudioGPT 简介
AudioGPT是浙江大学、北京大学、CMU和中国人民大学多家研究机构联合推出的一个多模态AI系统。
尽管大模型在文本处理和生成方面取得了成功的应用,但在音频、声音等领域表现不好,主要原因:
- 数据:获取人工标注的语音数据是一项昂贵且耗时的任务,而提供实际口语对话的资源非常有限。此外,与网络文本数据的广泛语料库相比,语音数据量有限,多语种会话语音数据更为稀缺;
- 计算资源:从头开始训练多模态LLM计算上密集且耗时。考虑到已经存在能够理解和生成语音、音乐、声音和人头像的音频基础模型,从头开始训练将是浪费的。
AudioGPT是一个旨在在口语对话中优秀理解和生成音频模态的系统。具体而言,
- AudioGPT利用各种音频基础模型处理复杂音频信息,而LLM(即ChatGPT)被视为通用接口,这使得AudioGPT能够解决众多音频理解和生成任务;
- AudioGPT不是训练口语语言模型,而是将LLM与输入/输出接口(ASR、TTS)连接以进行语音对话;
如上图所示,AudioGPT的整个过程可以分为四个阶段:
- 模态转换。使用输入/输出接口进行语音和文本之间的模态转换,弥合口语LLM和ChatGPT之间的差距。
- 任务分析。利用对话引擎和提示管理器帮助ChatGPT理解用户的意图以处理音频信息。
- 模型分配。接收有关语调、音色和语言控制的结构化参数,ChatGPT为理解和生成分配音频基础模型。
- 响应生成。在执行音频基础模型后生成并返回给用户最终的响应。