AudioGPT - AudioGPT

模型详细情况和参数

AudioGPT

模型全称
AudioGPT
模型简称
AudioGPT
模型类型
基础大模型
发布日期
2023-04-25
预训练文件大小
未知
是否支持中文(中文优化)
最高支持的上下文长度
2K
模型参数数量(亿)
0.0
模型代码开源协议
预训练结果开源商用情况
-
模型HuggingFace链接
暂无
在线演示地址
暂无
DataLearnerAI的模型介绍
基础模型
无基础模型
发布机构

AudioGPT 简介

AudioGPT是浙江大学、北京大学、CMU和中国人民大学多家研究机构联合推出的一个多模态AI系统。


尽管大模型在文本处理和生成方面取得了成功的应用,但在音频、声音等领域表现不好,主要原因:

  1. 数据:获取人工标注的语音数据是一项昂贵且耗时的任务,而提供实际口语对话的资源非常有限。此外,与网络文本数据的广泛语料库相比,语音数据量有限,多语种会话语音数据更为稀缺;
  2. 计算资源:从头开始训练多模态LLM计算上密集且耗时。考虑到已经存在能够理解和生成语音、音乐、声音和人头像的音频基础模型,从头开始训练将是浪费的。


AudioGPT是一个旨在在口语对话中优秀理解和生成音频模态的系统。具体而言,

  • AudioGPT利用各种音频基础模型处理复杂音频信息,而LLM(即ChatGPT)被视为通用接口,这使得AudioGPT能够解决众多音频理解和生成任务;
  • AudioGPT不是训练口语语言模型,而是将LLM与输入/输出接口(ASR、TTS)连接以进行语音对话;




如上图所示,AudioGPT的整个过程可以分为四个阶段:


  1. 模态转换。使用输入/输出接口进行语音和文本之间的模态转换,弥合口语LLM和ChatGPT之间的差距。
  2. 任务分析。利用对话引擎和提示管理器帮助ChatGPT理解用户的意图以处理音频信息。
  3. 模型分配。接收有关语调、音色和语言控制的结构化参数,ChatGPT为理解和生成分配音频基础模型。
  4. 响应生成。在执行音频基础模型后生成并返回给用户最终的响应。


欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

AudioGPT所属的领域
多模态学习

多模态学习

Multimodal Learning

35个资源

AudioGPT相关的任务
自动语音识别

自动语音识别

Automatic Speech Recognition

35个资源