AudioGPT（AudioGPT）详细信息 | 名称、简介、使用方法，开源情况，商用授权信息

AudioGPT - AudioGPT

模型详细情况和参数

模型全称: AudioGPT
模型简称: AudioGPT
模型类型: 基础大模型
发布日期: 2023-04-25
预训练文件大小: 未知
是否支持中文（中文优化）: 否
最高支持的上下文长度: 2K
模型参数数量（亿）: 0.0
模型代码开源协议
预训练结果开源商用情况: -
模型GitHub链接: https://github.com/AIGC-Audio/AudioGPT
模型HuggingFace链接: 暂无
在线演示地址: 暂无
DataLearnerAI的模型介绍
官方博客论文: AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head
基础模型: 无基础模型
发布机构: 浙江大学

AudioGPT是浙江大学、北京大学、CMU和中国人民大学多家研究机构联合推出的一个多模态AI系统。

尽管大模型在文本处理和生成方面取得了成功的应用，但在音频、声音等领域表现不好，主要原因：

数据：获取人工标注的语音数据是一项昂贵且耗时的任务，而提供实际口语对话的资源非常有限。此外，与网络文本数据的广泛语料库相比，语音数据量有限，多语种会话语音数据更为稀缺；
计算资源：从头开始训练多模态LLM计算上密集且耗时。考虑到已经存在能够理解和生成语音、音乐、声音和人头像的音频基础模型，从头开始训练将是浪费的。

AudioGPT是一个旨在在口语对话中优秀理解和生成音频模态的系统。具体而言，

如上图所示，AudioGPT的整个过程可以分为四个阶段：

Multimodal Learning

35个资源

Automatic Speech Recognition

35个资源