Qwen-Audio - Qwen-Audio

模型详细情况和参数

Qwen-Audio

模型全称
Qwen-Audio
模型简称
Qwen-Audio
模型类型
多模态大模型
发布日期
2023-11-30
预训练文件大小
16.66GB
是否支持中文(中文优化)
最高支持的上下文长度
4K
模型参数数量(亿)
85.0
预训练结果开源商用情况
Tongyi Qianwen RESEARCH LICENSE AGREEMENT - 免费商用授权
模型HuggingFace链接
https://huggingface.co/Qwen/Qwen-Audio
在线演示地址
暂无
DataLearnerAI的模型介绍
基础模型
无基础模型
发布机构

Qwen-Audio 简介

Qwen-Audio是阿里巴巴开源的文本生成语音大模型。这个模型是用Qwen-7B作为语言模型,用OpenAI开源的Whisper-V2作为初始语音编码器共同组合的一个文本生成语音大模型。因此总的参数量达到85亿!通过扩大音频-语言预训练的规模,Qwen-Audio模型能够覆盖超过30种任务和多种音频类型。


Qwen-Audio是一个基座大模型,支持语音相关的很多任务,并且阿里巴巴还通过指令微调开发了Qwen-Audio-Chat,支持多轮、多语言、多语言对话。Qwen-Audio和Qwen-Audio-Chat模型均已开源。


Qwen-Audio模型支持的任务

任务类型任务描述
自动语音识别(ASR)识别和转录人类语音。
语音到文本翻译(S2TT)将语音内容翻译成不同语言的文本。
自动音频描述(AAC)为音频内容生成描述性文本。
声音场景分类(ASC)识别和分类不同的声音场景。
语音情感识别(SER)分析语音中的情感表达。
音频问答(AQA)对音频内容进行问答。
声音分类(VSC)对不同类型的声音进行分类。
音乐音符分析(MNA)分析音乐作品中的音符和结构。


当前语音模型的问题

  1. 多样性和广泛性的不足:传统的音频-语言模型通常专注于特定类型的音频处理任务,如语音识别、音乐分类或环境声音识别。这种专注性限制了模型在处理不同类型音频任务时的适应性和泛化能力。
  2. 任务特定的训练和微调:大多数现有模型需要针对每个特定任务进行单独的训练和微调。这种方法不仅耗时耗力,而且每次针对新任务的训练都可能需要大量的标注数据。
  3. 标签和数据的不一致性:在多任务学习环境中,不同任务和数据集的文本标签可能存在显著差异,这导致在共同训练多个任务时出现干扰和性能下降的问题。
  4. 缺乏统一的框架:现有模型往往缺乏一个统一的框架来同时处理多种音频类型和任务,这限制了它们在更复杂、更多样化的音频处理场景中的应用。
  5. 缺乏多轮对话支持:许多现有音频-语言模型不支持或在处理多轮对话方面表现不佳,这限制了它们在对话系统和交互式应用中的有效性。

Qwen-Audio模型正是为了克服这些局限性而设计的,它通过扩大预训练的规模,采用多任务训练框架,并引入层次化标签来提高模型在处理多种音频类型和任务时的性能和适应性。


Qwen-Audio模型的方案


Qwen-Audio模型采用了一些创新的方法和多样化的数据集来提高其在音频-语言理解任务中的性能。以下是这个模型采用的主要方法和数据集的详细说明:

  1. 大规模音频-语言预训练:Qwen-Audio模型通过在大规模数据集上进行预训练,提高了模型对不同音频类型和任务的适应性和理解能力。
  2. 多任务训练框架:为了解决不同任务和数据集在文本标签上的差异性问题,Qwen-Audio采用了一个多任务训练框架。这个框架能够有效地处理不同任务之间的干扰,提高模型在多任务学习环境中的性能。
  3. 层次化标签条件:在多任务训练过程中,Qwen-Audio模型使用一系列层次化标签来条件化解码器。这种方法有助于模型更好地理解和区分不同任务的特定需求和特征。
  4. 无需任务特定微调:与传统模型不同,Qwen-Audio能够在不同的基准任务上直接表现出色,而无需针对每个任务进行特定的微调。






Qwen-Audio模型的效果



Qwen-Audio的开源情况

这个模型完全开源,允许免费商用。


欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

Qwen-Audio所属的领域
多模态学习

多模态学习

Multimodal Learning

35个资源

Qwen-Audio相关的任务
自动语音识别

自动语音识别

Automatic Speech Recognition

35个资源

语音生成

语音生成

Speech Generation

35个资源