Qwen-Audio
发布时间: 2023-11-30
4K tokens
多模态大模型
2023-11-30
16.66GB
输入不支持
输入不支持
输入不支持
输入不支持
输入不支持
输出不支持
输出不支持
输出不支持
输出不支持
输出不支持
Qwen-Audio是阿里巴巴开源的文本生成语音大模型。这个模型是用Qwen-7B作为语言模型,用OpenAI开源的Whisper-V2作为初始语音编码器共同组合的一个文本生成语音大模型。因此总的参数量达到85亿!通过扩大音频-语言预训练的规模,Qwen-Audio模型能够覆盖超过30种任务和多种音频类型。
Qwen-Audio是一个基座大模型,支持语音相关的很多任务,并且阿里巴巴还通过指令微调开发了Qwen-Audio-Chat,支持多轮、多语言、多语言对话。Qwen-Audio和Qwen-Audio-Chat模型均已开源。
任务类型 | 任务描述 |
---|---|
自动语音识别(ASR) | 识别和转录人类语音。 |
语音到文本翻译(S2TT) | 将语音内容翻译成不同语言的文本。 |
自动音频描述(AAC) | 为音频内容生成描述性文本。 |
声音场景分类(ASC) | 识别和分类不同的声音场景。 |
语音情感识别(SER) | 分析语音中的情感表达。 |
音频问答(AQA) | 对音频内容进行问答。 |
声音分类(VSC) | 对不同类型的声音进行分类。 |
音乐音符分析(MNA) | 分析音乐作品中的音符和结构。 |
Qwen-Audio模型正是为了克服这些局限性而设计的,它通过扩大预训练的规模,采用多任务训练框架,并引入层次化标签来提高模型在处理多种音频类型和任务时的性能和适应性。
Qwen-Audio模型采用了一些创新的方法和多样化的数据集来提高其在音频-语言理解任务中的性能。以下是这个模型采用的主要方法和数据集的详细说明:
这个模型完全开源,允许免费商用。
关注DataLearnerAI微信公众号,接受最新大模型资讯