2026-02-13 10:48 点击次数:166
IT之家1月29日消息,阿里千问团队今日正式开源Qwen3-ASR系列模型,该模型是由Qwen开发的一系列功能强大的语音识别模型,包括两个强大且全面的语音识别模型Qwen3-ASR-1.7B与Qwen3-ASR-0.6B,以及一个创新的语音强制对齐模型Qwen3-ForcedAligner-0.6B。Qwen3-ASR系列的语音识别模型支持52个语种与方言的语种识别与语音识别。
据官方介绍,依托创新的预训练AuT语音编码器与Qwen3-Omni基座模型的强大多模态能力,Qwen3-ASR实现了精准与稳定的语音识别,其1.7B模型在中文、英文、中文口音与歌唱识别等场景下达到SOTA,具有复杂文本识别能力以及强噪声下的稳定性;0.6B模型在性能与效率上实现了均衡,在保证语音识别准确率的情况下,128并发异步服务推理能够达到2000倍吞吐,即10秒钟处理五个小时以上的音频。
强制对齐模型Qwen3-ForcedAligner-0.6B是基于NARLLM推理的时间戳预测模型,支持11个语种的任意位置的灵活精准的强制对齐,其时间戳预测精度超越传统的WhisperX,Nemo-Forced-Aligner等模型,单并发推理RTF达到了高效的0.0089。
阿里千问团队称,希望Qwen3-ASR系列模型的开源能够推动语音识别与理解的研究与发展,三个模型的结构与权重、以及一个全面易用的推理框架将一并开源。

模型列表:

IT之家附官方介绍如下:
Qwen3-ASR核心特性
All-in-one:Qwen3-ASR-1.7B与Qwen3-ASR-0.6B均通过单一模型支持30个语种的语种识别与语音识别、22个中文口音与方言语音识别、多个国家与地区的英文口音识别。
准确而快速的语音识别能力:在复杂的声学环境与文本模式的场景下,Qwen3-ASR系列模型均能保持稳定鲁棒的语音识别能力,包括歌唱识别等。Qwen3-ASR-1.7B实现了语音识别准确率的全面领先,在开源与闭源自建评测上较主流开源模型与众多商用API上更优。0.6B模型则实现了性能与效率的均衡,在异步推理模式下,128并发的该模型能够达到2000倍的吞吐,处理5个小时的音频仅需要10秒。Qwen3-ASR-1.7B与Qwen3-ASR-0.6B均支持流式/非流式一体化推理,最长一次性处理20分钟的音频。
独创且强大的强制对齐模型:我们推出Qwen3-ForcedAligner-0.6B,一个支持11个语种在5分钟之内语音的任意单元的时间戳预测,经评测其时间戳精度超越了一众基于传统端到端方案的强制对齐模型,其非自回归的推理逻辑保证了推理的高效性。
全面且易用的推理与微调工具:除了Qwen3-ASR系列模型的结构与权重开源,我们一次性推出强大且全面的推理框架,支持基于vLLM的batch推理、异步服务、流式推理、时间戳预测功能等。

ASR模型效果
我们对Qwen3-ASR系列模型在中文/英文、多语种、中文方言、歌声识别,以及复杂声学与复杂语言场景下进行了系统评估。结果显示,Qwen3-ASR-1.7B在多个维度的公开与内部基准上取得开源SOTA;同时对比多家商业公司最新的ASRAPI,在若干基准上也取得最佳成绩。具体来说:
英文:不仅在常见公开基准上达到最优,我们还在内部构建的覆盖16个国家口音的英文测试集上进行评测,整体表现全面优于GPT-4oTranscribe、Gemini系列、DoubaoASR系列,以及综合能力最强的开源模型Whisper-large-v3。
多语种:最高支持30种语言;在20个主流语种上,Qwen3-ASR-1.7B全面超过现有开源模型,取得最佳平均WER。
中文与方言:在普通话、粤语及22种地区方言上,Qwen3-ASR-1.7B整体领先商业API与开源模型;尤其在方言上,相比Doubao-ASR平均错误率再降20%(15.94vs19.85)。
复杂声学/语言场景:面对老人/儿童语音、极低信噪比、鬼畜重复等挑战场景,仍能稳定输出,保持极低的字/词错误率。
歌唱识别:支持带BGM的整首歌中/英文转写;中文/英文分别达到13.91%/14.60%平均WER。

Qwen3-ASR-0.6B在性能与效率之间实现了良好平衡:不仅在多项中英文测试基准上表现稳健,而且无论离线还是在线推理,在高并发场景下都能保持极低RTF与极高吞吐。例如:单并发下100倍加速比;异步服务128并发下2000倍加速比,10秒钟处理五个小时音频。


强制对齐模型效果
强制对齐模型Qwen3-ForcedAligner-0.6B支持11种语言的高精度强制对齐,可在音频中任意位置进行灵活、精准的时间戳标注。与常用主流对齐工具相比,我们在可支持语种覆盖与时间戳预测精度上均取得更优表现,整体超过WhisperX、NeMo-ForcedAligner(NFA)等方案。

Qwen3-ASR
下一篇:没有了