千问语音识别模型Qwen3-ASR开源！饶舌RAP歌曲也能轻松识别

发布时间：2026-01-30 10:48:25 浏览量：54

1月29日晚，阿里开源千问语音识别模型Qwen3-ASR系列，在数项权威评测中斩获开源最佳（SOTA），性能直逼当前顶级闭源模型。Qwen3-ASR“听得懂”52种语言与方言，识别准确、稳定、快速，不但能轻松识别语速超快的饶舌RAP歌曲，还可在10 秒内高效处理5小时的音频识别。据了解，阿里此次共开源3款语音模型，最小仅为0.6B，特别适用于AI智能硬件的端侧部署，所有开发者和企业都可免费下载商用。

Qwen3-ASR底座模型是Qwen3-Omni，结合创新的预训练 AuT 语音编码器，实现了语音识别的精准与稳定性的突破，此次开源1.7B和0.6B两个版本。其中，Qwen3-ASR-1.7B 模型语音识别准确率极强，在中文、英文、中文口音与歌唱识别等场景下达到开源最佳 SOTA，具有复杂文本识别能力以及强噪声下的稳定性；而Qwen3-ASR-0.6B 模型则在性能与效率上实现了最佳平衡，在保证语音识别准确率的情况下，128 并发异步服务推理能够达到 2000 倍吞吐，相当于可在10 秒钟处理五个小时以上的音频，同时在离线与在线推理场景下都能保持极低实时率RTF，可轻松满足大规模部署和实时服务的需求。

Qwen3-ASR系列模型实现了语言识别种类的极致扩展，1.7B 与 0.6B模型原生支持多达 30 个语种的语种识别与语音识别，以及22 个中文口音与方言语音识别，还有多个国家与地区的英文口音识别。在汉语领域，Qwen3-ASR-1.7B 整体领先GPT-4o-Transcribe等闭源 API ，方言识别的平均错误率比 Doubao-ASR还要再低 20%。现在，广东话、“港味普通话”和英语混着讲也能被Qwen3-ASR精准识别，新模型还能轻松拿捏语速超快的说唱歌曲，即便在复杂环境中，比如老人/儿童语音、强噪声、鬼畜重复等挑战场景，Qwen3-ASR仍能稳定输出，错误率极低。

此外，为推动AI社区技术创新，阿里此次还一次性开源了自研的语音强制对齐模型 Qwen3-ForcedAligner-0.6B，以及全面易用的推理框架，支持基于 vLLM 的 batch 推理、异步服务、流式推理、时间戳预测功能等，加速产业落地。

据了解，阿里已开源语音合成模型Qwen3-TTS、语音识别模型Qwen3-ASR、全模态模型Qwen3-Omni、视觉理解模型Qwen3-VL、图片生成模型Qwen-Image和编辑模型Qwen-Image-Edit等，是多模态领域开源最广泛、最深入的模型家族。截至目前，阿里已开源400余个模型，千问模型的全球下载突破10亿，衍生模型数突破20万个，模型采用率超53%，远高于第二名Meta-Llama的15%和第三名Google-Gemma的14%，千问大模型已成为公认的全球第一开源模型家族。

— 完 —

量子位 QbitAI · 头条

千问语音识别模型Qwen3-ASR开源！饶舌RAP歌曲也能轻松识别

相似文章