站点出售QQ:1298774350
你现在的位置:首页 > 演出资讯  > 歌剧话剧

千问语音识别模型Qwen3-ASR开源!饶舌RAP歌曲也能轻松识别

发布时间:2026-01-30 10:48:25  浏览量:2

1月29日晚,阿里开源千问语音识别模型Qwen3-ASR系列,在数项权威评测中斩获开源最佳(SOTA),性能直逼当前顶级闭源模型。Qwen3-ASR“听得懂”52种语言与方言,识别准确、稳定、快速,不但能轻松识别语速超快的饶舌RAP歌曲,还可在10 秒内高效处理5小时的音频识别。据了解,阿里此次共开源3款语音模型,最小仅为0.6B,特别适用于AI智能硬件的端侧部署,所有开发者和企业都可免费下载商用。

Qwen3-ASR底座模型是Qwen3-Omni,结合创新的预训练 AuT 语音编码器,实现了语音识别的精准与稳定性的突破,此次开源1.7B和0.6B两个版本。其中,Qwen3-ASR-1.7B 模型语音识别准确率极强,在中文、英文、中文口音与歌唱识别等场景下达到开源最佳 SOTA,具有复杂文本识别能力以及强噪声下的稳定性;而Qwen3-ASR-0.6B 模型则在性能与效率上实现了最佳平衡,在保证语音识别准确率的情况下,128 并发异步服务推理能够达到 2000 倍吞吐,相当于可在10 秒钟处理五个小时以上的音频,同时在离线与在线推理场景下都能保持极低实时率RTF,可轻松满足大规模部署和实时服务的需求。

Qwen3-ASR系列模型实现了语言识别种类的极致扩展,1.7B 与 0.6B模型原生支持多达 30 个语种的语种识别与语音识别,以及22 个中文口音与方言语音识别,还有多个国家与地区的英文口音识别。在汉语领域,Qwen3-ASR-1.7B 整体领先GPT-4o-Transcribe等闭源 API ,方言识别的平均错误率比 Doubao-ASR还要再低 20%。现在,广东话、“港味普通话”和英语混着讲也能被Qwen3-ASR精准识别,新模型还能轻松拿捏语速超快的说唱歌曲,即便在复杂环境中,比如老人/儿童语音、强噪声、鬼畜重复等挑战场景,Qwen3-ASR仍能稳定输出,错误率极低。

此外,为推动AI社区技术创新,阿里此次还一次性开源了自研的语音强制对齐模型 Qwen3-ForcedAligner-0.6B,以及全面易用的推理框架,支持基于 vLLM 的 batch 推理、异步服务、流式推理 、时间戳预测功能等,加速产业落地。

据了解,阿里已开源语音合成模型Qwen3-TTS、语音识别模型Qwen3-ASR、全模态模型Qwen3-Omni、视觉理解模型Qwen3-VL、图片生成模型Qwen-Image和编辑模型Qwen-Image-Edit等,是多模态领域开源最广泛、最深入的模型家族。截至目前,阿里已开源400余个模型,千问模型的全球下载突破10亿,衍生模型数突破20万个,模型采用率超53%,远高于第二名Meta-Llama的15%和第三名Google-Gemma的14%,千问大模型已成为公认的全球第一开源模型家族。

— 完 —

量子位 QbitAI · 头条