MiMo-V2.5-TTS-Series + ASR 正式发布 · RoboRadar

📌 一句话摘要

        小米发布 MiMo-V2.5-TTS 系列（含标准版、音色设计、音色克隆）与 MiMo-V2.5-ASR，构建面向 Agent 的全链路语音模型，TTS 限时免费，ASR 开源。

    

        
            📝 详细摘要
        

        小米 MiMo 团队正式发布 MiMo-V2.5-TTS 系列与 MiMo-V2.5-ASR，定位为面向 Agent 时代的全链路语音模型。TTS 系列包含三款模型：标准版（内置精品音色，支持精细控制）、VoiceDesign（通过自然语言描述从零生成音色）、VoiceClone（少量样本高保真复刻音色），三者共享风格指令遵循、音频标签控制和文本理解能力。ASR 模型在中英双语、中文方言、Code-Switch、强噪音、多说话人等复杂场景下达到业界领先水平，已开源模型权重和代码。文章还展望了更大规模预训练、通用音频生成、上下文理解和通用语音理解等未来方向，并展示了将 TTS 与 MiMo-V2.5-Pro（规划）和 MiMo-V2.5（聆听）结合的 Agent 式创作链路。

    

        
            💡 主要观点
        

        
            
                    MiMo-V2.5-TTS 系列具备精准的风格指令遵循能力，支持自然语言和导演剧本级结构化输入。
                     用户可以用自然语言描述情绪、语气、语速等，模型即可演绎；对于有声剧等场景，支持人物、场景、指导分层输入，实现角色一致性下的精细控制。
                

                    MiMo-V2.5-TTS-VoiceDesign 支持通过自然语言描述从零生成全新音色，无需参考音频。
                     适用于游戏 NPC、动画角色等场景，模型能合理解读复杂、模糊的描述，生成真人不易提供的独特嗓音。
                

                    MiMo-V2.5-ASR 在复杂真实场景下达到业界领先水平，已开源。
                     支持中文方言、中英 Code-Switch、强噪音、多说话人、歌曲识别等，在多个评测基准上取得最优或极具竞争力的结果，为 Agent 提供可靠的语音转写基座。
                

                    小米规划了 TTS、ASR 与规划模型结合的 Agent 式创作链路。
                     MiMo-V2.5-Pro 负责规划与编剧，TTS 系列负责音色与素材生成，MiMo-V2.5 负责听回与评价，形成从创意到成品的闭环。
                

        
    

        
            💬 文章金句
        

        
            听懂一切，更能表达一切。

会说是门槛，会听、会想、会协作才是价值。语音表达从来不是孤立的句子游戏。人之所以能'读对'，是因为理解上下文。

来源：小米技术

作者：小米技术

分类：人工智能

语言：中文

阅读时间：17 分钟

字数：4177

                标签：
                
                    MiMo, TTS, ASR, 语音合成, 语音识别
                
            

        
    

    
        阅读完整文章