MiMo-V2.5-TTS-Series + ASR 正式发布 · RoboRadar

📌 一句话摘要

        小米 MiMo 发布 V2.5 全链路语音模型系列，包含三款 TTS 模型（支持风格指令、音色设计、音色克隆）和一款开源 ASR 模型，面向 Agent 时代的语音交互与内容创作。

    

        
            📝 详细摘要
        

        小米 MiMo 正式发布 MiMo-V2.5-TTS Series 与 MiMo-V2.5-ASR，这是一套面向 Agent 时代的全链路语音模型系列。TTS 系列包含三款模型：MiMo-V2.5-TTS（内置精品音色，支持精细控制）、MiMo-V2.5-TTS-VoiceDesign（通过自然语言描述从零生成音色）、MiMo-V2.5-TTS-VoiceClone（少量样本高保真复刻音色）。三者共享统一的风格指令遵循、音频标签控制与文本理解能力。ASR 模型已开源，在中英双语、中文方言、Code-Switch、强噪音、多说话人等复杂场景下达到业界领先水平。文章还展望了 Agent 式创作链路，将 TTS 与 MiMo-V2.5-Pro（规划）和 MiMo-V2.5（聆听）协同，实现从一句话创意到成品音频的闭环。

    

        
            💡 主要观点
        

        
            
                    MiMo-V2.5-TTS 系列具备精准的风格指令遵循能力。
                     模型能理解从单句指令到导演笔记级别的自然语言描述，支持情绪、语气、语速等多维度控制，并支持分层结构化输入，适合有声剧、游戏 NPC 等场景。
                

                    MiMo-V2.5-TTS-VoiceDesign 支持通过自然语言从零生成全新音色。
                     无需参考音频，用户可用年龄、性别、口音、性格等任意维度描述，模型即可合成对应的角色音色，适用于游戏 NPC、虚拟主播等场景。
                

                    MiMo-V2.5-ASR 在复杂真实场景下达到业界领先水平。
                     支持中文方言、Code-Switch、强噪音、多说话人、歌曲识别等，在多个评测基准上取得最优或极具竞争力的结果，且已开源。
                

                    小米规划了 Agent 式全链路音频创作闭环。
                     将 MiMo-V2.5-Pro（规划编剧）、V2.5-TTS（音色素材）、V2.5（聆听评价）协同，实现从一句话创意到成品音频的自动化创作。
                

        
    

        
            💬 文章金句
        

        
            听懂一切，更能表达一切。

会说是门槛，会听、会想、会协作才是价值。语音表达从来不是孤立的句子游戏。人之所以能'读对'，是因为理解上下文。让声音，成为每个人的创造力。

来源：Xiaomi MiMo

作者：Xiaomi MiMo

分类：人工智能

语言：中文

阅读时间：17 分钟

字数：4123

                标签：
                
                    MiMo, TTS, ASR, 语音合成, 语音识别
                
            

        
    

    
        阅读完整文章