返回
AI Agent小米

MiMo-V2.5-TTS-Series + ASR 正式发布

小米发布 MiMo-V2.5-TTS 系列和开源 MiMo-V2.5-ASR,定位为面向 Agent 的全链路语音模型。

BestBlogs · Agent 关键词39 分钟阅读中文
阅读原文
MiMo-V2.5-TTS-Series + ASR 正式发布
TL;DR: 小米发布 MiMo-V2.5-TTS 系列和开源 MiMo-V2.5-ASR,定位为面向 Agent 的全链路语音模型。
以下为 BestBlogs · Agent 关键词 原文(中文

📌 一句话摘要

        小米发布 MiMo-V2.5-TTS 系列(含标准版、音色设计、音色克隆)与 MiMo-V2.5-ASR,构建面向 Agent 的全链路语音模型,TTS 限时免费,ASR 开源。

    

        
            📝 详细摘要
        

        小米 MiMo 团队正式发布 MiMo-V2.5-TTS 系列与 MiMo-V2.5-ASR,定位为面向 Agent 时代的全链路语音模型。TTS 系列包含三款模型:标准版(内置精品音色,支持精细控制)、VoiceDesign(通过自然语言描述从零生成音色)、VoiceClone(少量样本高保真复刻音色),三者共享风格指令遵循、音频标签控制和文本理解能力。ASR 模型在中英双语、中文方言、Code-Switch、强噪音、多说话人等复杂场景下达到业界领先水平,已开源模型权重和代码。文章还展望了更大规模预训练、通用音频生成、上下文理解和通用语音理解等未来方向,并展示了将 TTS 与 MiMo-V2.5-Pro(规划)和 MiMo-V2.5(聆听)结合的 Agent 式创作链路。

    

        
            💡 主要观点
        

        
            
                    MiMo-V2.5-TTS 系列具备精准的风格指令遵循能力,支持自然语言和导演剧本级结构化输入。
                     用户可以用自然语言描述情绪、语气、语速等,模型即可演绎;对于有声剧等场景,支持人物、场景、指导分层输入,实现角色一致性下的精细控制。
                

                    MiMo-V2.5-TTS-VoiceDesign 支持通过自然语言描述从零生成全新音色,无需参考音频。
                     适用于游戏 NPC、动画角色等场景,模型能合理解读复杂、模糊的描述,生成真人不易提供的独特嗓音。
                

                    MiMo-V2.5-ASR 在复杂真实场景下达到业界领先水平,已开源。
                     支持中文方言、中英 Code-Switch、强噪音、多说话人、歌曲识别等,在多个评测基准上取得最优或极具竞争力的结果,为 Agent 提供可靠的语音转写基座。
                

                    小米规划了 TTS、ASR 与规划模型结合的 Agent 式创作链路。
                     MiMo-V2.5-Pro 负责规划与编剧,TTS 系列负责音色与素材生成,MiMo-V2.5 负责听回与评价,形成从创意到成品的闭环。
                

        
    

        
            💬 文章金句
        

        
            听懂一切,更能表达一切。

会说是门槛,会听、会想、会协作才是价值。 语音表达从来不是孤立的句子游戏。人之所以能'读对',是因为理解上下文。

            📊 文章信息
        

        
            AI 初评:85

来源:小米技术

作者:小米技术

分类:人工智能

语言:中文

阅读时间:17 分钟

字数:4177

                标签:
                
                    MiMo, TTS, ASR, 语音合成, 语音识别
                
            

        
    

    
        阅读完整文章