返回
其它XIAOMI MIMO

MiMo-V2.5-TTS-Series + ASR 正式发布

小米 MiMo 发布 V2.5-TTS 系列和已开源的 V2.5-ASR 语音模型。

BestBlogs · Agent 关键词40 分钟阅读中文
阅读原文
MiMo-V2.5-TTS-Series + ASR 正式发布
TL;DR: 小米 MiMo 发布 V2.5-TTS 系列和已开源的 V2.5-ASR 语音模型。
以下为 BestBlogs · Agent 关键词 原文(中文

📌 一句话摘要

        小米 MiMo 发布 V2.5 全链路语音模型系列,包含三款 TTS 模型(支持风格指令、音色设计、音色克隆)和一款开源 ASR 模型,面向 Agent 时代的语音交互与内容创作。

    

        
            📝 详细摘要
        

        小米 MiMo 正式发布 MiMo-V2.5-TTS Series 与 MiMo-V2.5-ASR,这是一套面向 Agent 时代的全链路语音模型系列。TTS 系列包含三款模型:MiMo-V2.5-TTS(内置精品音色,支持精细控制)、MiMo-V2.5-TTS-VoiceDesign(通过自然语言描述从零生成音色)、MiMo-V2.5-TTS-VoiceClone(少量样本高保真复刻音色)。三者共享统一的风格指令遵循、音频标签控制与文本理解能力。ASR 模型已开源,在中英双语、中文方言、Code-Switch、强噪音、多说话人等复杂场景下达到业界领先水平。文章还展望了 Agent 式创作链路,将 TTS 与 MiMo-V2.5-Pro(规划)和 MiMo-V2.5(聆听)协同,实现从一句话创意到成品音频的闭环。

    

        
            💡 主要观点
        

        
            
                    MiMo-V2.5-TTS 系列具备精准的风格指令遵循能力。
                     模型能理解从单句指令到导演笔记级别的自然语言描述,支持情绪、语气、语速等多维度控制,并支持分层结构化输入,适合有声剧、游戏 NPC 等场景。
                

                    MiMo-V2.5-TTS-VoiceDesign 支持通过自然语言从零生成全新音色。
                     无需参考音频,用户可用年龄、性别、口音、性格等任意维度描述,模型即可合成对应的角色音色,适用于游戏 NPC、虚拟主播等场景。
                

                    MiMo-V2.5-ASR 在复杂真实场景下达到业界领先水平。
                     支持中文方言、Code-Switch、强噪音、多说话人、歌曲识别等,在多个评测基准上取得最优或极具竞争力的结果,且已开源。
                

                    小米规划了 Agent 式全链路音频创作闭环。
                     将 MiMo-V2.5-Pro(规划编剧)、V2.5-TTS(音色素材)、V2.5(聆听评价)协同,实现从一句话创意到成品音频的自动化创作。
                

        
    

        
            💬 文章金句
        

        
            听懂一切,更能表达一切。

会说是门槛,会听、会想、会协作才是价值。 语音表达从来不是孤立的句子游戏。人之所以能'读对',是因为理解上下文。 让声音,成为每个人的创造力。

            📊 文章信息
        

        
            AI 初评:87

来源:Xiaomi MiMo

作者:Xiaomi MiMo

分类:人工智能

语言:中文

阅读时间:17 分钟

字数:4123

                标签:
                
                    MiMo, TTS, ASR, 语音合成, 语音识别
                
            

        
    

    
        阅读完整文章