返回
具身智能小米

71.与小米陈龙的访谈:90 后 AI 当家、车与机器人的智能,重建一个 Physical AI 的世界观

小米具身基座大模型负责人陈龙称VLA正在把自动驾驶、机器人与Physical AI统一到同一技术路线中。

BestBlogs · 机器人关键词43 分钟阅读中文
阅读原文
71.与小米陈龙的访谈:90 后 AI 当家、车与机器人的智能,重建一个 Physical AI 的世界观
TL;DR: 小米具身基座大模型负责人陈龙称VLA正在把自动驾驶、机器人与Physical AI统一到同一技术路线中。
以下为 BestBlogs · 机器人关键词 原文(中文

📌 一句话摘要

        小米具身基座大模型负责人陈龙博士深度解读 VLA 与智能驾驶及机器人的融合路径,揭示从端到端到 VLA 再到 XLA 的技术演进与物理 AI 的未来图景。

    

        
            📝 详细摘要
        

        本期节目访谈了小米具身基座大模型负责人陈龙博士,他是全球最早将 VLA 与智能驾驶融合的顶尖科学家。节目系统梳理了自动驾驶从三段式到两段式再到 VLA 的技术演进,深入探讨了 VLA 如何通过语言模型的逻辑推理能力解决端到端模型缺乏可解释性和长尾场景泛化能力的问题。陈龙博士分享了小米在业界首次将自动驾驶与机器人任务融合的 Mimo Embodied 具身大脑框架,阐述了通过多阶段学习和后训练实现跨领域数据协同增强的技术细节。他还探讨了世界模型与 VLA 的关系、具身智能面临的 Scaling Law 挑战,以及物理 AI 最终实现统一控制所有智能设备的 EGI(通用具身智能)的宏大愿景。节目中亦展现了小米 90 后 AI 技术管理团队的实践与雷军对年轻管理者的培养理念。

    

        
            💡 主要观点
        

        
            
                    从端到端到 VLA 的跨越解决了可解释性和认知常识问题
                     端到端模型是黑盒,缺乏可解释性且无法应对需要物理常识的长尾场景。VLA 融入语言模型,赋予系统基于逻辑推理的决策能力和对物理世界的认知,如理解红灯停的例外情况。
                

                    Mimo Embodied 框架首次将自动驾驶与机器人任务统一训练
                     该框架利用多阶段学习和思维链技术,让自动驾驶的室外驾驶数据与机器人的室内部件交互数据协同增强,实现跨领域知识迁移,并验证了双向协同效应。
                

                    自研基座大模型对具身智能的安全性至关重要
                     直接使用开源模型训练 VLA 存在风险,其预训练数据中可能混入有害信息,影响最终决策。自研基座模型可以严格筛选预训练数据,保证最终成果的安全性。
                

                    物理 AI 的最终目标是实现统一控制所有物理设备的巨型大脑
                     陈龙博士提出 XLA 概念,旨在整合多模态与本体信息,形成一个强大的巨型大脑,从辅助驾驶到机器人再到智能家居,实现物理世界的通用人工智能。
                

                    汽车为具身智能提供了数据优势,是技术落地的先行领域
                     相比于机器人,自动驾驶拥有成熟的产品和大量用户反馈数据,action space 更小,环境更可控,因此 VLA 在辅助驾驶领域的落地速度将更快。
                

        
    

        
            💬 文章金句
        

        
            终极的目标是要把不仅是模态还有本体都给统一起来,最终形成一个很大的一个巨型大脑,实现物理世界的 EGI。

Bitter lesson 告诉我们最简洁的结构往往是最好的。使用完全数据驱动的范式来学习出一个强大的神经网络,这才是关键。 我感觉世界模型与 VLA 本质是不分家的。语言模型其实也是世界模型,因为它是可以利用语言来进行未来的思考和预测的。 现在很多车企是拿开源的模型来训练 VLA 的,我感觉这是一件非常危险的事情,你不知道它在预训练时混入了什么数据。 我们经常跟罗福莉团队交流,也会有一些实习生过去,最终的目的就是让基座模型能力更强,赋能下游任务。

            📊 文章信息
        

        
            AI 初评:90

来源:卫诗婕|商业漫谈Jane's talk

作者:卫诗婕|商业漫谈Jane's talk

分类:人工智能

语言:中文

阅读时间:3 分钟

字数:726

                标签:
                
                    VLA, 自动驾驶, 具身智能, 端到端, XLA
                
            

        
    

    
        收听完整播客