【具身智能】清华朱文武教授发布具身智能重磅综述!
{{ clicks }}

导读

服务机器人懂物理、救援无人机会决策,清华 / 复旦团队提出联合架构,具身智能终于落地更近了

    

    你家的扫地机器人是不是常卡进沙发底?救援无人机在地震废墟中会不会因 “看不懂” 地形而停摆?这些问题的核心,是传统智能体要么只在数字世界 “纸上谈兵”(如 ChatGPT 只会聊天),要么在物理世界 “手足无措”(如传统机器人只会重复动作)—— 这正是 Embodied AI(具身智能)要解决的核心矛盾:让智能体像人一样,既能理解语言指令,又能感知物理环境、做出符合规律的行动。

    清华、复旦等团队在《IEEE CIRCUITS AND SYSTEMS MAGAZINE》发表的这篇论文,就为具身智能指明了方向:

● 先理清具身智能的 “前世今生”:从单模态(只靠视觉 / 语言)发展到多模态(融合视、听、触),核心组件是 “主动感知 - 具身认知 - 动态交互” 的闭环;

● 戳破关键痛点:LLM/MLLM 擅长语义推理(如分解 “打扫客厅” 任务),但不懂物理规律(如碰倒水杯);世界模型(WM)能模拟物理环境(如预测物体掉落),但缺高级语义(如不懂 “紧急救援” 指令);

● 提出破局方案:构建 MLLM-WM 联合架构,让 MLLM 负责 “想明白”,WM 负责 “做对”,还配套了硬件优化方案(如模型压缩、专用加速器),让技术能落地到扫地机器人、救援无人机等场景。

📝 推荐理由

              1. 直击具身智能核心矛盾:首次系统解决“语义智能”与“物理交互”脱节问题——MLLM补语义,WM补物理,联合架构让智能体既“能说会道”又“手脚灵活”,比如救援无人机能听懂“搜索倒塌桥梁”,还能靠WM避开危险地形;

              2. 体系完整,从理论到落地:不仅梳理了具身智能的历史(从图灵测试到深度学习)、核心技术(CV/NLP/RL/LLM/WM)、硬件方案(模型压缩、加速器),还给出服务机器人、工业设备等落地案例,不是“空中楼阁”;

              3. 多模态与普适性强:详细分析从单模态(如纯视觉导航)到多模态(融合视、听、触觉)的进化,联合架构还能推广到钠钾电池、太空探索等场景,比如太空机器人靠WM模拟失重环境,MLLM理解地球指令;

              4. 团队背书,可信度高:作者来自清华、复旦等顶尖机构,研究覆盖具身智能全链条,还引用了RT-2、Dreamer-v3等顶会工作,实验与理论结合紧密。

                   1 数据双驱动:融合 交通流先验知识 与 深度强化学习

                  • 延迟鲁棒性:设计了 延迟分区与模型切换机制,应对随机通信延迟。

                  • 性能亮眼:零碰撞率、能耗更低、舒适性更优。


                  1

                  📖 原论文信息


                  ● 论文题目:Embodied AI: From LLMs to World Models

                  ● 作者:Tongtong Feng, Xin Wang(IEEE会员), Yu-Gang Jiang(IEEE会士), Wenwu Zhu(IEEE会士)等

                  ● 机构:清华大学计算机科学与技术系、复旦大学可信具身智能研究院、中国科学院宁波材料技术与工程研究所等

                  ● 期刊:IEEE CIRCUITS AND SYSTEMS MAGAZINE(领域权威期刊)

                  ● arXiv编号:arXiv:2509.20021v1 [cs.AI]

                  📷 图 1 | 具身智能的核心闭环:主动感知(传感器)、具身认知(MLLM+WM)、动态交互(执行器)(论文 Fig.1)

                  📷 图 2 | MLLM-WM 联合架构:MLLM 分解任务,WM 模拟物理,共同驱动智能体行动(论文 Fig.7)


                  2

                  痛点:具身智能的四大核心痛点

                              1. 单模态局限大:早期具身智能靠单一模态(如纯视觉导航、纯语言指令),信息片面——比如扫地机器人只靠视觉,会把深色拖鞋当成污渍;

                              2. LLM“不懂物理”:即使是GPT-4o这样的MLLM,能分解“煮咖啡”任务,却不知道“咖啡壶会烫手”,容易生成违背物理规律的行动(如直接用手抓壶);

                              3. WM“缺语义”:世界模型(如RSSM、JEPA)能模拟物体掉落轨迹,却听不懂“优先救老人”的语义指令,在救援场景中抓不住重点;

                              4. 硬件适配难:具身智能要在边缘设备(如无人机、机器人)运行,但LLM/WM模型大、能耗高,普通硬件扛不住,实时性差(如无人机决策延迟导致撞墙)。

                              3

                              突破:MLLM与世界模型的“双向奔赴”

                                        1. MLLM:给具身智能“会思考的大脑”

                                        MLLM(多模态大语言模型)通过语义推理任务分解,让智能体理解复杂指令、规划行动步骤:

                                        • 语义推理:融合视觉、听觉等模态,比如服务机器人通过视觉识别“脏盘子”,结合语言指令“叠放”,理解“把盘子放进消毒柜”;

                                        • 任务分解:将长任务拆成可执行的子步骤,比如RT-2模型把“打扫客厅”拆成“捡垃圾→擦桌子→归位拖鞋”,还能根据环境调整(如发现拖鞋在沙发下,先移开沙发);

                                        • 代表工作:SayCan(谷歌)靠语言行动库约束LLM,避免生成“不可能动作”;PaLM-E(谷歌)融合视觉-语言-动作,让机器人完成“拿红色杯子”等精细操作。

                                        2. 世界模型(WM):给具身智能“懂物理的身体”

                                        WM通过内部表征未来预测,让智能体贴合物理规律行动:

                                        • 内部表征:压缩传感器数据,构建环境的结构化模型——比如救援无人机的WM能把复杂地形(废墟、树木)转化为“可通行区域”“危险区域”,避免卡壳;

                                        • 未来预测:模拟行动后果,提前避坑——比如工业机器人的WM能预测“抓握力太小会让玻璃滑掉”,自动调整力度;

                                        • 代表工作:Dreamer-v3用RSSM架构实现长 horizon 预测;JEPA(LeCun团队)靠自监督学习,无需像素级重建就能理解环境语义。

                                        3. 联合架构:MLLM-WM的“协作 workflow”

                                        论文提出的联合架构,让两者优势互补,具体流程如下(论文Fig.7):

                                        1. 感知输入:传感器(摄像头、触觉传感器)收集环境数据,MLLM做语义理解(如“识别倒塌建筑”),WM做物理建模(如“模拟建筑余震风险”);

                                        2. 任务规划:MLLM分解指令(如“救援任务→先搜开阔区→再救被困者”),WM验证可行性(如“开阔区无余震,可进入”);

                                        3. 动态交互:执行器行动后,WM更新环境模型(如“救出1人,剩余区域缩小”),MLLM反思调整(如“剩余区域有易燃物,改用喷水枪降温”);

                                        4. 硬件落地:通过模型压缩(量化、剪枝)、专用加速器(FPGA/ASIC),让架构在边缘设备运行——比如无人机用压缩后的WM,能耗降低40%,延迟从0.5秒缩到0.1秒。

                                        4. 从单模态到多模态:信息更全面

                                        论文指出,具身智能已从“单模态驱动”进化到“多模态融合”:

                                        • 单模态:视觉SLAM(ORB-SLAM)只靠视觉建图,遇雾霾就失效;

                                        • 多模态:Clip2Scene融合视觉+点云+语言,在黑暗环境中也能靠语言指令“找到出口”;ActiveRIR结合视觉+音频,让机器人通过“哭声”定位被困者。

                                        4

                                        🔧实验与评估(survey 的评价视角)

                                                  1. 自主完成长任务:基于联合架构的EvoAgent(论文案例),无需人类干预,能自主完成“从客厅到厨房→煮咖啡→清理台面”的长流程任务,成功率达89%(传统架构仅52%);

                                                  2. 救援无人机实战:搭载WM的救援无人机,在模拟地震废墟中,能避开92%的危险区域(如松动的墙体),还能靠MLLM优先救援“发出呼救声的目标”,救援效率提升60%;

                                                  3. 工业机器人自适应:特斯拉工厂的机器人用联合架构,能根据零件材质(玻璃/金属)自动调整抓握力,破损率从15%降到2%;

                                                  4. 硬件优化见效:通过“量化+FPGA加速器”,LLM/WM模型在无人机上的能耗从10W降到3W,决策延迟从0.8秒降到0.2秒,满足实时需求。


                                                  5

                                                   改进空间

                                                            1. 极端环境适应性差:目前在暴雨、沙尘暴等极端场景,传感器数据受干扰,MLLM/WM的判断准确率会下降(如无人机看不清废墟结构);

                                                            2. 多智能体协作难:群体具身智能(如多无人机协同救援)的通信开销大,WM的共享环境模型容易“同步延迟”,导致协作混乱;

                                                            3. 可解释性不足:MLLM-WM的决策过程是“黑箱”——比如机器人突然放弃捡垃圾,无法解释是“MLLM判断优先级低”还是“WM认为有危险”,不利于故障排查;

                                                            4. 样本依赖高:WM需要大量环境数据训练,在未见过的场景(如太空、深海),预测准确率会大幅下降。


                                                            6

                                                             未来展望

                                                                              • 更稳的决策:联合预测+规划的 world models 能降低误判、提高碰撞回避能力,从而直接提升自动驾驶在复杂城市场景的安全性。

                                                                              • 仿真训练链条:高保真世界模型推动“少标注多合成”的训练范式,降低对昂贵道路数据的依赖,快速扩展到不同城市/法规环境。

                                                                              • 可解释性与监管合规:语言化/潜在空间表征能为决策提供可审计的中间表示,有利于行业合规和责任追溯。


                                                                              7

                                                                               疑问与回答

                                                                              Q

                                                                              MLLM-WM架构和传统具身智能(如纯RL机器人)有啥区别?

                                                                              A

                                                                               传统RL机器人靠“试错”学习(如反复撞墙才知道避开),效率低、泛化差;MLLM-WM架构靠“先思考再行动”——MLLM规划方向,WM模拟后果,试错成本低,还能处理未见过的场景(如第一次遇到废墟,WM能预测余震风险)。

                                                                              Q

                                                                              现在的服务机器人(如科沃斯)能用上这套架构吗? 

                                                                              A

                                                                               短期内可部分适配——比如给现有机器人加装WM模块,提升避障能力;长期需要硬件升级(如更强大的边缘芯片),才能跑通完整的MLLM-WM流程,预计3-5年内能看到雏形。

                                                                              Q

                                                                              多模态融合会不会让模型更复杂? 

                                                                              A

                                                                              会,但论文提出了“动态模态选择”方案——比如晴天时,机器人主要靠视觉;雨天时,自动切换“视觉+触觉”(靠触觉判断地面是否湿滑),既保证信息全面,又减少冗余计算。

                                                                              8

                                                                               启发与点评

                                                                              💡 思路启发

                                                                                    1. 学术层面:“语义-物理结合”是AGI的关键——未来可探索MLLM与物理引擎(如MuJoCo)的深度融合,让智能体不仅“懂规律”,还能“创新行动”(如发明新的救援工具);

                                                                                    2. 工程层面:硬件-软件协同是落地关键——比如针对无人机,可定制“低功耗WM芯片”,让模型在有限算力下优先计算“地形风险”,而非细枝末节;

                                                                                    3. 产业层面:先从“半结构化场景”落地——比如工厂(环境固定)、家庭(干扰少),再向废墟、太空等复杂场景拓展,降低商业化难度。

                                                                                    🎯 点评

                                                                                          • 核心贡献:首次构建MLLM-WM联合架构,解决具身智能“语义-物理脱节”的核心问题,还搭建了从理论(历史、组件)到落地(硬件、应用)的完整体系;

                                                                                          • 现实意义:让具身智能从“实验室demo”走向实用——比如救援无人机更智能、工业机器人更灵活,推动AGI向“能感知、会思考、善行动”迈进;

                                                                                          • 不足:对极端环境(如-40℃低温)的适配、多智能体的长期协作,还需更深入的研究。

                                                                                          🔍 学术价值打分

                                                                                          维度
                                                                                          分数

                                                                                          理由

                                                                                          创新性
                                                                                          ⭐⭐⭐⭐⭐⭐⭐⭐⭐ (9/10)

                                                                                          突破MLLM与WM的孤立局限,提出联合架构,解决具身智能的核心矛盾,思路新颖

                                                                                          实验合理度
                                                                                          ⭐⭐⭐⭐⭐⭐⭐ (8/10)

                                                                                          覆盖服务/救援/工业等场景,有具体成功率、效率数据,但极端场景测试不足

                                                                                          学术研究价值
                                                                                          ⭐⭐⭐⭐⭐⭐⭐⭐ (9/10)

                                                                                          适配现有机器人/无人机硬件,落地路径清晰,可推广到多领域(太空、深海)


                                                                                          🌟 总结金句

                                                                                          👉 具身智能的终极目标,不是“比人更会计算”,而是“像人一样懂物理、有常识”——MLLM与世界模型的结合,终于让智能体迈出了“知行合一”的关键一步。



                                                                                          📌 互动引导

                                                                                          你觉得具身智能最先会改善哪个生活场景?  

                                                                                          ● 家用服务机器人(扫地、做饭)  

                                                                                          ● 救援无人机(地震、火灾)  

                                                                                          ● 工业机器人(精密装配、质检)  



                                                                                          🧩 科研 Idea 彩蛋(可操作方向)

                                                                                          1. Idea 1:将联合架构用于老年护理机器人——MLLM理解“吃药”“散步”等语义指令,WM模拟老人行动速度(如缓慢起身),避免机器人动作过快导致老人摔倒,可投稿IEEE Transactions on Robotics;

                                                                                          2. Idea 2:结合强化学习(RL)优化WM——让WM在救援场景中“主动学习”(如遇到新的废墟结构,自动更新预测模型),提升极端环境适应性,适合NeurIPS;

                                                                                          3. Idea 3:开发“轻量化MLLM-WM”——针对儿童陪伴机器人,用知识蒸馏压缩模型,让硬件成本从千元降到百元级,推动消费级产品落地,可对接产业界。


                                                                                          作者
                                                                                          朱文武
                                                                                          摘要
                                                                                          导读服务机器人懂物理、救援无人机会决策,清华 / 复旦团队提出联合架构,具身智能终于落地更近了        你家的扫地机器人是不是常卡进沙发底?救援
                                                                                          来源
                                                                                          网络
                                                                                          发表时间

                                                                                          2025-10-12

                                                                                          你知道你的Internet Explorer是过时了吗?

                                                                                          为了得到我们网站最好的体验效果,我们建议您升级到最新版本的Internet Explorer或选择另一个web浏览器.一个列表最流行的web浏览器在下面可以找到.