Embodied AI(具身智能)入门的路径以及高质量信息的总结, 期望是按照路线走完后, 新手可以快速建立关于这个领域的认知, 希望能帮助到各位入门具身智能的朋友, 欢迎点Star、分享与提PR🌟~
【 Embodied-AI-Guide, Latest Update: Feb. 5, 2025 】![]()
- 1. Start Up - 从这里开始
- 2. Useful Info - 有利于搭建认知的资料
- 3. Algorithm - 算法
- 4. Hardware - 硬件
- 5. Software - 软件
- 6. Paper Lists - 论文列表
- 7. Acknowledgement - 致谢
- 🏷️ License - 许可证
- ⭐️ Star History - Star历史
具身智能是指一种基于物理身体进行感知和行动的智能系统, 其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动, 从而产生智能行为和适应性。
我们希望的是帮助新人快速建立领域认知, 所以设计理念是:简要介绍目前具身智能涉及到的主要技术, 让大家知道不同的技术能够解决什么问题, 未来想要深入发展的时候能够有头绪。
我们是一个由具身初学者组成的团队, 希望能够通过我们自己的学习经验, 为后来者提供一些帮助, 加快具身智能的普及。欢迎更多朋友加入我们的项目, 也很欢迎交友、学术合作, 有任何问题, 可以联系邮箱[email protected]
。
🦉Contributors: 陈天行 (25' 港大PhD), 王开炫 (25' 港大PhD), 彭时佳 (深大本科生), 姚天亮 (25' 港中文PhD), 高焕昂 (24' 清华PhD), 邹誉德 (25' 上交AILab联培PhD), 陈思翔 (25' 北大PhD), 朱宇飞 (25' 上科大Ms), 王文灏 (UPenn Ms), 贾越如 (北大 Ms),王冠锟 (港中文PhD), 吴志杰 (港中文PhD), 叶雯 (25' 中科院PhD), 陈攒鑫 (深大本科生), 侯博涵 (山大本科生).
-
社交媒体:
-
可以关注的公众号: 石麻日记 (超高质量!!!), 机器之心, 新智元, 量子位, Xbot具身知识库, 具身智能之心, 自动驾驶之心, 3D视觉工坊, 将门创投, RLCN强化学习研究, CVHub
-
AI领域值得关注的博主列表 [3]: zhihu
-
-
具身智能会投稿的较高质量会议与期刊:RSS, TRO, Science Robotics, IROS, ICRA, ICCV, ECCV, AAAI, ICML, CVPR, NIPS, ICLR, IJRR, ACL等。
-
斯坦福机器人学导论:website
-
共建全网最全具身智能知识库 [6]: website
-
社区:
- DeepTimber Robotics Innovations Community, 深木科研交流社区: website
- 宇树具身智能社群: website
- Simulately: Handy information and resources for physics simulators for robot learning research: website
- DeepTimber-地瓜机器人社区: website
- HuggingFace LeRobot (Europe, check the Discord): website
- K-scale labs (US, check the Discord): website
这个部分是关于具身中常用技巧的分享
- 点云降采样: zhihu, 包括随机降采样、均匀降采样、最远点降采样、法线空间降采样等, 需要了解清楚每一种降采样的优劣, 这个技巧的选择对于3D应用来说是至关重要的。
- 手眼标定:github, 手眼标定用于确定相机和机械臂之间以及相机与相机之间的相对位置, 大部分Project的开始都需要做一次手眼标定, 分为眼在手上和眼在手外。
以下是部分具身智能中常用的基础模型, 计算机视觉中发展的非常好的工具可以直接赋能具身智能的下游应用。
-
CLIP: website, 来自OpenAI的研究, 最基本的应用是可以计算图像与语言描述的相似度, 中间层的视觉特征对各种下游应用非常有帮助。
-
DINO: DINO repo, DINO-v2 repo, 来自Meta的研究, 可以提供图像的高层视觉特征, 对corresponding之类的信息提取非常有帮助, 比如不同个体之间的鼻子都有类似的几何特征, 这个时候不同图像中关于不同鼻子的视觉特征值可能是近似的。
-
SAM: website, 来自Meta的研究, 可以基于提示点或者框, 对图像的物体进行分割。
-
SAM2: website, 来自Meta的研究, SAM的升级版, 可以在视频层面持续对物体进行分割追踪。
-
Grounding-DINO: repo, 在线尝试, 这个DINO与上面Meta的DINO没有关系, 是一个由IDEA研究院(做了很多不错开源项目的机构)开发集成的图像目标检测的框架, 很多时候需要对目标物体进行检测的时候可以考虑使用。
-
Grounded-SAM: repo, 比Grounding-DINO多了一个分割功能, 也就是支持检测后分割, 也有很多下游应用, 具体可以翻一下README。
-
FoundationPose: website, 来自Nvidia的研究, 物体姿态追踪模型。
-
Stable Diffusion: repo, website, 22年的文生图模型, 现在虽然不是SOTA了, 但是依然可以作为不错的应用, 例如中间层特征支持下游应用、生成Goal Image (目标状态) 等等。
-
Point Transformer (v3): repo, 点云特征提取的工作。
-
RDT-1B: website, 清华朱军老师团队的工作, 机器人双臂操作的基础模型, 具有强大的few-shot能力。
-
SigLIP: huggingface, 类似CLIP。
机器人学习 Robot Learning 的发展: zhihu
- 强化学习的数学原理 - 西湖大学赵世钰: bilibili GitHub 这门课程作为强化学习的入门课程非常合适,适合只对机器学习略有了解,但没有了解过强化学习的初学者,可以了解强化学习的数学原理,其教材编写也十分用心。
下面列出三门比较受欢迎的深度强化学习相关的课程,这几门课互有overlap,时间长短和授课风格也各有不同,读者可以选择适合自己的课程进行学习。此外,深度强化学习的经典算法相关的文章也在必读清单:如PPO, SAC, TRPO, A3C等。
-
The Foundations of Deep RL in 6 Lectures YouTube 本门在线课程由在RL领域著名的Pieter Abbeel教授主讲,从MDP开始在六节课之内介绍了深度强化学习的主要知识。
-
UC Berkeley CS285 深度强化学习: website | YouTube 本课程的主讲老师是在RL领域著名的Berkeley的Sergey Levine教授,DRL领域许多著名的工作如SAC就出自他之手。Sergey在授课方面非常用心,本课程对DRL提供了非常详细的介绍。
-
李宏毅老师也有一套关于强化学习的课程: bilibili上课+刷蘑菇书巩固+gymnasium动手实践, 重点了解一下PPO。
然而,深度强化学习的Reward Tuning和参数调整非常依赖于经验,建议读者在对深度强化学习有相关经验之后,可以自己尝试训练一个policy并在机器人上部署,体会其中的Sim-to-Real Gap。常用的仿真平台有MuJoCo PlayGround, Isaac Lab, SAPIEN, Genesis等。
常用的Codebase有legged-gym(由ETH RSL开发,基于IsaacGym)等,也可以根据你想做的任务找到相近的codebase。
- 《模仿学习简洁教程》 - 南京大学LAMDA: PDF
- Supervised Policy Learning for Real Robots, RSS 2024 Workshop 教程:真实机器人的监督策略学习, bilibili
为了促使机器人更好的规划, 现代具身智能工作常常利用大语言模型强大的信息处理能力与泛化能力进行规划。
- Robotics+LLM系列通过大语言模型控制机器人 [2]: zhihu
- Embodied Agent wiki: website
- Lilian Weng 个人博客 - AI Agent 系统综述 [5]: 中文: website 英文: website
- 过去一系列工作常常仅使用LLM作为High-Level的策略生成器 用作High-Level 规划
- 同时也有一些工作将High-Level的策略规划与 Low-Level的动作生成进行统一
- 经典工作(1) RT-2: Arxiv
- 经典工作(1) RT-2: Arxiv
- 利用LLM的code能力实现具身智能是一个有趣的想法
- 有一些工作将三维视觉感知同LLM结合起来,共同促进具身智能规划
CS231n (斯坦福计算机视觉课程): website, 该课程对深度学习在计算机视觉的应用有较为全面的介绍。因为已经在具体实现某个论文的算法了, 所以这个阶段可以不用做作业, 只需要看课程视频和课程讲义即可。
- 2D Vision 领域的经典代表作
- 以判别式模型为主的感知任务, 比如识别、分类、分割、检测等等, 看看即可, 现在继续刷点意义不大
- 生成式模型
第一阶段:学习最基础的3DV知识, 追求广度, 了解一些基础的概念和算法
第二阶段:细分方向, 追求深度, 上手一些项目
- 如果对传统图形学感兴趣, 可以看下面两门(闫令琪老师开的课, 讲得特别好):
- 如果对motion synthesis/computer animation感兴趣, 可以看:
- GAMES105 - 计算机角色动画基础: website
- GAMES105 - 计算机角色动画基础: website
- 如果对三维重建感兴趣, 可以看下面两门:
- 三维预训练最新综述:
- Advances in 3D pre-training and downstream tasks: a survey: PDF
- Advances in 3D pre-training and downstream tasks: a survey: PDF
- 3DGS在具身上的综述:
- 3D Gaussian Splatting in Robotics: A Survey: PDF
- 3D Gaussian Splatting in Robotics: A Survey: PDF
- 三维生成的一些经典论文:
多模态旨在统一来自不同模态信息的表征, 在具身智能中由于面对着机器识别的视觉信息与人类自然语言的引导信息等不同模态的信息,多模态技术愈发重要。
具身智能技术的迅猛发展正在引领医疗服务模式迈向革命性的新纪元。作为人工智能算法、先进机器人技术与生物医学深度融合的前沿交叉学科, 具身智能+医疗这一研究领域不仅突破了传统医疗的边界, 更开创了智能化医疗的新范式。其多学科协同创新的特质, 正在重塑医疗服务的全流程, 为精准医疗、远程诊疗和个性化健康管理带来前所未有的发展机遇, 推动医疗行业向更智能、更人性化的方向转型升级。这一领域的突破性进展, 标志着医疗科技正迈向一个全新的智能化时代。
- 用于医学影像分析的通用人工智能综述: website
- 医学影像的通用分割模型-MedSAM: website
- 2024盘点:医学AI大模型, 从通用视觉到医疗影像: NEJM医学前沿
- 医疗领域基础模型的发展机遇与挑战: website
- SkinGPT-4 for dermatological diagnosis: website
- PneumoLLM for pneumoconiosis diagnosis: website
- BiomedGPT: website
- LLaVA-Med: website
- RoboNurse-VLA: website
- PathChat 哈佛医学院Faisal Mahmood教授团队的病理大模型。临床上, 病理被称为诊断的金标准: website
- DeepDR-LLM 糖尿病视网膜病变 (DR)的专科垂域多模态大模型: website
- VisionFM 通用眼科人工智能的多模式多任务视觉基础模型: website
- Medical-CXR-VQA 用于医学视觉问答任务的大规模胸部 X 光数据集: website
-
医疗机器人的五级自动化(医疗机器人领域行业共识), 杨广中教授于2017年在Science Robotics上的论著: Medical robotics—Regulatory, ethical, and legal considerations for increasing levels of autonomy
-
医疗机器人的十年回顾(含医疗机器人的不同分类), 杨广中教授在Science Robotics上的综述文章:A decade retrospective of medical robotics research from 2010 to 2020
-
医疗具身智能的分级: A Survey of Embodied AI in Healthcare: Techniques, Applications, and Opportunities
-
Artificial intelligence meets medical robotics, 2023年发表在Science正刊上的论著: website
-
医疗机器人的机器视觉
- 3DGS在腔镜手术中的应用综述: website
- 3DGS在腔镜手术中的应用综述: website
-
达芬奇手术机器人是最为常用的外科手术机器人, 对于这类机器人自主技能操作的研究最为广泛
- 通过模仿学习在达芬奇机器人上学习外科手术操作任务 Surgical Robot Transformer (SRT): website
- Domain-specific Simulators - 手术机器人技能学习领域的模拟器
- SurRoL: RL-Centered and dVRK Compatible Platform for Surgical Robot Learning website
- Surgical Gym: A high-performance GPU-based platform for surgical robot learning (ICRA 2024, work in progress, based on NVIDIA Omniverse): website
- ORBIT-Surgical: An Open-Simulation Framework for Learning Surgical Augmented Dexterity (ICRA 2024, based on NVIDIA Omniverse): website
- SurRoL: RL-Centered and dVRK Compatible Platform for Surgical Robot Learning website
- 通过模仿学习在达芬奇机器人上学习外科手术操作任务 Surgical Robot Transformer (SRT): website
-
连续体和软体手术机器人作为柔性医疗机器人的重要分支, 凭借其独特的结构设计和材料特性, 在微创介入诊疗领域展现出显著优势。它们能够灵活进入人体狭窄腔体, 实现精准操作, 同时最大限度地减小手术创口, 降低患者术后恢复时间及感染风险, 为现代微创手术提供了创新性的技术解决方案。
- 连续体机器人在医疗领域的应用 (Nabil Simaan; Howie Choset等): Continuum Robots for Medical Interventions
- 软体手术机器人在微创介入手术中的应用 (Ka-wai Kwok; Kaspar Althoefer等): Soft Robot-Assisted Minimally Invasive Surgery and Interventions: Advances and Outlook
- 连续体机器人在医疗领域的应用 (Nabil Simaan; Howie Choset等): Continuum Robots for Medical Interventions
-
连续体和软体机器人因其超冗余自由度和高度非线性的结构特性, 采用传统的控制与传感方法构建正逆运动学方程时面临显著的计算复杂性和建模局限性。传统方法难以精确描述其多自由度耦合运动及环境交互中的动态响应。为此, 基于数据驱动的智能控制方法(如深度学习、强化学习及自适应控制算法)成为解决这一问题的前沿方向。这些方法能够通过大量数据训练, 高效学习系统的非线性映射关系, 显著提升运动控制的精度、自适应性和鲁棒性, 为复杂医疗场景下的机器人操作提供了更为可靠的技术支撑。
- 什么是软体机器人?软体机器人的具身智能定义: 知乎, by Ke WU from MBUZAI
- IROS 2024大会Program Chair新加坡国立大学Cecilia Laschi教授的论著: Learning-Based Control Strategies for Soft Robots: Theory, Achievements, and Future Challenges
- 软体机器人中具身智能物理建模简明指南(也是出自NUS Cecilia教授团队): A concise guide to modelling the physics of embodied intelligence in soft robotics
- 数据驱动方法在软体机器人建模与控制中的应用: Data-driven methods applied to soft robot modeling and control: A review
- 什么是软体机器人?软体机器人的具身智能定义: 知乎, by Ke WU from MBUZAI
-
微纳机器人技术是一类集成了微纳米制造、生物工程和智能控制等多学科前沿技术的微型机器人系统。凭借其微纳米级的独特尺寸、优异的生物相容性和精准的操控性能,这一前沿技术为现代医学诊疗范式带来了突破性创新。在精准诊断方面,微纳机器人能够深入人体微观环境,实现细胞乃至分子水平的实时监测;在靶向治疗领域,其可作为智能药物载体,实现病灶部位的精准定位与可控释放;在微创手术应用中,微纳机器人系统为复杂外科手术提供了前所未有的精确操作平台。这些创新性应用不仅显著提升了诊疗效率,更为攻克重大疾病提供了全新的技术途径,推动着现代医学向更精准、更微创、更智能的方向发展。
- 微纳机器人的机器学习(CUHK 张立教授团队在Nature Machine Intelligence上的论著): Machine learning for micro- and nanorobots
- 微纳机器人的机器学习(CUHK 张立教授团队在Nature Machine Intelligence上的论著): Machine learning for micro- and nanorobots
Coming Soon !
自动驾驶之心 // 也有个微信公众号
自动驾驶被称为“最小的具身智能验证场景”,这是因为它在具身智能的框架中,具备完整的感知、决策和行动闭环,但任务目标明确、物理交互简单、场景复杂性相对较低。作为一个技术验证场景,自动驾驶既能体现具身智能的核心特性,又为更复杂的具身智能任务提供了技术积累和理论支持。
自动驾驶仿真是自动驾驶技术开发中不可或缺的一部分。它通过提供安全、高效、可控的测试环境,不仅降低了研发成本和风险,还加速了技术的迭代和规模化部署。同时,仿真能够覆盖大量现实中难以复现的场景,为自动驾驶系统的安全性、可靠性和泛化能力提供了重要保障。
- 3D/4D 场景重建
- 经典论文:NSG, MARS, StreetGaussians
- 场景可控生成(世界模型)
- 经典论文:MagicDrive -> MagicDriveDiT, SCP-Diff, UniScene
- 从模块化到端到端
- 经典的模块化管线中,每个模型作为一个独立的组件,负责对应的特定任务(3D目标检测与跟踪 & BEV 建图 -> 目标运动预测 -> 轨迹规划),这种设计已逐渐被端到端模型所取代。
End-to-end Autonomous Driving: Challenges and Frontiers
- 快系统与慢系统并行
-
快系统经典论文:UniAD (CVPR 2023 Best Paper), VAD, SparseDrive, DiffusionDrive
-
慢系统经典论文:DriveVLM, EMMA
具身智能硬件方面涵盖多个技术栈, 如嵌入式软硬件设计, 机械设计, 机器人系统设计, 这部分知识比较繁杂, 适合想要专注此方向的人 关于硬件部分的学习, 最好从实践出发!
- 嵌入式学习路线: CSDN
- 51单片机:BiliBili, 经典江科大自动协出品
- Stm32单片机:BiliBili, 经典江科大自动协出品
- Stm32电机驱动:BiliBili, 野火
- 野火Stm32标准库:BiliBili, 野火
- 正点原子Stm32:BiliBili, 正点原子
- 韦东山嵌入式Linux:BiliBili, 韦东山
-
ROS基础:
-
基础控制理论:
-
PID控制:CSDN
-
彻底搞懂阻抗控制、导纳控制、力位混合控制: CSDN
-
Modern Control Systems (14th edition), Robert. H. Bishop, Richard. C, Dorf. z: Book
-
机械臂运动学
想要快速了解什么是IK FK的同学可以看这个7分钟的短片, 可以对此建立一个粗略的认知:BiliBili
较为简单的过一遍IK和FK的原理可以看这个:CSDN-
IK (Inverse Kinematics) 逆运动学
- 较为详细的视频课
- 文字教学
- Book, 较为详细的IK理论
-
FK (Forward Kinematics) 正运动学
- 较为详细的视频课
-
经典教材
- 《机构学与机器人学的几何基础与旋量代数》 戴建生院士 著
- 《现代机器人学:机构、规划与控制》凯文·M. 林奇, 朴钟宇 著
- 《机器人学的现代数学理论基础》丁希仑 著
-
常用的库
-
-
ROS多传感器时间戳同步:website
-
动手实践LeRobot SO-100:website
Coming Soon !
公司 | 主营产品 | Others |
---|---|---|
松灵AgileX | pipper机械臂 移动底盘 |
面向教育科研 |
宇树Unitree | Go2机器狗 通用人形H1 通用人形G1 |
许多产出使用宇树的机器人作为硬件基础 |
方舟无限ARX | X5机械臂 X7双臂平台 R5机械臂 |
适合复现很多经典的工作, eg. aloha RoboTwin松灵底盘+方舟臂 |
波士顿动力 | spot机器狗 Atlas通用人形 |
具身智能本体制造商, 从液压驱动转向电机驱动 |
灵心巧手 | ||
灵巧智能DexRobot | Dexhand 021灵巧手 | 19自由度量产灵巧手 |
银河通用 | 已完成多轮融资 | |
星海图Galaxea | A1机械臂 | |
World Labs | 专注于空间智能, 致力于打造大型世界模型(LWM), 以感知、生成并与 3D 世界进行交互。 相关介绍 | |
星动纪元 | Star1人形 XHAND1灵巧手 |
|
加速进化 | Booster T1人形 | |
青龙机器人 | ||
科技云深处 | 绝影X30四足机器人 Dr.01人形机器人 |
|
松应科技 | 具身智能仿真平台供应商 | |
光轮智能 | 具身智能数据平台 | |
智元机器人 | A2人形机器人 A2-D数据采集机器人(轮式人形) |
|
Nvidia | 具身智能基建公司 | |
求之科技 | ||
穹彻智能 | ||
优必选 | ||
具身风暴 | 落地具身智能通用按摩机器人 |
常见仿真器wiki: wiki
具身智能常用benchmark总结 [1]: zhihu
- CALVIN, github, website2022年, 第一个公开的结合了自然语言控制、高维多模态输入、7自由度的机械臂控制以及长视野的机器人操纵benchmark。支持不同的语言指令, 不同的摄像头输入, 不同的控制方式, 主要用来评估具身智能模型的多模态输入的能力和长程规划能力。
- Meta-World, webpage: 评估机器人在多任务和元强化学习场景下的表现。50个机器人操作任务(如抓取、推动物体、开门等), 组织成不同的基准测试集(如ML1、ML10、ML45、MT10、MT50等), 每个集合都有明确的训练任务和测试任务。周边和文档比较全面, 基于mojoco, 有完整的API和工具, python import即可运行。
- Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making, website: 主要评估大型语言模型(LLMs)在具身决策中的表现, 重点在于决策过程, 包括目标解释、子目标分解、动作序列化和状态转换建模, 不涉及到具体的执行。
- RoboGen, repo, website: 不是生成policy, 而是生成任务、场景和带标记的数据, 能直接用来监督学习。
- LIBERO, repo, website: 用一个程序化生成管道来生成任务, 这个管道理论上可以生成无限数量的操作任务, 还提供了:三种视觉运动策略网络架构(RNN、Transformer和ViLT) 和 三种终身学习算法, 以及顺序微调和多任务学习的基准。
- RoboTwin, repo: 使用程序生成双臂机器人无限操作任务数据, 并提供了所有任务的评测基准。
- Open X-Embodiment: Robotic Learning Datasets and RT-X Models, website: 22种不同机器人平台的超过100万条真实机器人轨迹数据,覆盖了527种不同的技能和160,266项任务,主要集中在抓取和放置。
- AgiBot World Datasets (智元机器人), website: 八十余种日常生活中的多样化技能,超过100万条轨迹数据,采集自同构型机器人, 多级质量把控和全程人工在环的策略,从采集员的专业培训,到采集过程中的严格管理,再到数据的筛选、审核和标注,每一个环节都经过了精心设计和严格把控。
- RoboMIND, website: 55,000条真实世界的演示轨迹,涵盖了279个不同任务和61个独特物体类别,来自四种不同协作臂,任务被分为基础技能、精准操作、场景理解、柜体操作和协作任务五大类。
- Awesome Humanoid Robot Learning - Yanjie Ze: repo
- Paper Reading List - DeepTimber Community: repo
- Paper List - Yanjie Ze: repo
- Paper List For EmbodiedAI - Tianxing Chen: repo
- SOTA Paper Rating - Weiyang Jin: website
- Awesome-LLM-Robotics: A repo contains a curative list of papers using Large Language/Multi-Modal Models for Robotics/RL: website
本文转载/引用了一些博主的文章, 我们对他们的知识分享表示感谢, 引用列表如下: [1] 知乎 穆尧, [2] 知乎 东林钟声, Github Yunlong Dong, [3] 知乎 强化学徒, [4] 知乎 Biang哥, [5] OpenAI Lilian Weng, [6] B站 木木具身, [7] Github Zhuoheng Li, [8] 知乎 Flood Sung, [9] Github Sida Peng
This repository is released under the MIT license. See LICENSE for additional details.