地方网站源码seo查询平台
-
作者:Lik Hang Kenny Wong, Xueyang Kang, Kaixin Bai, Jianwei Zhang
-
单位:香港城市大学计算机科学系,澳大利亚墨尔本大学工程与信息技术学院,德国慕尼黑工业大学,比利时鲁汶大学电气工程(ESAT)中心,德国汉堡大学信息学系、德国Agile Robots公司
-
论文标题:A Survey of Robotic Navigation and Manipulation with Physics Simulators in the Era of Embodied AI
-
论文链接:https://arxiv.org/pdf/2505.01458
主要贡献
-
提供了具身智能(Embodied AI)中导航和操作任务的全面综述,重点关注物理模拟器的作用。
-
分析了物理模拟器的特性,探讨了它们如何通过精确的物理建模和逼真的渲染缩小模拟与现实之间的差距。
-
提供了基准数据集、评估指标、模拟平台和最新方法的资源,帮助研究人员选择合适的工具。
-
深入分析了导航和操作任务的特点,包括任务类型、模拟器、数据集、评估指标和方法。
研究背景
-
具身智能:涉及机器人通过传感器和动作与物理环境互动。导航和操作是EAI的核心能力,这些任务需要机器人感知、理解并与其环境互动。
-
学习方法的挑战:基于学习的方法(如强化学习和模仿学习)在训练导航和操作代理方面显示出巨大潜力,但收集真实世界数据成本高昂,尤其是考虑到机器人设计或传感器的多样性。
-
模拟器的作用:模拟器通过提供成本效益高且可扩展的解决方案,使机器人能够在大型和多样化的数据集上高效训练,从而解决了真实世界数据收集的难题。然而,sim-to-real方法面临着模拟与现实环境之间的差距,包括物理动态和视觉渲染的差异。
导航
模拟器
-
导航模拟器是训练机器人导航能力的关键工具,它们通过模拟真实环境来减少在真实世界中训练的高成本和复杂性。
-
根据支持的环境类型,导航模拟器可以分为三类:室内模拟器、室外模拟器和通用模拟器。这
-
些模拟器在视觉和物理仿真方面各有特点,以应对模拟到现实(sim-to-real)转移中的挑战。
室内模拟器
-
Matterport3D Simulator:利用真实世界扫描数据,提供高保真视觉效果,但缺乏物理引擎,仅支持离散的视点间导航。
-
Habitat-Sim:基于Bullet物理引擎,支持刚体动力学,能够处理碰撞检测和机器人运动。它还集成了RGB-D传感器噪声模型,以提高视觉仿真与真实世界的相似性。
-
AI2-THOR:使用Unity3D的物理引擎,支持逼真的碰撞检测和运动。它还采用了基于物理的渲染(PBR)技术,通过材质和光照的随机化来增强视觉仿真与真实世界的一致性。
-
iGibson:结合了PBR和双向反射分布函数(BRDF)模型,能够模拟真实世界的光照效果,并通过领域随机化技术进一步缩小视觉sim-to-real差距。
室外模拟器
-
CARLA:专注于自动驾驶场景,使用PhysX引擎提供逼真的物理仿真和光线追踪渲染,支持车辆动力学和交通模拟。
-
AirSim:为无人机导航提供支持,集成了IMU和GPS等传感器模型,以模拟真实世界条件。它使用定制的物理引擎,优化了碰撞检测和运动效率。
通用模拟器
-
ThreeDWorld:基于Unity3D,支持刚体、软体和流体动力学。它使用PhysX引擎和高动态范围图像(HDRI)照明技术,提供高保真视觉效果。
-
Isaac Sim:由NVIDIA开发,利用RTX技术进行光线追踪渲染,提供精确的物理仿真。它支持强化学习和模仿学习,适用于从仓库到户外的各种场景。
基准数据集
-
为了在模拟器中训练和评估导航代理,研究人员开发了多种基准数据集。
-
这些数据集分为目标驱动导航数据集和任务驱动导航数据集,涵盖了从简单的点到点导航到复杂的视觉-语言导航任务。
目标驱动导航数据集
-
iGibson:提供100多个场景和27,000个物体描述,支持RGB、深度和分割数据。
-
ION:基于AI2-THOR,提供600个场景,专注于实例级目标导航。
-
HM3D:包含1,000个场景,提供高保真3D环境,支持点目标导航。
-
HM3D-OVON:扩展了HM3D,支持开放词汇目标导航,挑战代理导航到未见过的物体类别。
-
MultiON:要求代理按顺序导航到多个目标,测试其记忆和规划能力。
-
DivScene:提供4,614个场景和81种场景类型,支持多样化的室内导航任务。
任务驱动导航数据集
-
**Room-to-Room (R2R)**:基于Matterport3D数据集,要求代理根据自然语言指令进行导航。
-
VLN-CE:在连续环境中进行视觉-语言导航,提供4,475个轨迹。
-
VLN-CE-Isaac:为四足机器人定制的视觉-语言导航数据集,包含1,077个轨迹。
-
ALFRED:包含120个场景、8,000个演示和25,000个指令,要求代理完成基于步骤的家庭任务。
-
DialFRED:扩展了ALFRED,允许通过对话进行澄清。
-
TEACh:包含120个场景和3,047个会话,要求代理在执行任务时进行对话。
-
VNLA:提供90个场景和94,798个训练任务,要求代理在探索环境中回答问题。
-
REVERIE:要求代理在真实室内环境中根据视觉引用表达进行导航。
-
A-EQA:要求代理在探索环境中回答开放词汇问题。
-
Robo-VLN:包含90个场景和3,177个轨迹,支持视觉-语言导航任务。
-
LHPR-VLN:包含216个场景和3,260个任务,提供视觉-语言导航的基准。
评估指标
-
评估导航代理的性能需要根据任务类型选择合适的指标。
-
这些指标从简单的成功率到复杂的路径对齐度和指令遵循度都有涉及。
目标驱动导航任务
-
成功率(Success Rate, SR):衡量代理成功到达目标的比例。
-
路径长度加权成功率(Success weighted by Path Length, SPL):结合成功率和路径效率,惩罚低效路径。
-
实例定位成功率(Instance-Localization Success Rate, ILSR):要求代理不仅接近目标物体,还要正确识别目标物体。
任务驱动导航任务
-
路径覆盖加权长度分数(Coverage weighted by Length Score, CLS):评估预测路径与参考路径的空间覆盖和长度匹配度。
-
归一化动态时间规整(Normalized Dynamic Time Warping, nDTW):考虑空间对齐和动作序列,生成与参考路径的相似度分数。
-
独立成功率(Independent Success Rate, ISR):独立评估复杂指令中每个子任务的完成情况。
-
EQA效率(EQA Efficiency):结合答案正确性和探索效率,鼓励代理通过较短路径获取准确信息。
-
指令违反率(Instruction Violation Rate, IVR):评估代理遵守人类设定的安全规则的能力。
方法
-
导航方法可以根据代理如何构建记忆分为显式记忆和隐式记忆两大类。
-
显式记忆方法依赖于明确的数据结构来表示环境,而隐式记忆方法则利用学习到的编码和预训练知识进行决策。
显式记忆
- 基于度量的地图方法:
-
将环境离散化为网格、点云、体素或网格,以构建地图,用于路径规划等下游任务。
-
例如,Fu等人使用占用网格地图计算到目标位置的最短路径。
-
- 基于图的方法:
-
将环境的拓扑结构或对象之间的空间关系抽象为图,其中关键观察到的地标(如门道、交叉口)作为节点,可通行路径作为边。
-
例如,Savinov等人提出的Semi-Parametric Topological Memory(SPTM)基于CNN编码当前和目标图像到节点特征,并基于相似性分数规划路径。
-
隐式记忆
- 基于潜在表示的方法(Latent Representation-Based Methods):
-
将观察序列和动作编码为潜在向量,直接用于推断导航动作。
-
例如,Zhu等人开发的基于对话的导航系统使用跨模态注意力学习联合视觉-文本嵌入,并通过LSTM处理这些嵌入以推断动作。
-
- 基于基础模型的方法(Foundation Model-Based Methods):
-
利用大型预训练模型(如大型语言模型或视觉-语言模型)来编码场景和语言指令,利用其预训练知识进行导航决策。
-
例如,NavGPT依赖于GPT-4的文本推理能力来解释当前场景并选择动作。
-
- 基于世界模型的方法(World Model-Based Methods):
-
学习预测未来环境状态(如视频序列或潜在动态),以指导导航。
-
例如,Bar等人训练的Navigation World Model(NWM)是一个视频扩散模型,用于生成潜在的未来帧以评估导航路径。
-
操作
操作任务
操作任务在机器人学中具有重要意义,其复杂性因任务类型和所需硬件而异。论文将操作任务按复杂性和所需自由度(DoFs)进行分类,并详细讨论了以下几类关键任务:
- 抓取:
-
这是最基本的操作任务,通常涉及将物体从一个位置移动到另一个位置。
-
抓取任务可以分为平面抓取(3个自由度)和全3D抓取(6个自由度,包括x、y、z位置和roll、pitch、yaw旋转)。
-
全3D抓取需要机器人手臂具有更高的自由度,以便有效协调抓取任意姿态的物体。
-
- 灵巧操作:
-
使用多指手进行操作,通常涉及三个或更多手指。这类任务需要精确的手指协调,以处理复杂的接触动态,例如扭转魔方或旋转笔。
-
这需要模拟器能够准确模拟多点接触、摩擦力和碰撞力。
-
- 柔顺物体操作:
-
涉及处理柔软材料,如布料或绳索。与刚体不同,柔顺物体的形状会因外力而改变,这使得任务状态空间变得高度动态和复杂。
-
例如,打结或折叠衣物需要实时监测物体的几何变形,并根据材料属性(如弹性、摩擦力)进行精确控制。
-
- 移动操作:
-
涉及将操作臂安装在具有导航能力的移动平台上,如轮式机器人、四足机器人或人形机器人。
-
这类任务要求机器人既能导航又能操作物体,例如机器人需要导航到厨房,打开抽屉并拿起杯子。
-
- 开放世界操作:
-
处理未结构化和动态环境中的新物体,如在杂乱环境中捡起未见过的物品。
-
这要求机器人能够从有限的训练数据中泛化,并适应新的物体、材料或条件。
-
- 脆弱物体操作:
-
处理易碎物品,如鸡蛋或浆果,需要精确的力控制和小心处理以避免损坏物体。
-
通常使用由橡胶、硅胶或碳纤维等材料制成的软体机器人夹持器,并通过气动、液压或腱驱动系统控制手指运动,以确保压力均匀分布。
-
- 双臂操作:
-
使用双臂系统进行操作,例如组装乐高积木,这需要超出单臂能力范围的协调。
-
物理引擎和模拟器
为了有效训练操作代理,模拟器必须能够模拟逼真的物理动态和视觉效果。论文详细讨论了经典物理引擎和可微分物理引擎,并比较了它们在模拟物理动态和视觉保真度方面的能力。
- 经典物理引擎和模拟器:
-
Gazebo:与机器人操作系统(ROS)紧密集成,支持多种物理引擎(如DART、ODE、Bullet),主要用于刚体动力学模拟。它使用OGRE进行视觉渲染,缺乏光线追踪或逼真渲染能力。
-
PyBullet:基于Bullet物理引擎,专注于速度和效率,提供GPU加速和连续碰撞检测。它使用OpenGL进行光栅化渲染,无法进行光线追踪或深度噪声模拟,限制了其缩小视觉sim-to-real差距的能力。
-
MuJoCo:优先考虑接触动力学的精度,适用于灵巧操作,能够模拟多关节系统动力学和稳定的摩擦丰富交互。它使用OpenGL进行光栅化渲染,缺乏硬件加速的实时光线追踪,限制了视觉保真度。
-
Isaac Sim:由NVIDIA开发,利用PhysX引擎进行物理模拟,并支持GPU加速的光栅化和实时光线追踪,以创建具有精确光照和反射的逼真环境。
-
SAPIEN:支持GPU加速光栅化和实时光线追踪,提供逼真的视觉效果,并支持深度噪声模拟,以增强视觉保真度。
-
CoppeliaSim:提供灵活性,支持多种物理引擎(如MuJoCo、Bullet、ODE、Newton、Vortex),能够模拟刚体、软体和布料动力学。它缺乏GPU加速,限制了效率。
-
- 可微分物理引擎和模拟器:
-
Dojo:通过将接触模拟表述为优化问题,提供平滑的可微分梯度,适用于操作目标的运动学优化。
-
DiffTaichi:一种可微分编程语言,通过将多个计算阶段合并为一个CUDA内核来最大化GPU利用率,加速模拟。
-
Genesis:基于DiffTaichi构建的开源模拟器,完全优化用于可微分模拟,支持基于梯度的神经网络控制器优化,并实现比现有GPU加速模拟器快10到80倍的模拟速度,同时不牺牲物理保真度。它还包括一个光线追踪系统,用于逼真渲染和从自然语言生成多模态数据的生成引擎。
-
基准数据集
为了推动操作任务的发展,研究人员开发了多种基准数据集,这些数据集对于增强代理在多样化任务、环境和机器人平台上的泛化能力至关重要。论文将这些基准数据集根据它们支持的操作任务类型进行了分类,并提供了以下详细信息:
-
刚体操作基准:
-
Meta-World:提供50个不同的刚体操作环境,用于训练代理掌握多种基本技能,并在测试时泛化到新任务。
-
RLBench:包含100个任务,旨在训练代理掌握多种基本技能,并在测试时泛化到新任务。
-
-
柔顺物体操作基准:
-
SoftGym:包含10个模拟环境,如倒水、折叠布料、拉直绳子等,专注于柔顺物体的操作。
-
Plasticinelab:利用DiffTaichi系统进行可微分软体模拟,专注于柔顺物体的操作。
-
GRIP:一个综合基准,包含1200个物体(包括柔顺物体)与软体和刚体夹持器的交互,基于高保真的IPC模拟器提供详细的模拟数据。
-
-
移动操作基准:
-
OVMM:在AI Habitat模拟器中,包含200个人工编写的交互式3D场景,涉及7892个物体和150个类别,专注于移动物体的任务。
-
Behavior-1k:基于Omnigibson模拟器,由Nvidia PhysX 5驱动,包含多达1000个家庭活动,需要集成导航和操作策略。
-
ManiSkill-Hab:专注于家庭环境中的长期操作任务,如“整理房屋”、“准备杂货”和“布置餐桌”。
-
BRMData:提供10个家庭任务,需要代理使用安装在移动平台上的双臂完成。
-
-
语言条件操作基准:
-
CALVIN:提供34个长期任务,每个任务都配有特定的多步骤指令,如“抓住抽屉把手并打开它”或“按下按钮关闭灯”。
-
RoboTwin:利用大型语言模型(LLM)生成操作环境和任务,物体从演示视频中重建。
-
RoboMind:提供55000个真实演示轨迹,涵盖279个任务和61个物体,支持多种机器人体现形式。
-
DROID:一个大规模数据集,包含76000个真实演示轨迹,相当于350小时的交互数据,涵盖564个场景和86个任务。
-
-
多机器人体现集成数据集:
-
Open X-Embodiment:使用来自22种机器人类型的数据训练X机器人策略,展示了527种技能,跨越160266个任务,是最大的开源真实机器人数据集。
-
-
视觉感知数据集(:
-
GraspNet-1 Billion:旨在增强抓取和感知任务,如6D姿态估计和分割。它包含97280张图像,每张图像都标注了精确的6D物体姿态和抓取点,涵盖88个物体,提供超过11亿个抓取姿态。
-
方法
操作任务的成功执行依赖于准确的环境感知和有效的控制策略。研究主要集中在两个方向:感知表示和策略学习。
感知表示
感知是机器人操作的基础,所需3D空间细节的级别因任务复杂性而异。感知表示方法可以根据粒度分为以下几类:
-
体素图表示:将3D空间离散化为占用网格,每个体素表示相应的坐标(x, y, z)是否被占用。例如,VoxPoser和VoxAct-B将体素网格与视觉-语言模型(VLM)集成,以支持操作任务。
- 基于对象的表示:
-
6D姿态估计:预测场景中物体的位置和方向。例如,Pix2Pose使用像素级坐标回归从RGB图像中估计3D坐标,而FoundationPose提供了一个统一框架,用于6D姿态估计和物体跟踪。
-
抓取提议:基于视觉输入生成抓取点。例如,GraspSPlats通过显式高斯绘制提高抓取选择的效率和准确性。
-
- 等变表示:
-
SO(3)等变表示:确保当输入3D点云旋转时,学习到的表示也会以相同的方式旋转。例如,向量神经元网络(VNNs)通过扩展神经元到3D向量并应用线性变换来实现SO(3)等变性。
-
SE(3)等变表示:包括旋转和平移变换,使模型能够泛化到场景中不同位置和方向的物体。例如,神经描述场(NDFs)产生从3D物体坐标到描述符的连续SE(3)映射。
-
SIM(3)等变表示:进一步考虑尺度变换,使模型能够操作不同大小的物体。例如,EFEM引入了基于符号距离函数(SDF)编码器-解码器的SIM(3)等变形状先验学习。
-
-
视觉-触觉感知:触觉传感器使机器人能够感知摩擦和表面纹理,从而在视觉遮挡的情况下准确估计物体的姿势和形状。例如,NeuralFeels和DIGIT 360将视觉和触觉集成到多指机器人手中,增强空间感知能力。
策略学习
策略学习是操作任务的核心,涉及基于当前状态和先前动作生成下一个动作的策略。策略学习方法主要分为以下几类:
- 强化学习:
-
无模型强化学习:直接通过试错优化策略,无需构建环境的显式模型。例如,OpenAI使用近端策略优化(PPO)与LSTM基础策略网络进行灵巧操作,通过与MuJoCo的大量交互来训练策略。
-
基于模型的强化学习:构建状态模型,用于规划和决策。例如,Nagabandi等人提出了一种基于模型的RL方法,使用神经网络近似状态转移分布,作为模型预测控制(MPC)中的动态模型进行在线规划。
-
- 模仿学习:
-
行为克隆:通过模仿专家演示来训练策略。例如,在MOMART框架中,使用BC训练移动操作任务的策略。
-
动作分块与Transformer:通过Transformer网络生成一系列动作,并通过衰减参数对重叠动作块进行加权平均,以确定最终动作。
-
从人类视频学习:通过将人类姿势从视频中重新定位到机器人姿势来扩展演示数据集。
-
扩散策略:利用去噪扩散概率模型(DDPM)通过逆转多步噪声过程来生成操作任务的动作数据。例如,RDT-1B将扩散策略的输出动作空间推广到与不同机器人硬件平台兼容,增强了知识的可转移性。
-
- 视觉-语言模型:
-
利用VLMs进行移动操作,例如EMMA将视觉观察转换为文本描述,并使用LLM生成动作描述。
-
- 视觉-语言-行动模型:
-
RT-1:将动作标记化为与语言相同的格式,并从指令和观察中输出一系列动作。
-
RT-2:结合了PaLM-E(从互联网规模数据中学习的高级语义理解)和RT-1(从小规模机器人演示中学习的低级控制),使VLM能够直接从复杂指令生成低级动作。
-
RT-H:引入了语言-运动层次结构,学习两个基于VLM的策略,用于语言查询和动作查询。
-
OpenVLA:RT-X的开源版本,用于通用机器人控制。
-
结论与未来工作
-
结论:
-
物理模拟器在具身智能中发挥着关键作用,通过精确的物理建模和逼真的渲染缩小了模拟与现实之间的差距。
-
导航和操作任务取得了显著进展,特别是在数据驱动方法的推动下。
-
从2020年到2022年,大规模数据集的引入使得通过模仿学习实现更好的模型泛化成为可能。
-
从2022年开始,基础模型、世界模型和视觉-语言-行动(VLA)模型的兴起标志着另一个飞跃。
-
-
未来工作:
-
提高学习效率:开发能够快速适应新任务的算法和系统创新,减少每个任务所需的数据量。
-
持续学习:使具身代理能够适应动态环境,同时保留先验知识,特别是在视觉-语言导航(VLN)中。
-
神经常微分方程:建模具身AI任务中的连续动态,如液体倾倒。
-
评估指标改进:开发更全面的评估指标,如能量效率和轨迹平滑度,以更全面地评估具身AI性能。
-