斯坦福炒虾机器人帮你戴隐形眼镜，偷钱包被抓现行

新智元 发表于 2024/2/8 12:45:27

斯坦福炒虾机器人帮你戴隐形眼镜，偷钱包被抓现行

新智元报道

编辑：编辑部

【新智元导读】爆火全网的炒虾机器人震撼升级了！斯坦福联手 DeepMind 开源升级版 ALOHA 2，全新的机器人不仅能戴隐形眼镜、开可乐，甚至还可以开钱包抽钞票！这种级别的精细控制简直神了……

一个月前，斯坦福爆火炒菜机器人 Mobile ALOHA，在今天全新升级二代 ALOHA 2！

先不说别的，就「戴隐形眼镜」这项任务，至今还没有哪个机器人敢于发起挑战。

看 ALOHA 2 这双灵巧的双手，先把一层薄如纸的外包装撕开，完整取出隐形眼镜。

（从右上角视频中看出 2023 年 4 月份的时候，ALOHA 双手非常笨拙，被撕开包装的任务难住了）

大眼熊猫玩偶成为第一个受试者，只见 ALOHA 2 往眼珠子上一按，隐性眼镜一下子就上去了。（就是眼珠子可能会有点疼）

「小偷机器人」ALOHA 2 还能在当事人聊的正投入时，可以囊中取物。

悄悄地把钱夹子拿出来，抽出几张美钞，然后再偷偷地放回口袋。

不过，最后还是被发现了！

要说这整（zuo）活（si）的程度，连「擎天柱」都自愧不如。

空中抛玩偶，一手扔，一手接，也是 6 的一批。

就看这随手撬开小小的可乐拉环那一幕，绝对潇洒！

还有，将各种水果蔬菜模具进行分类这样的简单任务，更是拿捏自如。

ALOHA 2 这番炫技，再次惊艳了众人。当然，以上这些画面，都是远程操作完成的。

事情发展得太快了，真可怕！

有网友直接点名，下次想看 ALOHA 变魔术！（此处 @谷歌斯坦福团队，赶快安排！）

这次，与以往不同的是，谷歌 DeepMind 也下场了，一起联手斯坦福、Hoku Labs「明星团队」推出 ALOHA 2！

据介绍，ALOHA 2 是一种用于双手远程操作的增强型低成本硬件，大幅提升了初代 ALOHA 的耐用性，能够在更复杂的任务上进行大规模的数据收集。

论文地址：https://aloha-2.github.io/ assets / aloha2.pdf

更惊喜的是，ALOHA 2 此次的打造成本仅为 27,067.50 美元（约 19 万），比第一代还要便宜 3 万元。

详单：

https://docs.google.com/spreadsheets/d/1mibobot-dKf3M0cO71KjR7yZXrTZGx0kQ4Enj80XqoU/edit?resourcekey=0-YgOJx3JKd2HEAeZUwuH-0w#gid=0

与往常一样，机器人 ALOHA 2 硬件手把手教程，以及代码全部开源！

爆打初代 ALOHA，更灵敏反应更快

研究人员把 ALOHA 2 组成一支「舰队」，场面堪称壮观。

这一次，全新 ALOHA 2 与第一代机器人，升级点在哪里？

首先是机械手，团队把它们改造得抓取性能更好、更坚固。

甚至，团队还更改了抓握胶带的布局，以改善机器人对小物体的抓握能力。

我们刚刚看到的，ALOHA 2 撕开隐形眼镜包装，扣开可乐罐等微小物体的操作能力上表现出色。

当然了，ALOHA 2 也它不可以的时候，比如打开这盒牛奶，费了很大劲。

在 16 倍慢速的情况下，看分别这两个抓手的响应速度，很明显 ALOHA 2 更快，初代 ALOHA 才一点点合并。

在引导侧，还是使用了相同的导轨设计。

不过，为了进一步改善人体工程学，团队用更易于反向驱动的低齿比伺服器，取代了原来的伺服器。

这样一来，操作员在打开夹具时需要克服的摩擦力，就减少了 10 倍之多！

还有 Follower 夹持器的抓取力，采用了低摩擦导轨设计，可以将 2 倍以上的力传递到夹持器尖端。

从下图可以看出，ALOHA 2 比初代抓手能力提升了 2 倍，峰值为 30.1N。

接下来，团队还改进了引臂的重力补偿功能。

通过恒力牵引器（constant-force retractors）和弹簧滑轮系统，这个手臂可以在大多数地方「漂浮」。

比起原来的橡皮筋，它可耐用多了！

最后，团队简化了工作单元周围的框架，同时保持了摄像机安装点的刚性。

这就既为人机合作者开辟了空间，也为机器人与道具互动开辟了空间。

虚拟世界中的 ALOHA 执行任务

甚至，即使没有硬件，我们都可以在 Mujoco 中使用 ALOHA 执行复杂的任务！

因为团队发布了一个带有 SysID 的 ALOHA sim 模型。

它可以将盘子，精准地放回收纳架中。

换只手拎大锤，交替自然。

平底锅炒「空气」，也能意思一下。

整理收纳桌上的物品，一只手接，一只手放。

ALOHA 2 的重大改进

这次的 ALOHA 2，继承了 ALOHA 的原始设计，由一个双臂并联加持工作单元（包含两个 ViperX 6-DoF 手臂）和两个更小的 WidowX 手臂组成。

前者是从动（follower），后者是主控（leader）。

WidowX 与 ViperX 有相同的运动结构，只是体积更小。

从动的关节动作与主控臂同步，用户可以通过操作主控臂，来远程控制从动臂，就跟提线木偶一样。

此外，系统还配备了多个摄像头，可以从多个角度捕捉图像，这样就可以在远程操作期间收集 RGB 数据。

机器人安装在一个 48 英寸 x30 英寸的桌子上，周围有一个铝制保护框架，它不仅为摄像头提供了额外的安装点，还集成了重力补偿系统。

为了支持复杂操控任务的研究，团队计划在 ALOHA 平台上大幅扩展数据收集的规模，包括增加机器人的数量、每台机器人的数据收集时长以及数据收集的多样性。

因此，团队的目标相对于第一代 ALOHA 平台，就有了一些变化，在以下几方面做了改进 ——

- 性能与任务范围：提升 ALOHA 关键组件的性能，如夹持器和控制系统，以支持更多样的操控任务。

- 用户友好性与人体工程学：为了使数据收集工作更加高效，这次团队将用户的体验和舒适度放在首位，对系统的响应速度和人体工程学设计进行了优化。

- 系统鲁棒性：团队简化了机械设计，确保了更大规模机器人群的易于维护，这样就可以提高系统的鲁棒性，减少因故障诊断和修理导致的停机时间。

为了实现这些目标，团队在夹持器、重力补偿、架构、摄像头、模拟等方面都进行了改进。

可以看到，通过这些改进，操作者可以更轻松地对一些挑战性任务进行远程控制，比如叠 T 恤、打结、抛掷物体，甚至是精度要求极高的工业作业。

现在，每台机器人每天都能在这些任务上完成数百次的演练，效率大幅提升。

硬件

主控夹持器（Leader，操作者手持的设备）

为了实现更流畅的远程操作体验和更好的人体工程学设计，团队将 ALOHA 的原始剪刀型夹持器设计，替换成了一种低摩擦轨道设计，这就显著降低了机械复杂度。

为了进一步减轻操作者的负担，团队还把原来的夹持器电机更换为摩擦更小的型号，这种电机齿轮比更低，且采用了低摩擦金属齿轮代替了塑料齿轮。

这种新设计，就使开启和关闭夹持器的力量需求减少到原来的十分之一。这就显著降低了操作者在长时间采集数据时的手部疲劳和压力。

在决定采用线性轨道设计时，团队对比了另外两种设计方案。

首先是 ALOHA 中采用的原始剪刀型设计，它通过定制的 3D 打印转子和轨道来实现夹持器电机的反向驱动。

另外还有一种带弹簧的扳机设计，拉动扳机时，夹持器就关上，如果放开，它就回到自然的开放状态。

团队找来 6 名用户，用这三种装置通过远程操控拆开糖果包装。

结果显示，用户的偏好各不相同，但几乎所有人都给线性轨道设计投了一票。

从动夹持器（Follower，操纵物体的机器手）

在 ALOHA 2 中，团队把机器人的「手指」也改良了。

这种新型夹持器摩擦力更低，这就减少了操作者与机器人「手指」之间的反应延迟，极大提升了用户体验，从视频中可以看出，新设计在反应时间上大大加快。

这副新手也让夹持器的力量达到了旧款的 2 倍，抓物体更牢了。

而原有的 PLA 和丙烯酸结构，被替代为了 3D 打印的碳纤维尼龙材料，这就提高了「手」的柔韧性 —— 承受重载时，它能适度弯曲，让操作更安全。

这次，团队保留了 ALOHA 手指关节的透明设计。在夹持器内侧使用了聚氨酯抓握带，并在手指外侧增加了胶带，因而提升了抓握力。

重力补偿 —— 被动系统

为了减轻远程操控的疲劳感，团队还设计了一种「重力补偿」机制 —— 通过可调节的悬挂式缓冲器，人类操作者就可以根据自己的舒适度调整平衡力。

研究人员对比了被动硬件重力补偿系统，与一个基于软件的主动补偿系统的差异。

简单来说，「重力补偿」就是保证机器人移动手臂之后，依然能够保持在一个位置上不动。

「主动系统」利用 MuJoCo 模型的逆向动力学。计算出重力负载的等效扭矩，然后将扭矩命令传递给主控机器人的关节。

为了展开这项研究，6 位用户通过远程操控机器人，尝试在 10 分钟内完成一个精确的任务。

即，将不同形状的物体插入盒子中相应的孔中。操作员以随机分配的顺序在两个系统上尝试执行任务。

结果发现，平均而言，操作员使用被动重力补偿系统表现更好（每分钟插入 1.38 个形状，相比之下主动系统为 0.97 个）。

根据参与者的反馈，作者推测「被动系统」能够提供更平稳、可预测的操作体验。

然而，「主动系统」操作起来需要更多力量，且动作更为生硬，可能是因为伺服电机调节不当，或是在抵抗重力时存在轻微的延迟。

此外，「被动系统」还有 2 个额外的优点：

1. 通过完全关闭主控机器人关节的动力，可以避免软件错误或异常情况下的意外大幅移动，从而实现更安全的远程操作；

2. 力牵引器让机械臂自然居中，避免了手腕过度旋转，这是主动补偿系统的一个弱点。

由此，在 ALOHA 2 项目，研究人员选择了「被动系统」。

不过，他们认为，经过适当的开发和调试，一个「主动系统」可能会超越「被动系统」的性能，并可能扩展一些有用的功能，比如为用户提供触觉反馈。

4 个摄像头

研究人员还把 ALOHA 系统中的摄像头，升级为 4 个 RealSense D405 摄像头。

它们不仅体积小巧，还能提供高分辨率的彩色图像和深度信息，并且提供全局快门功能。

研究人员还为腕式相机和顶部以及低角度视角设计了新的支架（参见图 6）。

腕式相机的紧凑设计显著减少了可能的碰撞风险。

对于那些需要精细操作的任务来说，特别是在手臂需要紧密配合或在狭小空间内操作时，这种设计显著提升了远程操控的效果。

远程操作

ALOHA 2 的远程操作，是如何实现的呢？

研究人员利用 ROS2 来运行远程操作软件栈。

启动时，主控臂和从动臂（ leader & follower arms）都会初始化到初始位置。操作员可以通过操作任一主控机器人上的夹持器手指部件来启动数据收集会话。

通过操作工作单元下方的脚踏板，操作员能够保存或放弃该会话。

在远程操作会话中，研究人员记录了包括图像、主控臂和从动臂关节位置，以及 ROS2 系统提供的其他辅助数据在内的机器人传感器数据流。

为了确保下游处理流程能接收到完整、高质量的数据，他们还在数据收集时采取了多项措施，这对机器人学习流程至关重要。

操作员在数据收集过程中能够看到传感器可用性和延迟等会话统计信息，以确保数据的可靠记录。

为了保证下游学习流程始终获得完整数据，一旦发现数据缺失，会话将自动终止。

记录会话时，研究人员会记录操作员用户名、时间和机器人标识符，以及机器人的原始传感器数据流。

此外，还会记录额外的数据，以便在后期发现某些机器人在特定时间段内存在问题时能够进行数据过滤。

模拟

这次，团队还推出了 ALOHA 2 工作站的一个模拟版本，这个版本基于 MuJoCo Menagerie 技术，对远程操控和在虚拟环境中的学习非常有帮助。

比起之前的 ALOHA 模型，这个新模型在模拟物理行为和视觉效果上，都有显著提升。

MuJoCo 模型的渲染。通过对 ALOHA 2 所有摄像机和机器人位置进行精确建模、执行系统识别，就能确保与真实行为相似

通过分析真实的 ALOHA 2 操作轨迹，就可以调整模拟模型中的物理参数，使它更贴近现实。

在实验中，研究者记录了使用主控臂进行的 11 次操作轨迹，通过专门的计算方法，减少了这些真实轨迹与模拟轨迹之间的差异。

在这个过程中，研究者调整了模拟中位置控制元件的一系列参数，包括动作的比例控制、阻力、连接部分的摩擦力和扭力限制等。

为了让模拟效果更加逼真，研究者尽可能模仿了真实设备的相机设置（参看下图的模拟相机视角），并且还原了工作台及其边缘部件、从动夹持器的细节。

这个超级逼真的模型，就可以让人们通过 ALOHA 2 WidowX 主控设备，以快速、直观、易扩展的方式收集模拟数据。

这样一个开源的高品质模型，就可以结合精确的系统参数设定，促进不同机构间共享远程操作模拟数据，加快研究在模拟环境中进行决策策略学习。

手把手教你造 ALOHA 2，成本仅 19 万

最后，谷歌 DeepMind 还做了一份详细的搭建指南，从零部件的准备到具体的实施全流程覆盖。

教程地址：https://docs.google.com/ document / u/0 / d / e/2PACX-1vQAr4fcUgOcmp3efQvwHxh1ua9muOuepyQ8ih7F-zncDaT3aGLIm8sHigDQTf7RRtyo4cuMCJ-YMKL9 / pub?pli=1

（以下是部分节选）

3D 打印的部分所需的零件：

搭建框架与重力补偿系统：

优化原始的 ALOHA 框架，从而适应重力补偿系统和新的相机位置：

安装移动工作站：

安装机器人：

将横杆定位于桌子前端 305mm 处

安装摄像头：

你觉得全新升级的 ALOHA 2 怎么样？

参考资料：

https://twitter.com/tonyzzhao/status/1755380475118719407

本文来自微信公众号：新智元（ID：AI_era）

科学探索 Archiver