马斯克的通用人形机器人招来群嘲学者：先像人手一样抓取吧

当下，从真实应用场景出发设计的机器人，执行抓取任务的看起来像机械臂，能跑起来的四足机器人看起来像狗。即使强如波士顿动力，设计出来的机器人Atlas也是手长腿短，头重脚轻——它身高150cm，体重86公斤，与其说像人，不如说像黑猩猩。

波士顿动力家族机器人合影

Tesla Bot

波士顿动力的Atlas可以5.4Km/h的速度移动。而Tesla Bot可以8km/h速度运动，这意味着Tesla Bot不仅更好看，运动性能还更好。另外，波士顿动力的机器人是没有手指的。而Tesla Bot则有一双“美手”。

不仅外观像人，马斯克还想让这个机器人像人一样具有“通用智能”。一位卡内基梅隆大学的人工智能和机器人学博士接受澎湃新闻采访时表示：“现代的人工智能基于学习算法，但是目前在机器控制领域这些算法的效果还难以令人满意，从这个角度说，一个可以在明年发布的‘通用’机器人肯定不会像人们期待的和终结者一样先进。”

这位卡内基梅隆大学的人工智能和机器人学博士表示，“从另外一个角度说，机器人领域的硬件和算法是高度相关的，在关节控制、手部精细操作、视觉信息理解等几乎所有的技术细节上，现在的硬件层面上也有太多要攻克的难题。在现在的学术界和业界发展状况下，‘特斯拉能否在明年发布一个通用人形人工智能机器人’还不应该是一个可以被严肃讨论的问题。除非特斯拉重新定义了‘通用人形人工智能机器人’。不过在严肃的科研攻关和学术讨论之外，马斯克把这些技术领域的愿景带入公众的视野，从星链计划、完全自动驾驶到移民火星，都是如此。我觉得长期来看这种技术讨论的大众化是有它的正面作用的。”

其实，就运动能力来说，要在一年内做出已经很难。工程类知名学术期刊 IEEE Spectrum 的Evan Ackerman表示，“像波士顿动力公司和敏捷机器人公司这样的公司几十年来一直在研究可以在人类环境中导航的机器人，但这仍然是一个非常困难的问题。我不知道为什么马斯克认为他可以突然做得更好。”

CNN（美国有线电视新闻网，Cable News Network）称伊隆·马斯克又向其长长的“明年”就发布清单中增加了一项（标题为《Elon Musk just added a robot to his list of things always coming 'next year.' For now he's got a guy in a suit》）。报道中指出，虽然马斯克在特斯拉和SpaceX中的工作颠覆了汽车和航天业，但他也以错过最后期限和过度承诺闻名。

彭博社分析，马斯克常常在仅仅有原型的时候就公开产品——基本是在一个想法成为实际产品前就售卖它。2017年的11月，特斯拉公开了他们的Semi卡车，但该车最早要被推迟到2022年上市，部分原因是制造更大的电池面临挑战。华尔街风投机构Loup Ventures知名分析师Gene Munster表示，“伊隆有远大的愿景。对投资者来说，特斯拉机器人是他们可以发挥想象的新事物，D1芯片更具实质意义，但对于大多数投资者来说却很无聊。”

当天现场，特斯拉CEO马斯克通过几张PPT介绍了Tesla Bot的基本情况：机器人面部是一个显示屏，显示屏背后是多个摄像头，手部达到人类水平（Human-level hands）。

机器人面部配备了特斯拉在自动驾驶中使用的Autopilot摄像头充当感知系统，胸腔里内置FSD自研芯片。Tesla Bot可以8km/h的速度运动，提起约20公斤的重物，有约68公斤的硬举能力。特斯拉已有的多摄像头神经网络、规划能力、标记能力都会应用到Tesla Bot中。

马斯克在8月20日的特斯拉AI日上称，Tesla Bot将用来处理“无聊、重复和危险的工作”，比如让机器人帮忙跑杂货店拿东西，目标将是用于通用机器人的人工智能技术。在他们的计划中，Tesla bot将会达到和人类的尺寸以及重量相近的物理特性，并且会具有用于自动驾驶的相机系统和计算单元。

马斯克简短介绍完Tesla bot不久之后，一位形似日本超级变变变的演员穿着紧身衣就在舞台上尬舞起来，除了开头登台是机械舞，之后不知道是什么舞蹈。马斯克笑着说，“演员不是真正的机器人，但特斯拉机器人将是真实的。”

对于特斯拉所称的将于明年发布Tesla Bot的前景如何，上海交通大学副教授马道林在接受澎湃新闻采访时表示，发布机器人硬件样机本身，一定可以实现。真正的难度在于这个机器人能做什么，而对于这方面特斯拉并没有承诺什么。“我个人觉得他们是开了一条崭新的任务线，马斯克口中承诺的是一年后拿出Tesla Bot样机（Prototype）。通常样机的核心功能是做概念验证，并不会期待它能真的去执行多么复杂的任务。在前期积累的基础上经过未来一年的持续研发，我猜测，他们拿出来的应该是一款可以慢慢走并和观众招招手、点点头和显示笑脸的产品。”

马道林进一步解释，特斯拉的技术长处除了硬件制造之外，很大程度在于基于人工智能的导航（Navigation）能力，特斯拉会将自动驾驶汽车所具备的对周围环境的三维重建和感知以及决策能力移植到机器人上。

“在能做什么方面，我估计他们一定会突出导航和移动能力，比如说通过让机器人所在的房间或商店很复杂来展示他们强大的导航能力，而弱化甚至于不展示操作能力。”马道林预计，“理想情况下，明年的demo会正如马斯克所举例的那样，演示人员说‘去某某地方把某某物品拿给我’，Tesla Bot通过语音识别理解了这一任务，导航并走到那里，以简单的方式拿到物品并送到演示人员面前。演示结束。”

一位在机器人和人工智能领域发表了多篇高影响力论文的机器人抓取和操控（Grasping and manipulation）领域的资深研究者向澎湃新闻（www.thepaper.cn）表示：“从物体抓取操作（grasping / manipulation）的角度来说，基于五指的算法都还不成熟，机器人领域的算法都是跟机械结构适配的，连硬件都没有的时候，对相关算法的讨论是没法进行的。我不认为Tesla在明年可以发布人们期待的通用人形机器人，马斯克的这个项目很可能会一直搁置下去。”

“只能说那是一种愿景，人类觉得一个足够智能的机器人应该可以被造的和人外观类似，但是为了实现这个目标，需要做的还有很多。另外，为了让他‘像人’有时候需要付出额外的努力，现在在传感器、感知算法、控制算法、机器人硬件等领域的差距还很远。马斯克在发布会上没有介绍相关细节，我只能从我了解的情况判断，明年发布的机会应该是不大的，或者说可以发布的东西和一些公众基于科幻做出的想象是有很大落差的，”一位美国顶尖大学机器人领域教授表示。

虽然对于特斯拉所说的能在明年发布通用人形机器人并不看好，但马道林认为，“不管怎么说，更多的大型科技公司进入机器人领域，利用其强大的工程和制造能力刷新硬件制造的海平面，对这一领域的研究和发展都是很好的事情，让我们拭目以待吧！”

马道林本科和博士毕业于北京大学，后进入麻省理工学院进行博士后研究，并于去年加入上海交通大学船舶海洋与建筑工程学院担任副教授。马教授的论文“基于触觉测量的相对运动跟踪和外部接触感知” （Extrinsic Contact Sensing with Relative-Motion Tracking from Distributed Tactile Measurements）于今年的机器人领域顶级会议ICRA上获得最佳论文奖。

以下为马道林接受澎湃新闻采访实录：

澎湃新闻：周五的Tesla AI Day中，马斯克表示，将“自动驾驶”和其他技术结合，迁移到人形机器人身上是顺理成章的。您认同这个通往通用人形机器人的路径么？相较于自动驾驶等技术，实现人形机器人的独有的难点有哪些？

马道林：特斯拉，是一家智能设备硬件科技公司，这个通往通用人形机器人的路径，我的理解，一是特斯拉有优秀的硬件工程师和一流的加工工厂，他们擅长去制造机器人所需的电池、驱动电机、传感器等硬件，这些公司运用已知技术做起硬件迭代来可以远远比大学实验室更强大；二是，特斯拉有在自动驾驶领域积累的强大的人工智能计算硬件和算法基础，特斯拉自动驾驶汽车所具备的基于视觉对周围环境的重建和感知能力，可以轻松地移植到机器人上，去辅助机器人的导航和决策。三是，技术之外，特斯拉现在很有钱，而且在全球新能源政策走向的支持下，未来也十分看好，不差钱，对他们来说，烧点钱做些高风险但有很大媒体关注度的事情，应该挺划算。

从学术界的进展来看，人形机器人的难点还是很多的。一方面是硬件设计方面，虽然波士顿动力已经展示了很强大的硬件设计，但世界上似乎还没有另外一家公司的人形机器人能接近波士顿动力。虽然人们早就知道如何去实现几十个关节的运动结构设计，但是在驱动方面，有着大量的工程和技术挑战，这几十个关节所需要的驱动器有多种不同大小或规格，在许多关节处的驱动结构在结构体积受到限制的情况下还要满足扭矩和速度方面的苛刻需求，难度不小。波士顿动力在液压驱动方面的造诣恐怕是其他公司所望尘莫及的。而另一方面是运动平衡。和四足机器人不同的是，人形机器人两条腿在运动中需要两条腿交替支撑，一旦其中一条腿的节拍跟不上就会摔倒。因此人形机器人更多地要在运动中实现自身的动态平衡，而在移动或执行操作任务中保持如此复杂多体系统的动态顺滑的自平衡，是很有挑战性的规划和控制问题。2015年DARPA机器人挑战赛中机器人屡屡跌倒的现状给许多人留下了深刻的印象。

澎湃新闻：目前对人形机器人一个很重要的期待是手部的精细操作，这和马老师你在机器触觉领域的研究息息相关。今年您在ICRA上获得的best paper也是这个领域的成果，请问这个领域目前的困难有哪些呢？

马道林：前面还只是说了人形机器人的移动或运动问题，要让人形机器人对人类有用，很大程度上要依赖于解决机械手精细操作或者说灵巧操作问题。把机械手灵巧操作作为一个独立的机器人子系统来理解的话，要解决的问题要包含硬件驱动，传感与感知，以及规划与控制这三个方面。其中，硬件设计是基础，也是相对来说最容易理解并进行仿生设计的部分；但另外的两个方面则还困难重重。

对于传感和感知部分。我们今年在ICRA上发表的工作，是解决了触觉传感和感知方面的一个重要问题，实现了对手中物体运动状态的精确跟踪和对物体外部接触的定位感知，我们期待在未来的工作中将触觉感知和与现在业已取得巨大进展的视觉传感和感知相结合，为机器人操作提供较为完备的感知信息。

而对于精细操作所需的规划和控制，相对于人们的期待，目前大家的研究还只是婴儿阶段，有相当长的路要走。这里面的挑战既有硬件不完备带来的研究限制，更有来自于操作问题本身的难度。首先，机器人操作要解决的问题是通过对机械手自身的控制，调节手中物体与外界（各种并不规则的）环境的接触行为，以实现物体位姿或物体与环境相互关系的改变，在问题复杂度上显著高于机器人行走问题。其次是机器人操作的任务包罗万象，从研究的角度也很难找到一个操作任务去代表所有任务，难以找到理想的benchmark问题并攻关解决。最后，机器人操作，非常关键的是各种操作中接触行为的理解和利用。多关节的手指、手掌以及外部环境，甚至于胳膊和身体等，处处都可以和物体发生接触，需要理解和预测这些接触行为对物体运动状态的影响并妥善加以合理利用，这是非常复杂和困难的规划任务。而且，在这些规划和控制中，还要与我们前面提到的触觉传感和感知能力以及视觉传感和感知能力相结合，才可以形成完整的控制闭环。

澎湃新闻：特斯拉给出了在一年内发布“通用人形机器人”Tesla bot的时间表，您觉得这么短的时间内完成这个目标是可能的么？

马道林：我个人觉得他们是开了一条崭新的任务线。马斯克口中承诺的是一年后拿出Tesla Bot样机（Prototype）。通常样机的核心功能是做概念验证，并不会期待它能真的去执行多么复杂的任务。在前期积累的基础上经过未来一年的持续研发，我猜测，他们拿出来的应该是一款可以慢慢走并和观众招招手、点点头和显示笑脸的产品。特斯拉的技术长处除了硬件制造之外，很大程度在于基于人工智能的Navigation能力，也就是导航，特斯拉会将自动驾驶汽车所具备的对周围环境的三维重建和感知以及决策能力移植到机器人上。我预计，理想情况下，明年的demo会正如马斯克所举例的那样，演示人员说“**，去某某地方把某某物品拿给我”，Tesla Bot通过语音识别理解了这一任务只会，导航并走到那里，以简单的方式拿到物品并送到演示人员面前。演示结束。

所以，发布机器人硬件样机本身，是一定可以实现的。因为问题的真正难度在于这个机器人能做什么事，特斯拉也没有承诺什么。在这方面，我估计他们一定会突出导航和移动能力，比如说通过让机器人所在的房间或商店很复杂来展示他们强大的导航能力，而弱化甚至于不展示操作能力。但不管怎么说，更多的大型科技公司进入机器人领域，利用其强大的工程和制造能力刷新硬件制造的海平面，对这一领域的研究和发展都是很好的事情，让我们拭目以待吧！

本文来源：cnBeta 如有侵权请联系管理删除

马斯克的通用人形机器人招来群嘲 学者：先像人手一样抓取吧