用世界模型训练机器狗：1小时学会走路、翻身和通过障碍物

美国加州大学伯克利分校的研究人员近日公布了一款机器狗，可以在一小时内学会走路和翻身，甚至能通过特定的障碍物。

然而，仅仅10分钟之后，它就可以走上几步了；一个小时后，它的步伐就变得轻松很多，甚至在被一位研究人员用棍子推倒之后，还能自己翻身爬起来，继续导航并行走到预定目标。

与许多机器人不同的是，研究人员并没有事先在计算机模拟系统中向这个机器狗发布指令。丹尼尔·哈夫纳（Danijar Hafner）是美国加州大学伯克利分校的人工智能研究者，他和同事们利用强化学习的方法，对这个机器狗进行了训练。

研究人员使用了一种名为“Dreamer”的算法，利用过去的经验建立了一个真实世界的模型，供机器人学习。上图是机器人在30分钟的样子。

“通常情况下，机器人在计算机模拟系统中会通过大量的试错来学习，这比实时学习要快得多。”哈夫纳解释道，“在模拟中解决站立和行走等任务后，学习到的行为才会在一个物理机器上运行。但模拟无法捕捉现实世界的复杂性，因此在模拟中表现良好的行为可能无法解决现实世界中的任务。”

一位与该研究无关的科学家表示，强化学习将成为未来机器人操控的基础工具。上图是40分钟的机器人。

在这项研究中所用的机器学习类型，其实是通过奖励机器在环境中采取某些行动的方式，对其算法进行训练。哈夫纳和他的合作者——菲利普·吴（Philipp Wu）和亚历杭德罗·埃斯康特雷拉（Alejandro Escontrela）——使用了一种名为“Dreamer”的算法，可以根据过去的经验来构建一个真实世界的模型，并允许机器人进行试错运算。

“Dreamer算法最近展现出巨大的前景，它可以通过在一个学习世界模型中制定计划，从少量的互动中学习。”研究人员在论文中写道，“学习一个世界模型来预测潜在行动的结果，可以在想象中进行计划，从而减少在现实环境中所需的试错次数。”该论文于近期发表在预印本网站arxiv.org上，尚未经过同行评议。

1个小时后，图中的这款机器狗已经能很好地导航、行走，还能自己翻身。

在机器狗学会走路后，它还可以学会适应其他不可预测的结果，比如被研究人员用棍子戳倒。强化学习已经使机器人在棋类和电子游戏等方面大大超过了人类，但教会机器人在现实世界中做出正确的行动依然极具挑战性。归根结底，这是因为工程师们必须根据科学家是否希望这种行为得到奖励来进行编程。

“将强化学习应用到实体机器人上是一个巨大的挑战，因为我们无法加快现实世界中的时间，而机器人模拟器往往无法足够准确地捕捉现实世界。”研究人员解释道。

“我们的项目表明，学习世界模型可以大大加快机器人在物理世界中的学习速度。这将使强化学习更接近于解决复杂的自动化任务，比如制造和组装任务，甚至是自动驾驶汽车。”

研究团队在论文中列举了这类技术所面临的其他障碍，表示尽管Dreamer算法展示了很有前景的结果，但在硬件上进行长时间的学习会给机器人造成磨损，可能需要人类的干预或修复。上图中，机器狗正在通过障碍物

莱雷尔·平托（Lerrel Pinto）是纽约大学的计算机科学助理教授，致力于研究机器人和机器学习，他补充道：“机器人学家需要为他们希望机器人解决的每一个任务（或）问题进行这样的训练。”这将意味着大量的代码和一系列根本无法预测的情况。

研究团队在论文中列举了这类技术所面临的其他障碍。“尽管Dreamer算法展示了很有前景的结果，但在硬件上进行长时间的学习会给机器人造成磨损，可能需要人类的干预或修复。”他们在研究摘要中写道，“此外，通过更长时间的训练，我们需要做更多的工作来探索Dreamer算法的极限和我们的基线。”

“最后，我们认为，将快速真实世界学习和模拟器的优势潜在地结合在一起，以解决更具挑战性的任务，将是一个影响深远的未来研究方向，”研究人员补充道。

哈夫纳希望未来能教会机器狗服从人类的口头指令，或许还能在机器狗身上安装摄像头，让它具有视觉能力。通过这些改进，研究人员希望这款机器狗最终能做到一些更典型的狗类行为，比如把丢出去的东西捡回来。

在另一项独立进行的新研究中，德国马克斯·普朗克智能系统研究所（MPI-IS）的研究人员开发了一款名为“Morti”的机器狗，它的脚上安装有传感器，可以通过一种包含传感器数据的复杂算法轻松学习走路。

德国马克斯·普朗克智能系统研究所的科学家们利用算法训练了一款名为Morti的机器狗，使其学会走路

“作为工程师和机器人学家，我们希望制造一个具有动物一样的反射能力，并能从错误中学习的机器人，从中寻找答案。” MPI-IS动态运动研究小组的前博士生菲利克斯·鲁珀特（Felix Ruppert）在一份声明中说，“对一只动物而言，跌倒了能算是一个错误吗？如果只发生一次的话就不算；但如果它经常跌倒，那就是错误了。这就让我们能以某种方法来了解机器人行走的情况。”

机器狗Morti通过一种复杂的算法来指导自己进行学习。来自足部传感器的信息与机器脊髓模型的数据相匹配，而脊髓模型可以在机器人的计算机中作为程序运行。机器狗通过不断比较设定和预期的传感器信息、运行反射回路并调整其运动方式来学习走路。

波士顿动力公司的迷你机器狗SpotMini

在2017年11月发布的一段视频中，美国波士顿动力公司首次展示了其开发的最先进的机器狗SpotMini。在此之前，该公司还发布了一款1.7米高的人形机器人，名为“Atlas”。此次发布的是机器狗Spot的“轻量级”新版本。

视频中，这只机器狗在院子里“撒欢似的”小跑。波士顿动力公司在其网站上写道：“Spot是一款小型的四足机器狗，很适用于办公室或家庭环境。”它的重量为25公斤，加上机械臂后的重量则为30公斤。

美国波士顿动力公司的机器狗SpotMini在草坪上“撒欢”小跑

该公司称，Spot是一款全电动机器狗，充电后可以运行约90分钟，具体时长取决于它在做什么。此外，Spot也非常安静，被波士顿动力公司称为其“制造的最安静的机器人”。Spot于2016年首次亮相，之前的一款迷你版Spot有一个可伸长的“脖子”，看起来十分怪异。不过，在该公司之前的一段视频中，这款机器狗已经可以帮忙做家务了。

从这段视频中可以看到，机器狗走出了波士顿动力公司总部，进入了一栋住宅。在那里，机器狗利用可弯曲伸长的脖子将杯子放入了洗碗机，还把一个罐子扔进垃圾桶。有一次它踩到掉在地上的香蕉皮，摔了一跤，但利用可伸缩的脖子，它又重新站了起来。