军用航空与防务
该怎么让机器人吃下大模型?丨GAIR live

  这一技术的核心优势在于,其卓越的数据处理和模式识别能力。通过深度学习与神经网络技术的不断优化,大模型能够高效地处理和分析庞大的数据集。

  这意味着,机器人可以在更短的时间内学习新技能,更快地适应新任务,甚至能够在没有明确编程的情况下自主解决问题。不仅如此,在大模型的助力下,机器人的感知能力变得更加精准,这无疑将极大地拓展其应用领域,并增强其在复杂环境中的适应性和灵活性。

  然而,大模型技术的发展同样带来了挑战。如何确保机器人的决策过程透明、可解释;如何让机器人真正融入开放式服务场景,这些都是亟待解决的技术难题。

  最近,雷峰网举办的「大模型时代,机器人的技术革新与场景落地」线上圆桌论坛,汇集了南佛罗里达大学的孙宇教授、武汉大学的李淼教授、逐际动力的张巍博士、优必选科技的庞建新博士等产研界精英。

  他们的见解覆盖了从理论研究到实际应用,从硬件设计到软件算法,从感知技术到任务规划,为我们提供了一个全面而深入的视角,以洞察这一领域的最新发展和未来趋势。

  孙宇教授,从机器人学的角度出发,强调端到端方法在机器人学中的挑战性,尤其是在运动规划和执行方面,真正的端到端控制尚未实现。同时他也指出,AI 大模型如 GPT-4 和 CLIP ,在机器人感知和知识应用方面显著减少了研发时间和精力,使得 Demo 制作相对容易。但关键是,机器人技术的真正落地和产品的可靠性仍是一个巨大挑战。

  李淼教授,他重点关注机器人规划和执行层面,提出了利用大型语言模型来简化任务表达的可能性。同时他也指出,目前机器人领域缺乏类似于特斯拉 FSD 的统一模型,尽管数据驱动方法在机器人领域被认为是关键,但目前尚未得出明确的结论,即仅仅通过收集足够的数据就能解决所有问题。

  张巍教授,他讨论了端到端方法和分层方法的优劣,强调端到端方法不仅仅是架构问题,更是训练流程。他认为,未来机器人的发展可能会采用类似 ChatGPT 背后的 MOE 模型,由多个专家的小模型组成,通过 agent 连接。同时他也指出,大语言模型在决策层面上有所帮助,但对于具体的运动控制,仍然面临挑战。

  庞建新博士,是从 AI 领域转向机器人研究的杰出代表,他强调,AI 大模型在机器人领域最有价值的部分,是知识推理能力和挖掘事物关系的能力。同时,他提出了整合大脑、小脑与机器人本体之间的工作,以及如何将新型传感器有效利用到机器人系统中的问题。

  欢迎大家齐聚线上,也感谢雷峰网的组织。我相信大家和我一样,都对接下来大模型+机器人的讨论充满期待。在开始之前,请大家介绍下自己。

  大家好!我是李淼。我本硕毕业于华中科技大学机械工程专业,博士有幸在瑞士洛桑联邦理工学院(EPFL)与 Aude Billard 教授共事,致力于机器人技术,特别是模仿学习领域的研究。这与我们今天的讨论主题息息相关。

  在本科阶段,我的研究重点偏向于建模和规划。随着时间的推移,尤其是在攻读博士学位期间,我开始转向数据驱动的研究方法。在这一时期,我还与孙宇教授就抓取(grasping)领域的多个问题进行了深入讨论。

  2016年之后,我选择回国并尝试创业。我们的目标是打造一个机器人操作系统,旨在整合机器人的设计、感知、规划和执行过程。尽管当时的整合主要集中在传统的软件层面,以及使工业软件的 API 更加易于使用,但这一工作我们坚持了许多年,并最终在多个场景中实现了落地应用。

  我们专注于将机器人模仿学习应用于不同场景,尤其是在工业和医疗领域。在这个过程中,我们逐渐意识到,机器人任务规划这一高层次的问题缺乏明确的定义。我们通常称之为TAMP(Task and Motion Planning),即将任务规划、任务和运动规划混合在一起。但在实际应用中,我们发现很多任务难以用具体的方式描述,这带来了不小的挑战。

  随着大型语言模型的出现,我们开始思考:为何非要在向量空间中规划任务呢?例如“拾取与放置”任务,或者在抓取过程中,只需提供坐标,就能很好地解释任务。但在现实世界中,用口语描述任务可能会更简单。因此,我们开始将实验室的部分工作与大型语言模型相结合,从感知、规划到控制,这一领域的进展非常迅速。

  张巍:大家好!我是张巍。我在中科大完成了自动化专业的本科学习,之后在美国继续深造并从事教学工作十余年。2019年,我选择回国,并全职加入了南方科技大学。

  目前,我在南方科技大学担任教职,我的实验室叫机器人控制与学习实验室(CLEAR LAB),全称为 Control & Learning for Robotics and Autonomy,关注机器人控制理论与学习算法方面的研究。

  我早期的研究重点是最优控制和运动规划,随着机器人硬件的成熟,机器人领域的研究点日益增多,我的研究重点放在人形机器人,涵盖了感知、规划、控制以及强化学习等多个相关领域。

  逐际动力成立于2022年,我是创始人,主要从事通用机器人的研发,目前的重点在于人形机器人的开发,同时也有四轮足。

  大家好!我是庞建新,来自优必选科技。我的学术和职业道路可能与在座的各位有所不同。我在中科大攻读了电子信息工程的本科学位,那时我就已经开始涉足人工智能相关的工作。我的本科毕业设计专注于语音信号处理,包括早期的语音识别技术。在中科大继续深造期间,我选择了计算机视觉作为我的硕士和博士研究方向,从事图像处理和分析的研究。

  在硬件性能有限的情况下,例如频率仅为66兆赫兹的处理器上,我尝试运行语音相关技术。在研究视觉技术时,我也在思考如何让视觉算法在低算力硬件上运行。

  在我开始职业生涯时,我加入了一家外企,继续探索如何将视觉算法应用于低算力硬件。我记得非常清楚,我们曾尝试在只有100兆赫兹处理器的数码相机中实现复杂的算法。在深度学习技术广泛应用之前,我致力于开发小型算法,解决实际问题。

  2011年,我加入了中国科学院深圳先进技术研究院,开始探索如何将人工智能技术与机器人技术相结合。

  我们团队孵化了多个与机器人相关的项目,并与腾讯合作,推出了全球较早的基于云的桌面交互式机器人产品。2011年,我们的产品发布后,受到了极大的关注。随后,我们继续开发面向交互的智能机器人产品。

  2015年初,我加入了优必选科技。那时公司还处于初创阶段,研发团队仅有十几人,刚拿到A轮融资不久。

  所以那时我加入优必选科技后,与CTO熊友军博士一起负责整个公司的研发工作,并建立了优必选研究院。我们还规划了人形机器人的整体布局,成为国内最早从事人形机器人研发的企业之一。我们也努力推动产业化进程,从最初的小型人形机器人开始,到大型人形机器人的研发和应用落地。

  在这个过程中,我得以将软硬件结合的能力、人工智能技术应用于机器人技术。同时,我也学习了许多新知识,包括机器人控制、运动规划等。

  我认为,现在的机器人和大型模型研究已经不再局限于单一领域,而是涉及多个领域的知识。例如,大型语言模型已经从基础的语言知识扩展到多个领域,覆盖了从感知、理解、任务拆解和规划等多个层面,已经不再是单一技术。

  在当前阶段,我认为既有挑战也富有研究价值。我们团队在优必选科技已经完成了多轮机器人的研发,并探索了如何将各种技术应用于机器人之上。

  我们遇到了很多挑战,但现在我们有了新方向,无论是在感知、规划还是控制方面,新技术的出现都将为人形机器人产业的发展带来巨大变化,希望继续抓住这个机遇。

  优必选实际从2012年成立以来就投入人形机器人核心技术以及产品的研发。2016年,我们推出了大型人形机器人Walker的原型机。2018年,我们在CES展(国际消费类电子产品展览会)上首次发布了第一代Walker;到了2019年,我们推出了第二代Walker;2021年我们推出了Walker X;2023年我们研发了工业版人形机器人Walker S。到目前一共是五次迭代。

  优必选科技在人形机器人领域的研究经历了多个阶段。最初,我们的人形机器人更多用在服务场景,如导览接待、教育科普等。但从2022年开始,我们开始认识到,在工业制造场景中,人形机器人可能有更大的应用潜力,有可能比商用服务场景更早实现落地。因此从去年至今,我们的重点放在了探索人形机器人在智能制造场景中的应用落地。今年年初,Walker S就在蔚来汽车总装车间进行实训。这是全球首个人形机器人在汽车工厂流水线与人类协作完成汽车装配及质量检查作业的尝试。02 全球视野下的突破

  非常感谢各位的分享。我们刚才讨论了AI和机器人领域的发展,特别是大语言模型和基础模型的出现,极大地提升了 AI 的能力。这似乎预示着机器人技术再次成为研究和产业界的焦点,因为人们开始认识到 AI 的能力已经能够让机器人执行一些非常重要的任务,比如服务机器人和工业机器人。我认为我们可以利用各自的背景和平时观察到的趋势,为观众介绍一些在国内外学术界和工业界在机器人方向上取得的显著成就,以及这些成就对整个领域发展的推动作用。

  在当前自媒体高度发达的时代,我们经常会在雷峰网等平台上看到关于人形机器人、AI 等相关领域的最新动态。这些内容通过各种渠道广泛传播,让我们对这一领域有了更深入的了解。对于我个人而言,我关注的是机器人领域的周期性发展,这是一个循环往复的过程,非常有趣。

  回顾庞建新博士之前提到的通用与专用机器人的线年参加 IROS 会议(国际智能机器人与系统大会)时,我们讨论过所谓的灵巧手(dexterous hand)的问题。

  当时,许多人认为灵巧手并没有实际应用价值。我记得 Matei,也就是 GraspIt 软件()的创作者,曾说过一句著名的话:两指夹钳(Gripper)可以解决人类社会95%的问题,剩下的问题即使有灵巧手也难以解决。

  然而,十年后的今天,社会的观点发生了巨大变化。人们开始认识到,拥有类似人类的灵巧手,尤其是具有高度灵活性的灵巧手,将会改变很多事情。

  在2010年至2015年期间,我尝试了许多种灵巧手,相信孙宇教授也有类似的经历。我们使用过Barrett Hand、 Allegro Hand 、Shadow Hand 、iCub Hand 等,但它们的功能在当时受到了硬件和仿真算法的很大限制。

  现在,人们可能会过分强调人形机器人与大模型结合的优势,而忽略了最底层的根本问题,例如在grasping 的Contact(接触)方面从未被提及。

  传统的机器人任务表达往往简化为轨迹、pick and place 或者 force / impedance control 等形式,但任务表达本身并没有一个清晰的定义。随着大语言模型的引入,我们可以将自然语言这一维度加入到任务表达中。

  然而,如果我们回顾历史,早在2010年,人们就已经使用知识图谱等工具进行任务表达。在欧盟,过去我参与了两个相对知名的项目:RoboEarth 和 RoboHow。

  RoboHow 则是2014年欧盟机器人项目的佼佼者,它将网上的视频、人的视觉强化学习、Wikipedia的知识整合到一个庞大的知识引擎中,进行基于逻辑的推理。

  今天的大语言模型从更高的维度、更大的数据维度整合了这些知识。我们期待这次能够在任务表达上实现重大突破。

  我们当时讨论了手内操作(in-hand manipulation)的重要性。如果没有手指,就无法实现手内操作。因此,当时确实存在一些不确定。


华提会最新地址
上一篇:中华人民共和国导弹及相关物项和技术出口管制条例
下一篇:【科普】“星链”的军事应用和启示