当我还在和ChatGPT聊天,有人已经开始用它来控制机器人干活了

**ChatGPT的功能现已扩展至机器人领域,可以通过自然语言直观地控制机械臂、无人机、家庭辅助机器人等多个平台。这将改变未来人机交互的形式吗?**

你是否曾想过可以像与人对话一样,用自己的话告诉机器人该做什么?

比如,你只需对家庭助理机器人说“请帮我热一份午餐”,然后它就能自动找到微波炉。这听起来是不是很神奇?

尽管语言是人类表达意图的最直接方式,但在过去很长一段时间里,人们仍然需要通过编写代码来控制机器人。但是有了 ChatGPT,这种情况将发生改变。

最近,微软团队开展了一项研究,探索如何利用 OpenAI 的新 AI 语言模型 ChatGPT,来实现自然的人机交互。

具体链接可以查看这里:[ChatGPT 在机器人中的应用研究](https://www.microsoft.com/en-us/research/uploads/prod/2023/02/ChatGPT___Robotics.pdf)

ChatGPT 是一个通过大量文本和人类互动的语料库训练的语言模型,它能够生成连贯且语法正确的响应。因此,在面对各种提示和问题时,它的表现十分出色。本次研究的目标是检验 ChatGPT 是否能够超越文本思考,对现实世界进行推理,从而帮助机器人完成任务。研究者希望借此研究提升人们与机器人的互动体验,无需学习复杂的编程语言或掌握机器人系统的细节。

该研究所面临的关键挑战在于教会 ChatGPT 如何考虑物理定律、操作环境,以及机器人如何通过肢体动作改变周围环境来解决问题。

虽然 ChatGPT 本身具备很多能力,但它依然需要一些辅助。研究团队在论文中提出了一系列设计原则,以指导语言模型解决机器人任务的方案,这些原则包括(但不限于)特定的提示结构、高级 API 以及通过人类文本反馈的互动。研究者认为,这项工作仅仅是机器人系统开发变革的开始,并希望鼓励更多研究人员加入这一有趣的领域。

### 当今机器人技术面临的挑战,以及 ChatGPT 的潜在解决方案

当前,机器人的操作过程通常由工程师或技术用户发起,他们将任务需求转换为系统代码。这一过程往往缓慢(用户需编写底层代码)、昂贵(需高技能用户深入了解机器人技术)且低效(需要多次交互才能实现正确运行)。

ChatGPT 的出现则开启了一种新的机器人控制模式,允许潜在的非技术用户参与其中。他们可以在观察机器人性能的同时,向大型语言模型(LLM)提供高级反馈。根据研究制定的设计原则,ChatGPT 能够为机器人场景生成代码。通过利用 LLM 的知识,无需任何微调即可控制不同形式的机器人完成各类任务。研究人员展示了 ChatGPT 解决机器人难题的多个实例,涵盖操作、空中和导航等领域的复杂机器人部署。

#### 机器人与 ChatGPT:设计原则

有效提示 LLM 的能力是确保成功的关键。在这项研究中,研究人员通过反复试验建立了一系列为机器人任务编写提示的方法和设计原则:

1. **定义高级机器人 API**
研究首先定义了一组特定于某个机器人的高级 API 或函数库,能够映射到机器人的控制堆栈或现有的低级实现。使用描述性名称来命名高级 API 是至关重要的,这样 ChatGPT 方能推断其行为。

2. **编写任务描述的文本提示**
研究人员为 ChatGPT 编写文本提示,描述任务目标,并明确指出可用的高级函数。提示中还可以包括任务约束的信息,或说明 ChatGPT 如何形成其答案(例如特定的编码语言、使用辅助解析元素等)。

3. **评估和反馈**
用户通过直接检查代码输出来评估 ChatGPT 的输出,或者使用模拟器进行功能验证。如有必要,用户还可以使用自然语言为 ChatGPT 提供关于输出质量和安全性的反馈。如果用户满意于解决方案,生成的代码便可以最终部署到机器人上。

### 理论已足够,那 ChatGPT 实际能做些什么?

让我们看看几个实现的例子,更多案例研究可以在其代码库中找到。

1. **零样本任务规划**
研究人员让 ChatGPT 控制真正的无人机,验证其成为非技术用户与机器人之间直观的基于语言的接口。当用户指令模糊时,ChatGPT 会提出明确问题,并编写复杂的代码结构以检查架构,比如锯齿形飞行路径。它甚至学会了自拍!

2. **模拟器中的应用**
研究人员还在 Microsoft AirSim 模拟器中,针对一个工业检验场景使用 ChatGPT。该模型能够有效解析用户的高级意图和几何线索,从而准确控制无人机。

3. **与用户的反馈回路**
接着,研究人员利用 ChatGPT 操作机械臂,并通过对话反馈教会模型如何组合 API 形成更复杂的高级函数实现。这使得 ChatGPT 实现自动编程,能够将所学技能逻辑性地链接在一起,以执行诸如堆叠木块等操作。

4. **感知-行动回路**
在执行某些动作之前,机器人必须具备环境感知能力。研究者验证了 ChatGPT 对这一概念的理解,要求它探索一个环境,最终找到用户指定的对象。通过提供对象检测和距离 API 等功能,验证 ChatGPT 生成的代码成功实现了感知-行动循环。

5. **PromptCraft: 机器人研究的开源平台**
优良的提示工程对于大型语言模型的成功至关重要,但这一领域缺乏全面可用的资源。为此,研究者推出了“PromptCraft”,这是一个协作开源平台,任何人都能分享不同机器人类别的提示策略示例。此外,他们还公布了在研究中使用的所有提示和对话。

### 让机器人走出实验室,服务社会

这些技术的发布意义重大,因为它们将扩大机器人技术的受众群体。微软的研究人员相信,基于语言的机器人控制将为机器人的普及奠定基础,使其从科学实验室走入人们的日常生活。

需要强调的是,在未经过仔细分析的情况下,ChatGPT 的输出不应该直接用于机器人的部署。研究者鼓励用户利用模拟的力量,在真实世界应用之前评估这些算法,并始终采取必要的安全措施。本文所探讨的工作仅展示了大型语言模型在机器人领域的一小部分潜力,希望能够为未来的研究提供启发。

原文链接:[ChatGPT 在机器人中的应用研究](https://www.microsoft.com/en-us/research/group/autonomous-systems-group-robotics/articles/chatgpt-for-robotics/)

### 见解

这篇文章展示了 ChatGPT 在机器人领域的应用潜力,强调了自然语言与技术之间的桥梁。随着如此先进的 AI 模型的进步,未来人机交互的模式可能会发生深刻变化,使得更多非技术用户能够轻松参与到机器人控制中。这不仅将降低编程技能的门槛,更可能引发机器人技术在日常生活中的更广泛应用,推动智能助手、家庭服务机器人等的逐渐普及。然而,面对这一变革,确保安全性及算法的可靠性依然是关键,需要持续的研究与监测。

标签



热门标签