一个视觉语言框架使机器人能够抓取开放词汇对象

发布时间：2024-08-02 11:22:57来源：

为了能够在广泛的现实世界动态环境中部署，机器人应该能够成功完成各种手动任务，从家务到复杂的制造或农业过程。这些手动任务需要抓取、纵和放置不同类型的物体，这些物体的形状、重量、属性和纹理可能各不相同。

然而，目前大多数实现机器人抓取和纵物体的方法仅允许机器人成功与与训练期间遇到的物体匹配或非常相似的物体进行交互。这意味着当它们遇到一种新类型的物体(即以前从未见过的物体)时，许多机器人无法抓住它。

北京航空航天大学和利物浦大学的一组研究人员最近着手开发一种新方法，以克服机器人抓取系统的这一关键限制。他们的论文发布在arXiv预印本服务器上，介绍了 OVGNet，这是一个统一的视觉语言框架，可以实现开放词汇学习，从而使机器人能够抓取已知和新类别的物体。

“识别和抓取新类别的物体仍然是现实世界机器人应用中一个关键而又具有挑战性的问题，”李猛、赵奇和他们的同事在论文中写道。“尽管它意义重大，但在这一特定领域的研究却很有限。

“为了解决这个问题，我们无缝地提出了一个新颖的框架，将开放词汇学习整合到机器人抓取领域，使机器人能够熟练地处理新物体。”

研究人员的框架依赖于他们编制的一个名为 OVGrasping 的新基准数据集。该数据集包含 63,385 个抓取场景示例，其中的物体属于 117 个不同的类别，分为基础(即已知)和新(即未见过)类别。

“首先，我们提出了一个大型基准数据集，专门用于评估开放词汇抓取任务的性能，”李、赵和他们的同事写道。“其次，我们提出了一个统一的视觉语言框架，作为机器人成功抓取基本物体和新物体的指南。第三，我们引入了两个对齐模块，旨在增强机器人抓取过程中的视觉语言感知。”

标签：

（责编： BAZHONG）

一个视觉语言框架 使机器人能够抓取开放词汇对象