首页 >> 平板

教授人工智能以连接视觉和触觉等感官射线

发布时间：2022-07-20 05:57:11 来源：亦能机械网

教授人工智能以连接视觉和触觉等感官

在加拿大作家玛格丽特·阿特伍德（Margaret Atwood）的书《盲刺客》中，她说：“触摸先于视线，先于语音。这是第一语言，也是最后一种语言，它总是说出真相。”

虽然我们的触觉为我们提供了一个感受物理世界的渠道，但我们的眼睛却帮助我们立即了解了这些触觉信号的全貌中国机械网okmao.com。

被编程为可以看到或感觉到的机器人不能完全互换地使用这些信号。为了更好地弥合这种感官鸿沟，麻省理工学院计算机科学与人工智能实验室（CSAIL）的研究人员提出了一种预测性人工智能（AI），该技术可以通过触摸学习并通过视觉学习。

团队的系统可以从视觉输入创建逼真的触觉信号，并从这些触觉输入中直接预测要触摸的对象和部分。

他们使用了KUKA机器人手臂，该手臂带有特殊的触觉传感器，称为GelSight，由MIT的另一个小组设计。

该团队使用一个简单的网络摄像机记录了近200个物体，例如工具，家用产品，织物等，被触摸了12,000次以上。打破这12,000个视频剪辑该小组分解为静态帧，然后编译了“ VisGel”，该数据集包含300万个视觉/触觉配对的图像。

“通过观察场景，我们的模型可以想象触摸平坦表面或尖锐边缘的感觉，” CSAIL博士李云竹说。学生和有关该系统的新论文的主要作者。“

通过盲目四处摸索，我们的模型可以纯粹从触觉上预测与环境的相互作用。将这两种感觉结合在一起可以增强机器人的能力，并减少我们处理和抓取物体所需的数据。”

最近为机器人配备了更多类似于人类的物理感觉的工作，例如麻省理工学院在2016年的项目中，使用深度学习直观地指示声音，或者预测对象对物理力的反应的模型，都使用了无法用于理解相互作用的大型数据集在视觉和触觉之间。

团队的技术通过使用VisGel数据集和称为生成对抗网络（GAN）的方法来解决此问题。

李云竹是麻省理工学院计算机科学与人工智能实验室（CSAIL）的博士学位学生。

GAN使用视觉或触觉图像来生成其他形式的图像。它们通过使用相互竞争的“生成器”和“鉴别器”来工作，其中生成器旨在创建真实外观的图像来欺骗鉴别器。每次鉴别器“抓住”生成器时，它都必须公开决策的内部推理，这使生成器可以反复改进自身。

视觉触动

人类可以通过看到物体来推断物体的感觉。为了更好地赋予机器此功能，系统必须首先确定触摸的位置，然后推断有关该区域的形状和感觉的信息。

参考图像（无需任何机器人与对象的交互）有助于系统对有关对象和环境的详细信息进行编码。然后，当机器人手臂进行操作时，模型可以简单地将当前帧与其参考图像进行比较，并轻松识别触摸的位置和比例。

这看起来像是向系统提供计算机鼠标的图像，然后“看到”模型预测应该触摸物体以进行拾取的区域，这可以极大地帮助机器计划更安全，更有效的动作。

触及视觉

对于视觉触摸，目标是使模型基于触觉数据生成视觉图像。该模型分析触觉图像，然后找出接触位置的形状和材料。然后，它回头看参考图像以“半透明”交互。

例如，如果在测试过程中向模型提供了鞋子上的触觉数据，则可以生成该鞋子最可能被触摸到的位置的图像。

在没有可视数据的情况下（例如，当灯熄灭时，或者有人盲目地进入盒子或未知区域时），这种类型的功能可能有助于完成任务。

展望未来

当前数据集仅包含在受控环境中进行交互的示例。该团队希望通过在更多非结构化区域收集数据或使用麻省理工学院设计的新型触觉手套来改善这一点，以更好地增加数据集的大小和多样性。

从切换模式中推断出仍有一些细节可能很棘手，例如仅通过触摸物体即可知道物体的颜色，或者无需实际按压即可知道沙发的柔软程度。

研究人员说，可以通过为不确定性创建更强大的模型来扩大可能结果的分布，从而改善这一状况。

将来，这种类型的模型可以帮助视觉和机器人之间建立更和谐的关系，尤其是在识别对象，抓取，更好地理解场景以及在辅助或制造环境中实现无缝人机集成方面。

加州大学伯克利分校的博士后安德鲁·欧文斯（Andrew Owens）说：“这是第一种能够令人信服地在视觉和触摸信号之间转换的方法。”

“这样的方法对于机器人技术很有用，您需要回答诸如'这个物体是硬还是软？”或'如果我用它的手柄提起这个杯子，抓地力有多??好？这是一个非常具有挑战性的问题，因为信号是如此不同，并且该模型已经展示出了强大的功能。”