何恺明新作出炉！异构预训练Transformer颠覆本体视觉学习范式AI性能暴涨超20%

您当前所在的位置：三亿体育 > 新闻中心 > 公司新闻

新闻中心

News
分类>>

何恺明新作出炉！异构预训练Transformer颠覆本体视觉学习范式AI性能暴涨超20%

2024-10-08 22:51:30

浏览次数：次

返回列表

　　何恺明新作出炉！异构预训练Transformer颠覆本体视觉学习范式AI性能暴涨超20%通用机器人模型，如何解决异构性难题？来自MIT、Meta FAIR团队全新提出异构预训练Transformer（HPT），不用从头训练，即可破解。

　　也就是说，必须收集全方位——每个机器人、任务和环境的特定数据，而且学习后的策略还不能泛化到这些特定设置之外。

　　研究人员将不同本体视觉输入对齐到统一的token序列，再处理这些token以控制不同任务的机器人。

　　最后发现，HPT优于多个基准模型，并在模拟器基准和真实世界环境中，将未见任务微调策略性能，提升20%。

　　不同硬件的机器人在物理上具有不同的本体（embodiment），每种实例可以有不同的「本体感觉」（proprioception），包括不同的自由度、末端执行器、运动和为特定应用构建的工作空间配置。

　　不同机器人搭载了不同的视觉传感器，而且通常配备在不同位置（比如手腕/第三视角）；每个机器人的外观也会因环境和任务而有很大差异。

　　正是由于这些难以跨越的异构性障碍，因此通常需要收集每个机器人、任务和环境的特定数据，并且学习到的策略不能泛化到这些特定设置之外。

　　从图4中就可以看出，仅仅是按环境分类，机器人领域的数据就能被「瓜分」为远程遥控、模拟、野外、人类视频等接近4等份。

　　近些年来NLP和CV领域的突飞猛进，让我们看到了彻底改变机器学习领域的一个历史教训：对大规模、高质量和多样化数据进行预训练，可以带来通常优于特定模型的通用模型。

　　除了更多数据带来的好处之外，不同任务的训练还可以增强表示（representation）的通用性。

　　如图1所示，一个基本的思路是，将来自不同领域和任务的输入信号映射到高维表示空间，并让它们表现出一致的缩放行为。

　　HPT所要做的，就是找到一种共享的策略「语言」，能够对齐来自不同预训练的异质的本体感觉和视觉信息，将自己的信号映射到共享的潜在空间。

　　受到多模态数据学习的启发，HPT使用了特定于本体的分词器（stem）来对齐各种传感器输入，映射为固定数量的token，之后送入Transformer结构的共享主干（trunk），将token映射为共享表示并进行预训练。

　　在对每种本体的输入进行标记化（tokenize）之后，HPT就运行在一个包含潜在token短序列的共享空间上运行。

　　论文提到，这种层次结构的动机，也是来源于人类身体的脊髓神经回路层面中，特定运动反应和感知刺激之间的反馈循环。

　　预训练完成后，使用特定于任务的动作（head）来产生下游动作输出，但所用的实例和任务在预训练期间都是未知的。

　　从上面的描述来看，要解决异构性问题，最直接和最关键的就是如何训练stem，将来自异构的本体和模态的传感器输入对齐到共享表示空间中。

　　如图3所示，stem包含两个主要部分，即本体感受分词器和视觉分词器，将来自不同本体的异构输入映射为固定维度、固定数量的token，让trunk能够以相同的方式处理。

　　其中的关键思想，是利用cross-attention机制，让固定数量的可学习token关注到各种特征。

　　虽然这篇论文主要处理本体感觉和视觉，但处理触觉、3D和动作输入等其他类型的异构传感器信号也可以在stem中灵活扩展。

　　按照时间顺序单独处理每个模态后，将所有token拼接在一起并添加额外的模态嵌入和正弦位置嵌入，就得到了trunk的输入序列。

　　作为预训练的核心组件，trunk是一个有潜在d维空间的Transormer结构，参数量固定，在不同的本体和任务之间共享，以捕获复杂的输入-输出关系。

　　在预训练阶段三亿体育官方app下载，每次迭代时仅更新trunk部分参数，并且基于训练批次采样更新特定于每个异构本体和任务的stem和head部分。

　　论文进行了一系列预训练实验，包括不同规模的网络参数和数据集大小，旨在回答一个问题：HPT预训练在跨域异构数据中是否展现出了扩展能力？

　　总体而言，某种程度上，HPT随着数据集数量、数据多样性、模型体量和训练计算量呈现出缩放行为。

　　此外，作者还发现，计算量（相当于每次训练运行看到的样本量）和数据量需要共同扩展，才能在训练过程中更接近收敛。

　　如图6所示，增加批大小（左）相当于有效地扩展训练token数（右），通常可以提高模型性能，直至最后收敛。

　　另一个观察结果是，使用分布式方法，在每个训练批中聚合尽可能更多的数据集，用更大的批大小来弥补异构训练中的较大方差。

　　如图7所示，固定数据集和轨迹数量，沿着模型大小（从1M到1B）进行缩放，并逐渐将批大小从256增加到 2048（模型大小每增加一倍），并使用具有170k轨迹的更大数据集。

　　可以观察到，当我们扩展到具有更大计算量（红线）的更大模型时，预训练可以实现较低的验证损失，直到达到稳定水平，但没有发现缩放模型深度和模型宽度之间存在显著差异。

　　图8中的实验结果表明，HPT可以相当有效地处理异构数据。尽管与真实机器人存在很大的差距，但对其他本体的数据集（例如模拟环境和人类视频数据集）进行预训练是可能的。

　　如下图10（a）中，研究人员在闭环模拟中测试了下游任务的模型，并观察到使用HPT-B到HPTXL预训练模型，提到的任务成功率。

　　在图10（b）中，他们在最近发布的Simpler基准上运行HPT，它允许在高保真模拟上与Octo、RT1-X、RT2-X进行比较。

　　这里，作者采用了与前一节类似的迁移学习方法，并在真实世界的评估协议下，评估预训练的HPT表示。

　　图12显示的定量结果，研究人员观察到，预训练策略相比No-Trunk和From-Scratch基准获得了更好的成功率。

　　特别是在倒水的任务中，From-Scratch基准使用了最先进的扩散策略架构，以展示预训练表示的灵活性。

　　图11定性结果显示，作者观察到预训练的HPT在面对不同姿势、物体数量、相机配置、光照条件时，表现出更好的泛化能力和鲁棒性。

　　他希望这一观点能够启发未来的工作，以处理机器人数据的异构性本质，从而为机器人基础模型铺平道路。

　　他的研究兴趣在于机器学习和机器人学。尤其是，他对开发能够在复杂和非结构化的真实世界环境中，泛化的算法和系统感兴趣。

　　为了实现这一点，他一直致力于研究能够随着异类数据进行扩展的「舰队学习」（fleet learning）。

　　Xinlei Chen是旧金山Meta Fair实验室的研究科学家。目前的研究兴趣是预训练，特别是自监督、多模态视觉表征的预训练。

　　他曾在CMU语言技术研究所获得博士学位，就读期间也在机器人研究所工作。此前，他获得了浙大的学士学位。

　　他提出的最为著名的研究是深度残差网络（ResNets），并被广泛应用到现代深度学习模型当中，比如Transformer（GPT、ChatGPT）、AlphaGo Zero、AlphaFold、扩散模型等。

上一篇：帕金森病患者最容易忽视的“维生素C”却没想到有这么多益处！

下一篇：锻炼身体的十个好处作文锻炼身体的十个好处作文范文

x 快速导航
首页
关于三亿体育

+

公司简介
新闻中心

+

公司新闻行业新闻
特色课程

+

三亿体育瑜伽教程三亿体育有氧运动三亿体育减肥瘦身三亿体育体育训练
留言板
健身知识

+

健身常识
联系三亿体育

href=""

: 电话

: 客服

: 地图

: 搜索

首页

关于三亿体育

新闻中心

特色课程

留言板

健身知识

联系三亿体育

新闻中心 News 分类>>

何恺明新作出炉！异构预训练Transformer颠覆本体视觉学习范式AI性能暴涨超20%

新闻中心

News
分类>>