【AI论文】Cosmos World基础模型平台用于物理人工智能”
英伟达公司在CES发布新品的同时也发了了相应的Cosmos World基础模型平台的论文。Cosmos World基础模型平台是英伟达推出的生成式世界基础模型平台,旨在解决物理人工智能(Physical AI)训练数据获取难的问题,推动其发展。该平台集成了生成式世界基础模型、高级标记器和加速视频处理管道,能够帮助开发者生成大量基于物理的合成数据,减少对真实世界数据的依赖这篇论文介绍了 NVIDIA
·
英伟达公司在CES发布新品的同时也发了了相应的Cosmos World基础模型平台的论文。Cosmos World基础模型平台是英伟达推出的生成式世界基础模型平台,旨在解决物理人工智能(Physical AI)训练数据获取难的问题,推动其发展。该平台集成了生成式世界基础模型、高级标记器和加速视频处理管道,能够帮助开发者生成大量基于物理的合成数据,减少对真实世界数据的依赖这篇论文介绍了 NVIDIA 开发的名为 Cosmos 的世界基础模型平台,旨在帮助开发者构建用于物理 AI 系统的定制化世界模型。
主要内容包括:
- 物理 AI 简介: 解释了物理 AI 的概念,即配备传感器和执行器的 AI 系统,能够感知世界并进行交互。
- 世界基础模型 (WFM): 介绍了 WFM 的概念,即物理世界的数字孪生,能够帮助物理 AI 安全地与物理世界互动,解决数据扩展问题。
- Cosmos 平台架构: 详细介绍了 Cosmos 平台的组成部分,包括:
- 视频数据整理: 使用大规模视频数据集,通过分割( 将长视频分割成没有场景变化的片段,并处理镜头转换)、过滤(移除低质量、冗余或与物理 AI 无关的视频片段,并调整数据分布)、注释(使用视觉语言模型 (VLM) 为每个片段生成描述性文本,提供监督信息)、去重(移除重复或近重复的视频片段,创建更平衡和多样化的数据集)和分片(将处理过的视频片段打包成 webdatasets,方便模型训练)等步骤,生成高质量的视频数据集。
- 视频分词器: 开发了能够高效压缩视频数据并保留视觉信息的分词器,包括连续分词器(将视频编码成连续的潜在嵌入,适用于扩散模型)和离散分词器(将视频编码成离散的潜在代码,适用于自回归模型)、高压缩率(在保持高质量重建的同时,提供多种压缩率,适应不同的计算需求)、因果设计(确保当前帧的分词计算不依赖于未来帧,与物理 AI 系统的因果世界一致)。
- 预训练 WFM: 探索了两种可扩展的预训练方法:基于扩散模型的 WFM (使用 Transformer 架构,通过逐步去除噪声生成视频)和基于自回归模型的 WFM(使用 Transformer 架构,逐个预测视频中的下一个 token),并使用 Transformer 架构进行训练。
- WFM 后训练: 展示了如何使用特定领域的数据集对预训练的 WFM 进行微调,以实现不同的物理 AI 任务,例如相机控制(将相机姿态作为输入提示,生成可导航的虚拟世界)、机器人操作(使用文本指令或动作向量作为输入,预测机器人操作的结果)和自动驾驶(支持多视角视频生成,并可以接受轨迹作为输入,用于训练自动驾驶代理)。
- 安全机制: 开发了预 Guard (使用 Aegis 和关键词列表阻止有害提示)和后 Guard (使用视频内容安全分类器和面部模糊滤镜阻止有害输出)系统,用于防止有害输入和输出,确保 WFM 的安全使用。
- 未来展望: 讨论了 WFM 在物理 AI 开发中的潜在应用,例如策略评估、策略初始化、策略训练、规划/模型预测控制以及合成数据生成。
- 相关工作: 回顾了世界模型、视频生成模型、视频生成与相机控制、机器人控制生成模型和自动驾驶生成模型等相关领域的研究进展。
- 结论和讨论: 总结了 Cosmos 平台的成果和局限性,并讨论了未来研究方向,例如自动评估器的开发、混合模型架构的探索以及评估方法的改进。
更多推荐


所有评论(0)