微软、英伟达和OpenAI，因何共同下注这家机器人公司？

更新时间：2024-03-15 16:12:40作者：无忧百科

本文系基于公开资料撰写，仅作为信息交流之用，不构成任何投资建议。

昨天早上有人发了figure01视频给我看，说这是openai的机器人。这不全对。不是openai的机器人，但有紧密关系。figure这家公司在美国可不要太火，其知名度在圈里不亚于openai。

在几周前，有一个消息，大家都没重视：

就是这家公司的融资：Microsoft、OpenAI Startup Fund、NVIDIA、Jeff Bezos（通过 Bezos Expeditions，亚马逊老大）、Parkway Venture Capital、Intel Capital。

合计融6.75亿美金，估值2.6b美金。当时看到这个融资组合，我是震撼的，结果还没来得及去了解这家公司，只知道它太出名了。结果不到一个月它就推出了figure 01。

Figure 的开发进展堪称非凡。这家公司很新，但聚集了来自波士顿动力公司、特斯拉谷歌 DeepMind 和 Archer Aviation 的一批关键人物，“创造了世界上第一个商业上可行的通用人形机器人”。

到去年10 月份，Figure 01 已经能够独立运行并执行基本的自主任务。到了年底，这款机器人已经具备了观看和学习的能力，并准备在一月中旬进入宝马的员工队伍。

上个月，就在Figure宣布成功进行B轮融资以及与OpenAI达成合作协议“为人形机器人开发下一代人工智能模型”。

Figure 01 的集成摄像头将数据发送到由 OpenAI 训练的大型视觉语言模型，而Figure自己的神经网络也“通过机器人上的摄像头以 10 Hz 的频率拍摄图像”。OpenAI 还负责理解口语单词的能力，所有这些涌入的信息都被Figure 的神经网络转化为“快速、低级、灵巧的机器人动作”。

视频是以实际速度拍摄的。figure+openai，这对合作两周的伙伴，达到如此效果，是惊人的。

实施路径：

1）机器人摄像头中的图像输入，并将机载麦克风捕获的语音中的文本转录到由 OpenAI 训练的大型多模态模型中，该模型可以理解图像和文本。

2）该模型处理对话的整个历史记录，包括过去的图像，以得出语言响应，然后通过文本到语音的方式将其回复给人类。

3）同一模型负责决定在机器人上运行哪些学习的闭环行为来完成给定的命令，将特定的神经网络权重加载到 GPU 上并执行策略。

4）Microsoft Azure 进行人工智能基础设施、培训和存储，远程升级大脑。

从中我们可以看到，训练好的多模态模型搭载移动GPU 部署在机器人实体上。这一设想路径被落地了，效果还不错。

知道黄仁勋为啥把具身智能单独成立一个部门吧？长期跟踪这哥们的人都应该知道，他会早于产业成熟前4-5年大量投入人力物力，自动驾驶也是这样。目前他在nvidia cloud 上看到了很多初创机器人公司的突飞猛进。

期待他gtc大会的机器人相关模型开发平台发布吧。英伟达认为目前的移动gpu实力已经比较强悍，再迭代到第五代，边际贡献增量估计不够，最重要的是多模态大模型的进展，以及开发工具的普及。

强烈建议大家去搜索这篇报告《人工智能行业专题：大模型带来机器人变革》

里面对于大模型移动GPU 如何改变现在传统无脑机器人的现状做了很多假设。包括RT-2，包括VLM。（作者：小熊跑的快）

往期推荐

本文标签：微软英伟达黄仁勋科学家人工智能财务会计机器人公司超级计算机 openai

上一篇：微软、英伟达和OpenAI，因何共同下注这家机器人公司？

下一篇：华润置地今年1-2月收购了6幅地块权益对价约为143.3亿元