让马斯克嫉妒的男人，OpenAI“第一投资人”：AI硬件是“伪命题”

更新时间：2024-03-12 16:51:33作者：无忧百科

文｜适道

最近，马斯克怒写46页诉状，将OpenAI及 Sam Altman 告上法庭，并要求OpenAI恢复开源状态。对此，OpenAI"第一投资人"，被称为全球科技"投资之王"的Vinod Khosla表示，马斯克是典型吃不到葡萄就说葡萄酸。

虽然Vinod Khosla有句名言："一个方案有90%的机率失败不是问题，只要还有10%的机会获得100倍的收益"。

然而，他本人的投资眼光却可谓毒辣。1990年代，Khosla投资了瞻博网络，并建议其开发一种"互联网路由器，而不是当时更常见的普通路由器"。据《华尔街日报》报道，Kleiner Perkins对瞻博网络的300万美元投资为他带来了70亿美元的收益。

2019年，当OpenAI从一家非营利研究组织转变为"有盈利上限"公司，Khosla大胆地迈出了第一步，其创立的投资机构Khosla Ventures在种子轮向OpenAI投出高达5000万美元。该金额是Khosla Ventures成立十五年来任何一笔投资规模的两倍。

至少从10年前开始，Khosla就坚信，AI将彻底改变世界。他认为：未来20年，AI有可能在80%的人类角色中承担80%的工作量，并创造巨大的经济价值。

上周，Khosla分享了自己对AI 交互与革命的最新洞察《How AI Will Change Our Relationship With Computers》（The Information）。这位科技"投资之王"表示："AI硬件" （AI hardware）和"小工具"（gadgets）等术语更像是一种"误用"。不妨抛开"设备"的局限，讨论在人机交互变革的大背景下，将会发生哪些根本性变化？适道在不影响原意的情况下，对文章进行了简译和补充改写。

01 语音主导界面，软件将学习人类

第一个根本性变化——低延迟语音将成为人机交互的主导界面。

想象一下，比起用手指戳半天屏幕，延迟在半秒内的语音显然更加便利。与此同时，"无声语音"技术也在迎面走来。当你在公共场合中，无需发出声音就能和设备进行互动，不干扰他人，也能保护隐私。

第二个根本性变化——软件将适应人类，而不是人类学习软件。

到目前为止，我们总是在自适应软件——学习APP的复杂设计，记住层次化的菜单，并以此与机器交互。未来，我们不再需要像学习使用 Uber 或SAP、Oracle 这样的复杂系统一样，去学习如何使用这些APP。

综上，新一代硬件将结合二者特征——实现语音互动、能够学习人类语言和人类本身。虽然处理某些视觉任务可能仍然需要屏幕，但核心交互将转向语音——无论是无声的还是有声的。

Khosla指出：前苹果首席设计官Jony Ive和Sam Altman讨论过一个AI硬件项目，甚至在ChatGPT出现之前，大家就预言会出现这种界面。虽然早期热度很快消退了，但他们的方向是正确的。问题出在，他们没有充分关注AI所带来的全新用户体验。

02 延迟不低的Rabbit何以得到Khosla青睐？

前段时间，初创公司Rabbit在CES 2024上发布了其手持式AI硬件产品——R1，售价199美元，上线5日就卖了5万台，近1000万美元。

和此前出圈的Ai Pin类似，Rabbit R1也采用紧凑小巧的设计，并标配了麦克风、摄像头，不需要连接手机，没有内置 App。不同的是，Ai Pin没有屏幕，选择"投影"显示，看起来更酷炫；Rabbit R1则是搭载了一块 2.88 英寸的触摸屏，更为稳妥。

Rabbit R1的定位为AI Agent，用户在不需要手机的情况下能够完成很多任务：叫车、放歌、订餐、订酒店，甚至在Midjourney 上生成图片。CEO吕骋（Jesse Lyu）在实测操作中，只需说一句"Play Feel Good Inc"，这首歌就能直接播放；对着屏幕中Discord论坛，问一句"大家都讨论什么"，Rabbit R1就可以对"看"到的内容进行总结。

Khosla本人正是Rabbit的早期投资人，投资金额高达千万美元。在文章中，Khosla给出了投资Rabbit的理由："Rabbit是人机交互在强大AI世界中的早期尝试——设备通过自然语言，用语音与计算机（或称为"代理"）进行交流。"

Khosla举了个自己的例子，当他徒步时，会使用"Picture This"APP识别自己遇到的植物，但这个过程很麻烦：停下来，暂停有声读物，打开应用，拍照，等待答案加载，关闭应用，将手机放回口袋。有了新设备，Khosla只需将设备指向植物并问："这是什么植物？"就会得到答案，然后继续听正在播放的有声读物。

不过，Khosla可能要"等上一阵"。外媒爆料，有拿到真机的网友发现，Rabbit R1会在收到问题后说一句"让我看看"，接着就是20秒的无事发生，这延迟显然不符合Khosla定义的"半秒内"。

但根据CEO吕骋在访谈中的回应：Rabbit OS并非像ChatGPT一样的大语言模型LLM，而是基于大动作模型（Large Action Model）开发。LAM能够使AI学会人类操作各种APP的方式，并通过与LLM结合，从而实现"用户发指令——AI执行"的效果。因此，Rabbit OS更像一个通用的APP控制器。

如果用户仅使用LAM涉及的功能。例如，播放一首歌；询问"橙子和橘子的区别"等任何不需要搜索最新信息的任务，Rabbit响应速度会非常快，几乎在0.5秒以内。但如果涉及使用OpenAI，例如搜索最新信息，速度就会变慢，一般在7——8秒，涉及视觉则会更慢。不过，吕骋表示，这已经是目前行业内最快的速度。

Khosla本人似乎对Rabbit的目前的"延迟"不太在意，他更在意的是"让AI代替人与APP交互"，并对Rabbit OS 基于LAM"跨APP工作"能力大为赞赏：这代表传统范式将完全颠覆，意味着最终我们不必与软件交互，因为AI 将替我们这样做。

但新的问题来了，Rabbit为何不以一种"APP"的形式出现在手机中？就像智商更高的Siri？

吕骋从创业者的角度给出了答案：首先，虽然Rabbit可以成为一款APP，但如果Rabbit只是个APP，就意味着苹果公司能接触到代码，无异于分享了公司的知识产权。其次，团队不得不同时为iOS和Android开发维护这款APP，这还需要大量的持续资金投入。最重要的是，当Rabbit会被放在和其他APP一样的平台上，会给自己带来了不安：如果明天出现了一个更好的应用怎么办？用户忠诚度几乎为零。

那么，如果Siri自己变成高智商呢，还需要Rabbit R1吗？吕骋表示：问题不在于技术，而在于商业模式，因为iPhone不可能一夜之间没有AppStore。而Rabbit R1可没有内置 App。

对于Rabbit R1的定位，吕骋给出了一个靠谱的描述：AI时代的iPod。

试想，在非智能手机时代，你会一个裤兜装手机，另一个裤兜装iPod。未来，或许会一个裤兜装iPhone，另一个裤兜装AI Agent。

但正如吕骋恐惧"下一个更好的应用"，如果下一款更快的AI Agent出现呢？毕竟，199美元的售价像是买了个付费的"AI app"。用户或许也可以花不高的价格买到下一款更好用的"AI app"，如此一来，建立在Rabbit R1上的拓展业务也将不再存在——"人们教Rabbit来做他们自己的事情，本质上是在创造Rabbit，而不是使用APP，当用户销售他们自己的Rabbit时，Rabbit OS将会从中抽成。"

03 AI Agent会是下一个iPhone吗？

结合文章，适道发现一个新角度——AI时代的社交媒体将走向何方。

吕骋表示：还有很多事情我宁愿去手机上查看，至少目前是这样。首先是重要的社交功能；另一部分是专业的群聊。

Khosla则指出：手机现在的设计是为了分散我们的注意力。如果我在徒步旅行时拿出手机，我会看到我的电子邮件、短信和其他通知；我会被拉到某个社交平台上，看到广告，甚至可能陷入一个兔子洞，无意冒犯。

而这些新设计，比如Rabbit旨在节省时间和减少干扰。你告诉它要做什么，它就只做那些，没有多余的。

Gartner最新预测，到2025年，50%消费者将"放弃或大幅限制与社交媒体的互动"。在 Gartner去年夏天的一项调查中，53%的消费者表示，社交媒体在前一年或过去五年中变得更糟。

有趣的是，根据传播学中的"媒介即讯息"，随着AI时代的到来，新一代AI Agent是否会摧毁iPhone所创造的社交媒体时代？"一个与真人分享的社交空间"是否将会终结？如果能，那么，人类当前由"社交媒体"承载的"娱乐时间"又将投向何方？这其中又将蕴含哪些新"钱景"？

本文标签：吕骋初创公司 Apple 埃隆_马斯克 openai 人工智能模型

上一篇：让马斯克嫉妒的男人，OpenAI“第一投资人”：AI硬件是“伪命题”

下一篇：规范末端配送并非“一刀切”