OpenAI推出新模型GPT-4o:可实时交互,检测人的情绪,支持多模态输出

更新时间:2024-05-14 17:58:10作者:无忧百科

OpenAI推出新模型GPT-4o:可实时交互,检测人的情绪,支持多模态输出

三言科技 5月14日消息,今日凌晨,OpenAI宣布推出GPT-4o。该模型是GPT-4型号的更新版本,将向免费客户开放。

据介绍,GPT-4o(“o”代表“omni”)。它可以实现文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出的任意组合。

它可以在232毫秒内响应音频输入,平均为320毫秒,这与对话中人类的响应时间相似。它在英语文本和代码上,与GPT-4 Turbo性能相匹配,在非英语语言的文本上也有显着改进,同时在API中也更快且便宜50%。与现有模型相比,GPT-4o在视觉和音频理解方面尤其出色。

在GPT-4o之前,使用语音模式与ChatGPT交谈,平均延迟为2.8秒 (GPT-3.5) 和5.4 秒 (GPT-4)。为了实现这一点,语音模式是一个由三个独立模型组成的管道:一个简单的模型将音频转录为文本,GPT-3.5或GPT-4接收文本并输出文本,第三个简单模型将该文本转换回音频。这个过程意味着GPT-4会丢失大量信息——它无法直接观察音调、多个扬声器或背景噪音,也无法输出笑声、歌声或表达情感。

借助GPT-4o,OpenAI在文本、视觉和音频上端到端地训练了一个新模型,这意味着所有输入和输出都由同一个神经网络处理。

按照传统基准测试,GPT-4o在文本、推理和编码智能方面实现了GPT-4 Turbo级别的性能,同时在多语言、音频和视觉能力方面创下了新的高水位线。

基于GPT-4o的能力,新的ChatGPT不仅可以实现实时交互,还能检测人的情绪,支持多模态输出。

在现场,OpenAI的工程师展示新模型的能力时说:“我第一次来直播的发布会,有点紧张。”


ChatGPT说:“要不你深呼吸一下。”

OpenAI工程师深呼吸后,ChatGPT立即说:“你这不行,喘得也太大了。”

视觉能力上,ChatGPT不需要上传图片,而是直接打开摄像头,实时看发生了什么。


OpenAI的人直接开始现场写方程,所有的一切ChatGPT都看在眼里,OpenAI的人一边写,ChatGPT一遍给答案。



甚至,用户可以直接跟ChatGPT视频对话,ChatGPT可以看到用户所有的表情和情绪变化。

GPT-4o的文本和图像功能今天开始在ChatGPT中推出。GPT-4o在免费套餐中提供,并向Plus用户提供高达5倍的消息限制。在未来几周内,ChatGPT Plus将推出带有GPT-4o的新版本语音模式。

本文标签: gpt-4  openai  视频生成模型  

为您推荐

OpenAI推出新模型GPT-4o:可实时交互,检测人的情绪,支持多模态输出

OpenAI推出新模型GPT-4o:可实时交互,检测人的情绪,支持多模态输出,gpt-4,openai,视频生成模型

2024-05-14 17:58

OpenAI深夜炸场!最强模型GPT-4o完全免费,实时语音视频交互震撼世界|钛媒体AGI

OpenAI深夜炸场!最强模型GPT-4o完全免费,实时语音视频交互震撼世界|钛媒体AGI,谷歌,钛媒体,周鸿祎,李开复,人工智能,插件功能,gpt-4,openai

2024-05-14 17:58

更快更薄!新款iPad Pro能否帮助苹果(AAPL.US)逆转颓势?

更快更薄!新款iPad Pro能否帮助苹果(AAPL.US)逆转颓势?,平板电脑,oled,苹果公司,财务会计,财务报表,屏幕尺寸,iphone,ipad pro

2024-05-14 17:58

旗下第一款“相机”,vivo X100 Ultra 手机亮相

旗下第一款“相机”,vivo X100 Ultra 手机亮相,手机,相机,蔡司,新标杆,vivo,x100,ultra

2024-05-14 17:57

OpenAI 发布 GPT-4o;苹果将在中法德日销售 Vision Pro;特斯拉重招 4 月被解雇的超充员工|极客早知道

OpenAI 发布 GPT-4o;苹果将在中法德日销售 Vision Pro;特斯拉重招 4 月被解雇的超充员工|极客早知道,谷歌,微软,电动车,苹果公司,财务会计,财务报表,科技巨头,gpt-4,openai,埃隆_马斯克,特斯拉(公司)

2024-05-14 17:57

“全世界最美球场”的主人,时隔21年重回意甲!

“全世界最美球场”的主人,时隔21年重回意甲!,意乙,意甲,亨利,摩纳哥,英格兰,科莫

2024-05-14 17:54