GPT-4o正式发布：视频语音推理交互丝滑到吓人，将向所有用户开放

报道地址：https://mp.weixin.qq.com/s/Xur3IUYf7PPOx1SCTuVPFg

发布会视频：https://www.youtube.com/watch?v=DQacCB9tDaw

GTP-4o 官网：https://openai.com/index/hello-gpt-4o/

2024 年 4 月 14 日，一场不到 30 分钟的发布会，将又一次大大改变 AI 行业和我们未来的生活，也会让无数 AI 初创公司焦头烂额。

这真不是标题党，因为这是 OpenAI 的发布会。

OpenAI 正式发布了 GPT-4o，其中的「o」代表「omni」（即全面、全能的意思），这个模型同时具备文本、图片、视频和语音方面的能力，甚至就是 GPT-5 的一个初期版本。

更重要的是，这个 GPT-4 级别的模型，将向所有用户开放，并且未来几周内先向 ChatGPT Plus 推送。我们先给大家一次性总结这场发布会的亮点，更多功能解析请看发布会视频。

发布会要点： 1.新的 GPT-4o 模型：打通任何文本、音频和图像的输入，相互之间可以直接生成，无需中间转换 2.GPT-4o 语音延迟大幅降低，能在 232 毫秒内回应音频输入，平均为 320 毫秒，这与对话中人类的响应时间相似 3.GPT-4o 向所有用户免费开放（指日可待） 4.GPT-4o API，比 GPT 4-Turbo 快 2 倍，价格便宜 50% 5.惊艳的实时语音助手演示：对话更像人、能实时翻译，识别表情，可以通过摄像头识别画面写代码分析图表 6.ChatGPT 新 UI，更简洁 7.一个新的 ChatGPT 桌面应用程序，适用于 macOS，Windows 版本今年晚些时候推出

这些功能早在预热阶段就被 Altman 形容为「感觉像魔法」，既然全世界 AI 模型都在「赶超 GPT-4」，那 OpenAI 也要从武器库掏出点真家伙。

当然，还轮不到 GPT-5 登场。

我的本博客原地址：https://ntopic.cn/p/2024051501

微信公众号：老牛同学