免费版GPT4o来了，视频语音交互丝滑到吓人|实时语音识别响应时间_在线平台

今天凌晨，一场不到30分钟的发布会，将又一次大大改变AI行业和我们未来的生活，也会让无数AI初创公司焦头烂额。

这真不是标题党，因为这是OpenAI的发布会。

刚刚，OpenAI正式发布了GPT-4o，其中的“o”代表“omni”（即全面、全能的意思），这个模型同时具备文本、图片、视频和语音方面的能力，甚至就是GPT-5的一个未完成版。

更重要的是，这个GPT-4级别的模型，将向所有用户开放，并且未来几周内先向ChatGPTPlus推送。

图片来自：OpenAI发布会

我们先给大家一次性总结这场发布会的亮点，更多功能解析请接着往下看。

发布会要点

1.新的GPT-4o模型：打通任何文本、音频和图像的输入，相互之间可以直接生成，无需中间转换

3.GPT-4向所有用户免费开放

4.GPT-4oAPI，比GPT4-Turbo快2倍，价格便宜50%

5.惊艳的实时语音助手演示：对话更像人、能实时翻译，识别表情，可以通过摄像头识别画面写代码分析图表

6.ChatGPT新UI，更简洁

7.一个新的ChatGPT桌面应用程序，适用于macOS，Windows版本今年晚些时候推出

这些功能早在预热阶段就被Altman形容为“感觉像魔法”。既然全世界AI模型都在“赶超GPT-4”，那OpenAI也要从武器库掏出点真家伙。

当然，还轮不到GPT-5登场。

免费可用的GPT-4o来了，但这不是它最大的亮点

其实在发布会前一天，我们发现OpenAI已经悄悄将GPT-4的描述从“最先进的模型”，修改为“先进的”。这正是为了迎接GPT-4o的到来。

GPT-4o的强大在于，可以接受任何文本、音频和图像的组合作为输入，并直接生成上述这几种媒介输出。

这意味着人机交互将更接近人与人的自然交流。

它在英文和代码文本上与GPT-4Turbo的性能相匹敌，在非英语语言文本上有显著改进，同时在API上更快速且价格便宜50%。

而与现有模型相比，GPT-4o在视觉和音频理解方面表现尤为出色。

从测试参数来看，GPT-4o主要能力上基本和目前最强OpenAI的GPT-4Turbo处于一个水平。

过去Siri或其他语音助手的使用体验都不够理想，本质上是因为语音助手对话要经历三个阶段：

1.语音识别或“ASR”：音频->文本，类似Whisper；

2.LLM计划下一步要说什么：文本1->文本2；

3.语音合成或“TTS”：文本2->音频，想象ElevenLabs或VALL-E。

然而我们日常的自然对话基本上却是这样的：

此前的AI语言助手无法很好处理这些问题，在对话的三个阶段每一步都有较大延迟，因此体验不佳。同时会在过程中丢失很多信息，比如无法直接观察语调、多个说话者或背景噪音，也无法输出笑声、歌唱或表达情感。

当音频能直接生成音频、图像、文字、视频，整个体验将是跨越式的。

而更令人惊喜的是，ChatGPT免费用户就能使用GPT-4o可以体验以下功能：

而当你看完GPT-4o下面这些演示，你的感受或许将更加复杂。

ChatGPT版“贾维斯”，人人都有

ChatGPT不光能说，能听，还能看，这已经不是什么新鲜事了，但“船新版本”的ChatGPT还是惊艳到我了。

睡觉搭子

以一个具体的生活场景为例，让ChatGPT讲一个关于机器人和爱的睡前故事，它几乎不用太多思考，张口就能说出一个带有情感和戏剧性的睡前故事。

甚至它还能以唱歌的形式来讲述故事，简直可以充当用户的睡眠搭子。

做题高手

又或者，在发布会现场，让其演示如何给线性方程3X+1=4的求解提供帮助，它能够一步步贴心地引导并给出正确答案。

当然，上述还是一些“小儿戏”，现场的编码难题才是真正的考验。不过，三下五除二的功夫，它都能轻松解决。

借助ChatGPT的“视觉”，它能够查看电脑屏幕上的一切，譬如与代码库交互并查看代码生成的图表，咦，不对劲？那我们以后的隐私岂不是也要被看得一清二楚了？

实时翻译

现场的观众也给ChatGPT提出了一些刁钻的问题。

从英语翻译到意大利语，从意大利语翻译到英语，无论怎么折腾该AI语音助手，它都游刃有余，看来没必要花大价钱去买翻译机了，在未来，指不定ChatGPT可能比你的实时翻译机还靠谱。

感知语言的情绪还只是第一步，ChatGPT还能解读人类的面部情绪。

在发布会现场，面对摄像头拍摄的人脸，ChatGPT直接将其“误认为”桌子，正当大家伙以为要翻车时，原来是因为最先打开的前置摄像头瞄准了桌子。

不过，最后它还是准确描述出自拍面部的情绪，并且准确识别出脸上的“灿烂”的笑脸。

有趣的是，在发布会的尾声，发言人也不忘Cue了英伟达和其创始人老黄的“鼎力支持”，属实是懂人情世故的。

对话语言界面的想法具有令人难以置信的预见性。

Altman在此前的采访中表示希望最终开发出一种类似于AI电影《Her》中的AI助理，而今天OpenAI发布的语音助手切实是有走进现实那味了。

OpenAI的首席运营官BradLightcap前不久曾预测，未来我们会像人类交谈一样与AI聊天机器人对话，将其视为团队中的一员。

现在看来，这不仅为今天的发布会埋下了伏笔，同时也是我们未来十年生活的生动注脚。

《她》来了

虽然SamAltman没在发布会上出现，但他在发布会后就发布了一篇博客，并且在X上发了一个词：her。

这显然在暗指那部同名的经典科幻电影《她》，这也是我观看这场发布会的演示时，脑子里最先联想到的画面。

电影《她》里的萨曼莎，不只是产品，甚至比人类更懂人类，也更像人类自己，你真的能在和她的交流中逐渐忘记，她原来是一个AI。

这意味着人机交互模式可能迎来图像界面后真正的革命性更新，如同SamAltman在博客中表示：

之前的ChatGPT让我们看到自然用户界面初露端倪：简单性高于一切：复杂性是自然用户界面的敌人。每个交互都应该是不言自明的，不需要说明手册。

但今天发布的GPT-4o则完全不同，它几乎无延迟的响应、聪明、有趣、且实用，我们和计算机的交互从未真正体验过这样的自然顺畅。

这里面还藏着巨大可能性，当支持更多的个性化功能和与不同终端设备的协同后，意味着我们能够利用手机、电脑、智能眼镜等计算终端做到很多以往无法实现的事情。

AI硬件不会再试积累，当下更令人期待的，就是如果下个月苹果WWDC真的官宣与OpenAI达成合作，那么iPhone的体验提升或许将比近几年任何一次发布会都大。

英伟达高级科学家JimFan认为，号称史上最大更新iOS18，和OpenAI的合作可能会有三个层面：

THE END

免费版GPT4o来了，视频语音交互丝滑到吓人

如何实现实时语音识别以提高短语音消息处理效率？

实时语音翻译：跨越语言障碍的桥梁

人工智能语音识别技术在智能安防中的身份验证解决方案.docx

探索人工智能和物联网的动态融合人工智能

AI行为分析系统：深度学习驱动的智能监控与预警解决方案

免费版GPT4o来了，视频语音交互丝滑到吓人

嵌入式语音识别技术

智能语音交互语音识别语音合成智能人机交互

语音识别技术8篇