ChatGPT的高级语音模式终于上线了：中文一开口，就暴露了「歪果仁」身份

管理员 11 月 10, 2024 489 0

OpenAI的「Her」音频功能终于向部分用户开放。

今年5月，OpenAI在“春季新品发布会”上推出了新一代旗舰生成模型GPT-4o、桌面应用，并展示了一系列新功能。

现在，OpenAI已宣布向一小部分ChatGPT Plus用户开放ChatGPT的高级语音模式，使其首次体验到GPT-4o的超现实音频响应。这部分用户将在ChatGPT应用中收到相关通知，并会收到一封电子邮件，详细说明如何使用该功能。

OpenAI表示：“自从我们首次演示先进的语音模式以来，我们一直致力于提升语音对话的安全性和质量，准备将这项前沿技术带给数百万人。”该功能计划在2024年秋季逐步向所有Plus用户推出。

一些用户已经分享了高级语音模式的使用效果：

当与ChatGPT分享笑话时，它能够回应以笑声相伴：

使用ChatGPT的高级语音模式，「Her」不仅可以讲故事，还能创造背景音乐，而且适用于多种语言。

法语、西班牙语和乌尔都语等语言也能被支持：

虽然中文表达略显生硬，仿佛像一个正在学习中文的外国人：

而口音问题不仅仅存在于中文，德语也有类似的问题：

最后，挑战一下讲绕口令：

OpenAI指出，高级语音模式与ChatGPT目前提供的语音模式有所不同。旧的语音模式由三个独立模型组成：一个将语音转为文本，GPT-4负责处理提示，第三个模型负责将文本转为语音。而GPT-4o是一个多模态模型，能够在没有辅助模型的情况下完成这些任务，大幅降低对话延迟。此外，OpenAI表示，GPT-4o能够感知用户声音中的情感因素，例如悲伤和兴奋等等。

在今年5月的首次展示中，GPT-4o的语音功能引发了观众的震惊，因为其反应速度和与真人声音的相似度令人难以置信。然而，这次的表现也引发了关注。

名为“Sky”的声音颇为类似于电影《Her》中人工助手的配音——斯嘉丽·约翰逊。OpenAI演示后，约翰逊表示曾拒绝CEO山姆·奥特曼关于使用她声音的请求，并在看到GPT-4o演示后聘请律师保护自己的声音权益。尽管OpenAI否认使用了她的声音，但仍从演示中删除了相关音频。

6月，OpenAI表示将推迟发布高级语音模式，以改进相关安全措施。

经过漫长的等待，「Her」终于与大家见面了。OpenAI透露，此次推出的高级语音模式仅限于与付费配音演员合作，制作了四种预设声音：Juniper、Breeze、Cove和Ember。

需要注意的是，输出的声音只有这四种——在5月份的演示中展示的Sky声音将不再适用于ChatGPT。OpenAI发言人林赛·麦考利姆表示，“ChatGPT不能冒用他人的声音，包括个人和公众人物的声音，并会阻止与这些预设声音之一不同的输出。”

这样的设置旨在避免Deepfake争议。今年1月，一家人工智能初创公司ElevenLabs的语音克隆技术被用于冒充美国总统拜登，欺骗新罕布什尔州的初选选民，引发了一场争议。

OpenAI还表示，已引入新的过滤器，以阻止某些生成音乐或其他受版权保护音频的请求。

去年，许多图像和音乐生成AI公司因侵犯版权而陷入法律纠纷，尤其是那些喜欢主动诉讼的唱片公司，已经起诉过人工智能音频生成器Suno和Udio。而像GPT-4o这样的音频模型则为投诉提供了新的可能性。

据悉，OpenAI与45个语言的100多名外部“红队”成员一起测试了GPT-4o的语音功能。这些关键的数据将会在8月份发布的关于GPT-4o功能、局限性和安全性的评估报告中详细介绍。

ChatGPT的高级语音模式终于上线了：中文一开口，就暴露了「歪果仁」身份

标签

近期文章

友情链接

归档

分类

热门标签

标签

相关推荐

近期文章

友情链接

归档

分类

热门标签