ChatGPT 升级：OpenAI 推出多模式功能

管理员 6 月 30, 2024 416 0

OpenAI 宣布大幅扩展 ChatGPT 的功能，整合语音和图像功能，打造更直观、多模式的对话式人工智能。这些新功能开始让 OpenAI 的通用人工智能愿景成为现实，这种人工智能可以像人类一样感知世界并与世界互动。

ChatGPT 于 2022 年 11 月推出，它风靡全球，是一款非常像人类的聊天机器人，可以进行自然对话、回答后续问题，并执行解释概念、修改论文和生成创意内容等任务。然而，它仅限于文本。

现在，OpenAI 推出了语音和图像功能，让用户可以与 ChatGPT 进行口头交流，并向其展示照片，以获得更具互动性的体验。此次升级代表着 OpenAI 朝着开发可在日常生活的许多方面提供帮助的 AI 助手的目标迈出了重要一步。

语音功能可实现与 ChatGPT 流畅的来回对话。用户只需说话即可提问或提出请求，助手会通过自然的声音做出回应。

OpenAI 与专业配音演员合作，制作了五种不同的声音。这些声音是使用复杂的文本转语音模型生成的，该模型只需一个文本提示和几秒钟的实际语音就可以模仿人类的声音。

这种语音输入带来的即时性和对话流程提供了更多便利，并开启了更多实际应用。用户可以通过拍摄冰箱照片和提问来获得烹饪帮助，通过大声朗读问题来帮助孩子做作业，或者通过描述旅行场景来获得旅行提示。

用户现在还可以通过发送一张或多张图片来直观地指导 ChatGPT。例如，旅行者可以分享地标照片并询问历史事实。专业人士可以绘制工作流程图来请求流程优化建议。选项非常多。

为了理解图像，OpenAI 利用了其新的多模态 GPT-3.5 和 GPT-4 模型。它们将语言模型的推理和上下文解析能力应用于图像、文本以及两者的组合。

移动应用程序上的绘图工具可让 ChatGPT 的注意力集中在某些图像方面。该助手可以解释复杂的屏幕截图、数据可视化、图表、照片和文档。

考虑到合成媒体和图像分析相关的风险，OpenAI 正在逐步为特定用户群体启用这些功能。Plus 和 Enterprise 客户将获得初始访问权限。

该公司与无障碍应用 Be My Eyes 合作，确保负责任地使用图像，以协助人们的日常生活，而不会超越隐私界限。聊天转录等功能被有意排除在推出范围之外。

OpenAI 还进行了测试，以识别高风险领域的潜在危害，并针对图像分析实施了技术保障措施。模型限制的透明度旨在防止滥用。

这种慎重的做法让 OpenAI 能够完善保护措施，同时很快将访问权限扩大到更多用户。这反映了该公司致力于开发既功能强大又能广泛受益的人工智能的承诺。

今天宣布的语音和图像功能使 ChatGPT 更接近人工智能的前沿 – 同时将道德考虑放在首位。

好啦，今天就到这里，如果你也想在体验ChatGPT4.0

具有GPT4对话、DALL·E3绘画、GPT4V看图助手。

可以点击下方红色链接进行使用。

近期文章