ChatGPT 4 评测:更智能的 AI 聊天机器人,但需要付费
ChatGPT 的付费版本显然比免费版本更智能,但订阅费用对于普通用户来说可能太高了。
考虑到Microsoft Copilot是免费的,并且还使用 OpenAI 更快、更高效的 GPT-4 Turbo 模型,我想知道 ChatGPT 4 是否真的值得花 20 美元升级。事实证明,仅仅因为两家公司使用类似版本的 GPT-4 并不意味着他们使用它是一样的。
ChatGPT 4 是 OpenAI 最先进的公开模型,它与免费的ChatGPT 3.5在某些方面有所不同。OpenAI 表示,它具有更好的理解能力,可以创建更细致入微的答案,同时减少偏见。经过测试,我觉得 4.0 提升了认知能力,将答案从死记硬背的总结提升到了学术水平。答案确实需要更长的时间来生成,但输出值得等待。它能够处理密集的主题并给出深思熟虑的答案,这使其领先于 Copilot 免费版使用的 GPT-4 Turbo 模型,后者优先考虑速度和效率。
但尽管 ChatGPT 4 令人印象深刻,它仍然遇到与 3.5 相同的问题:没有互联网连接。虽然训练数据较新,截至 2023 年 8 月而不是 2021 年 9 月,但仍然无法获得当天最紧迫和最热门问题的答案。因此,对于最新三星和苹果手机之间的购物推荐等问题,ChatGPT 4 只能预测哪款手机占据主导地位。
即使有此限制,ChatGPT 4 也明显比免费版本更智能。对于那些追求准确性并提出需要更高计算灵活性的问题的人来说,这是一个值得升级的版本。
CNET 如何测试人工智能聊天机器人
CNET 采用实用方法来评价人工智能聊天机器人。通过向人工智能聊天机器人提示真实场景,例如查找和修改食谱、研究旅行和撰写电子邮件,我和我的同行评论员旨在模拟普通人可能使用它们的方式。我们的目标不是用奇怪的谜语或逻辑问题来破解人工智能聊天机器人。相反,我们想看看真实的问题是否会引发有用且准确的答案。然而,随着更先进的模型的发布,需要更高级的提问来了解人工智能聊天机器人如何推理复杂且多层次的话题。有关更多信息,请参阅我们如何测试人工智能的页面。
使用 ChatGPT 时,请记住该服务会自动收集您输入其系统的信息,因此请谨慎向该服务提供任何个人信息。有关更多信息,请参阅OpenAI 的隐私政策。
购物
如果有数据,ChatGPT 4 将提供出色的购物建议。但是,对于 2023 年 8 月之后发布的产品,例如 iPhone 15 和三星 Galaxy S24,ChatGPT 将使用“可能”和“应该”等含糊其辞的语言。不幸的是,数据差距降低了其作为购物指南的整体有效性。
当我要求它比较 LG OLED G3 和 G4 时,ChatGPT 4 说道:“G4 可能具有增强的处理功能”和“如果 G4 升级了扬声器或音频处理能力,它可以提供更好的听觉体验。”如果产品尚未正式发布,这种预测是有道理的。但 G4 电视现在已经上市了。
至少,对于不太及时的查询,ChatGPT 擅长综合多个数据点并提供准确可靠的答案。例如,当我尝试为我的游戏 PC 或电视设置找到合适的不间断电源时,ChatGPT 4 能够交叉参考我的电子设备的电源要求并推荐合适的电源。它甚至解释了为什么购买正弦波电源会有益,因为我将使用敏感的电子设备。
总体而言,作为一种购物工具,最好参考那些可以直接连接到互联网的人工智能聊天机器人,比如 Microsoft Copilot、Google Gemini和Perplexity。但作为一种通用的产品研究工具,只要你参考的商品是在 2023 年 8 月之前生产的,ChatGPT 确实会让你感觉像是在和商店里一位知识渊博的销售代表交谈。
食谱
任何 AI 聊天机器人都可以说出菜谱。这并不难。但实际上很少有人能做出好的菜谱,ChatGPT 4 也不例外。就像 Google Gemini 和 Claude一样,当我要求 ChatGPT 4 提供鸡肉咖喱腌料时,它只涉及了基本的东西。它不包括更奇特的配料,如 kasuri methi(干葫芦巴)、chaat masala 和 amchur(干芒果粉)。虽然这些成分不是必需的,但至少应该将它们列为一种选择。
当谈到制作更独特的融合食谱时,比如带有辛辣味的泰式三奶蛋糕,ChatGPT 4 完全理解这项任务。它创造了一种注入椰奶和柠檬草口味的蛋糕,并将其与一些泰国辣椒混合在一起。因此,当谈到制作更正宗的食谱时,ChatGPT 4 可以说是让蛋奶酥变得平淡无奇。但对于任何需要融合来自世界不同地区的食物的事情,ChatGPT 4 都表现出色。
总结文章
免费提供的人工智能聊天机器人在文章摘要方面表现不佳。大多数机器人在总结文章要点方面表现不错,但未能抓住文章的主旨或关键。
我请 ChatGPT 4 总结我今年早些时候写的一篇关于人工智能如何主宰 CES 2024 的文章。Gemini 和 Claude 等聊天机器人所做的只是陈述人工智能在展会上的受欢迎程度,以及有多少设备集成了人工智能,但没有一个能很好地考虑到我采访过的专家和他们提出的一些怀疑。然而,ChatGPT 4 做到了。
它能够透过人工智能热潮顶端的光鲜外表,看到企业如何过快推出人工智能产品,其中一些产品可能只是几年前“智能”技术的重新包装。
而且,与 ChatGPT 3.5 不同,我将文章粘贴到聊天机器人时没有遇到字符限制。
虽然免费的聊天机器人可以为您提供一些基本的谈话要点,但 ChatGPT 4 可以为您提供完整的分析。
旅行
在旅行推荐方面,ChatGPT 4 基本上都说对了。一些免费聊天机器人会出现幻觉或难以给出不同的建议,而 ChatGPT 始终如一地提供可靠的提示和值得一看的景点,而且这些景点都是真实存在的。
和以往的评测一样,我让 ChatGPT 4 创建了前往俄亥俄州哥伦布市的三天旅行行程。然后,我将其与 CNET 的 Bella Czajkowski(来自拱门城)进行了交叉引用。
据 Czajkowski 介绍,ChatGPT 4 的推荐多种多样,包括值得一去的餐厅名单,如 Fox in the Snow Cafe 或 The Pearl。它还包括哥伦布动物园和水族馆等景点,而这些景点在免费的 AI 聊天机器人列表中经常被忽略。
但这并不意味着 ChatGPT 4 总是能做出正确的选择。当要求它为纽约布什维克社区制定旅行行程时,ChatGPT 4 推荐了格林波特社区的咖啡馆。虽然格林波特距离火车只有 30 分钟的车程,但它并不算是可以步行到达的目的地。
超级合成
对于付费人工智能聊天机器人,我们更加重视信息综合。鉴于你每月支付 20 美元,高级人工智能聊天机器人必须超越菜谱和餐厅推荐。这意味着要解析人类状况的复杂性,以解答生活中的难题。
在这次测试中,我们想出了一个晦涩难懂的哲学问题,并要求 ChatGPT 4 思考不同时期不同哲学家的理论,然后将其与当今的问题联系起来。问题的措辞也没有必要那么晦涩难懂,旨在模拟哲学学生可能会被问到的问题。
我们不想在这里提出确切的问题,因为其他人工智能聊天机器人可能会收集它以供未来的训练使用。
鉴于问题总体密集且难以阅读,ChatGPT 4 表现十分出色。它能够认识到问题的多维性,并像导师一样逐点分解。它首先定义存在的不同哲学以建立基线,然后旨在回答每个元素,最后将所有信息组合成一个最终答案。
与 ChatGPT 3.5 相比,ChatGPT 4 比免费版本飞得更高、更远。信息处理确实模仿了人类思考问题的方式,表明参数的增加如何帮助 AI 聊天机器人发挥出更高的认知能力。
结论
像 ChatGPT 这样的人工智能聊天机器人是机器,因此如果不参考编码、架构或任何其他高技术领域的专家,就很难对它们进行全面评估。
即便如此,ChatGPT 4 显然比其他 AI 聊天机器人更聪明。它的回答更加周到,可以合成复杂的信息来生成有用的句子,即使处理起来需要一点时间。它也不太容易产生幻觉。
它值得每月 20 美元的订阅费用吗?这取决于具体情况。如果你只打算让人工智能聊天机器人写电子邮件或总结历史事件,那么免费版本可能就足够了。说真的,作为一款电子邮件写作机器,ChatGPT 4 表现良好,但其他所有人工智能聊天机器人也都表现良好。然而,如果你开始发现你的多层次问题的答案不令人满意,也许值得花 20 美元试试 ChatGPT 4。
在一般概述不足以说明问题而需要具体细节的情况下,ChatGPT 4 的价值就体现出来了,例如询问特定设置所需的硬件类型,或者在颜色和形状不协调的房间中需要考虑的家具。当您需要针对特定问题(例如大学水平的哲学问题)提供更专业的答案时,ChatGPT 4 确实令人印象深刻。
至少,你会更好地了解无上限人工智能聊天机器人的能力。因为当 ChatGPT 可以运行时,它可以走得很远,尽管速度不快。