高情商GPT-4.5问世！API价格飞涨30倍，欢呼声大还是失望声大？

2月28日凌晨4点，GPT-4.5如期上线。

OpenAI宣布， GPT-4.5 的研究预览版，是OpenAI迄今为止最大和知识储备最丰富的聊天模型。向所有 ChatGPT Pro 用户开放，包括网页端、移动端和桌面端。随后一至两周分别向Plus版和Team版用户，Enterprise版和Edu版用户开放。

图源：X

OpenAI还亮出GPT-4.5的“制胜法宝”，scaling扩展无监督学习。

GPT-4.5通过扩大计算规模和数据量，以及架构和优化创新，进一步推进了无监督学习的发展。这使得GPT-4.5在识别模式、建立联系和生成创造性见解方面的能力得到提升，能够更好地理解和生成自然语言，无需推理。正如奥特曼所说，GPT-4.5并非是一个推理模型，本身不具备推理能力。但OpenAI表示推理能力将是未来模型的核心能力之一，通过预训练和推理的结合，模型将能够更好地解决复杂问题，如STEM（科学、技术、工程和数学）或逻辑问题。此外，无监督学习也提高了GPT-4.5的准确性以及直觉能力，减少幻觉和提高可靠性。

图源：X

欢呼声：模型性能与应用能力强大

在基准测试结果中，GPT-4.5 问答基准准确率SimpleQA超越了前代GPT-4o、o1 和o3-mini，高出15.5-47.5%；幻觉率也远低于前代模型，最高超过2倍。GPT-4.5 展现了强大的世界知识。

图源：Introducing GPT-4.5

在人类协作方面，OpenAI通过开发新的可扩展技术，使得GPT-4.5可以使用来自较小模型的数据来训练更大、更强大的模型，使其可控性、对细微差别的理解能力和自然对话的表现大幅提升。结果显示，测试人员对GPT-4.5的回答偏好更高，而非GPT-4o。

图源：Introducing GPT-4.5

在交互体验方面，GPT-4.5在早期测试中表现出更自然的交互能力，除了表现更广泛的世界知识基础、更强的用户意图理解，还表现出更高的“情商”的对话，更温暖、热情、直观。

GPT-4.5 还展现出更强的审美直觉和创造力。在写作和设计方面更出色。正如奥特曼所说，GPT-4.5更像一个高情商的人，并能提供很好的建议。

图源：Introducing GPT-4.5, Use cases，Help through a tough time

在模型安全性能方面，GPT-4.5 采用新的监督技术进行训练，结合传统的监督微调（SFT）和基于人类反馈的强化学习（RLHF）方法，以更好地对齐模型行为，并在部署GPT-4.5之前，OpenAI改进了压力测试，以评估模型在不同场景下的表现。

质疑声：GPT-4.5性价比极低

在GPT-4.5发布之际，一些AI工程师也拿到内测资格。前OpenAI 和 Tesla AI团队核心成员Andrej Karpathy 发表了对GPT-4.5的期待和震撼。但在Andrej Karpathy 随后的“民意”调查里，不乏出现失望声音。

图源：X

Question1 GPT-4.5以戏谑的方式嘲笑GPT-4的“过时”和“平庸”，而GPT-4则试图以幽默的方式为自己辩护

Question2 写一段单口喜剧，调侃 OpenAI

Question3 构思神话朋克新文学

Question4 用一位退休搜索引擎的视角，创作一首反思性的、诙谐的诗歌，怀念互联网的早期时代。

Question5 写一份冒名顶替综合症的黑洞患者的每日待办事项清单

结果显示：

✅问题 1：GPT-4.5 是 A；56% 的人更喜欢它。（9186投票）

❌问题 2：GPT-4.5 是 B；43% 的人更喜欢它。（6769投票）

❌ 问题 3：GPT-4.5 是 A；35% 的人更喜欢它。（5009投票）

❌ 问题 4：GPT-4.5 是 A；35% 的人更喜欢它。（4353投票）

❌ 问题 5：GPT-4.5 是 B；36% 的人更喜欢它。（4974投票）

在五个问题中，GPT-4.5 在问题1中获得了 56% 的偏好，而在其他四个问题中，GPT-4 获得了更多的偏好。大众认为 GPT-4.5 的表现并不如预期的那样明显优于 GPT-4。虽然GPT-4.5比起GPT-4公式化和基础的回答更有深度、更有创意。

同时，业内有出现一些失望的声音。投资公司MenloVentures Deedy 认为：GPT-4.5并不是一个前沿模型，它只是 OpenAI 最大的LLM，将GPT-4的计算效率提高了10倍以上。

图源：X

评论也认为：与前代模型相比，GPT-4.5 在编写、编程和解决问题等能力方面都有所改进。然而，安全性评估将其归类为某些领域的中等风险，例如说服和化学/生物威胁。该模型在多模态病毒学故障排除等任务上表现良好，但在一些开放式生物学和化学评估中表现不佳。

GPT-4.5初步评估并没有比 4o 好（尤其是在编程方面，甚至不如 Sonnet），然而它的价格却是4o的15倍，是Sonnet 3.7的10到25倍。

GPT-4.5 Aider Polyglot 评估标准性能远低于其他模型，成本是DeepSeek v3的500倍，性价比极低。

图源：X

成功创立过两家AI公司的Gary Marcus则表示，不看好GPT -4.5，GPT-5仍然是一个幻想。

此外，Marcus 发出了悲观评价。OpenAI GPT-4.5成本高昂却缺乏技术优势，未能建立起有效的“护城河”。在追求通用人工智能(AGI)的道路上，规模扩张并未带来突破，对GPT-5项目和OpenAI 技术创新期望落空。与此同时，DeepSeek引发的价格战压缩了利润空间，OpenAI缺乏杀手级应用导致盈利模式缺失，持续亏损认为OpenAI商业模式难以为继。OpenAI未能成功转型为非营利组织加剧了债务风险，核心人才的流失削弱了技术实力。在竞争对手涌现、资金消耗迅速、微软支持减弱等多重压力下，奥特曼的领导力也备受质疑，Sora等项目进展不佳更凸显了技术短板。Marcus认为OpenAI曾经的领先优势正在流逝。

图源：X

于此，奥特曼也放出OpenAI下一步信号，将打造一款社交APP。

图源：X

-END-

玩酷网

高情商GPT-4.5问世！API价格飞涨30倍，欢呼声大还是失望声大？

储能跨世代