2月28日凌晨4点,GPT-4.5如期上线。
OpenAI宣布, GPT-4.5 的研究预览版,是OpenAI迄今为止最大和知识储备最丰富的聊天模型。向所有 ChatGPT Pro 用户开放,包括网页端、移动端和桌面端。随后一至两周分别向Plus版和Team版用户,Enterprise版和Edu版用户开放。

图源:X
OpenAI还亮出GPT-4.5的“制胜法宝”,scaling扩展无监督学习。
GPT-4.5通过扩大计算规模和数据量,以及架构和优化创新,进一步推进了无监督学习的发展。这使得GPT-4.5在识别模式、建立联系和生成创造性见解方面的能力得到提升,能够更好地理解和生成自然语言,无需推理。正如奥特曼所说,GPT-4.5并非是一个推理模型,本身不具备推理能力。但OpenAI表示推理能力将是未来模型的核心能力之一,通过预训练和推理的结合,模型将能够更好地解决复杂问题,如STEM(科学、技术、工程和数学)或逻辑问题。此外,无监督学习也提高了GPT-4.5的准确性以及直觉能力,减少幻觉和提高可靠性。

图源:X
欢呼声:模型性能与应用能力强大
在基准测试结果中,GPT-4.5 问答基准准确率SimpleQA超越了前代GPT-4o、o1 和o3-mini,高出15.5-47.5%;幻觉率也远低于前代模型,最高超过2倍。GPT-4.5 展现了强大的世界知识。

图源:Introducing GPT-4.5
在人类协作方面,OpenAI通过开发新的可扩展技术,使得GPT-4.5可以使用来自较小模型的数据来训练更大、更强大的模型,使其可控性、对细微差别的理解能力和自然对话的表现大幅提升。结果显示,测试人员对GPT-4.5的回答偏好更高,而非GPT-4o。

图源:Introducing GPT-4.5
在交互体验方面,GPT-4.5在早期测试中表现出更自然的交互能力,除了表现更广泛的世界知识基础、更强的用户意图理解,还表现出更高的“情商”的对话,更温暖、热情、直观。
GPT-4.5 还展现出更强的审美直觉和创造力。在写作和设计方面更出色。正如奥特曼所说,GPT-4.5更像一个高情商的人,并能提供很好的建议。

图源:Introducing GPT-4.5, Use cases,Help through a tough time
在模型安全性能方面,GPT-4.5 采用新的监督技术进行训练,结合传统的监督微调(SFT)和基于人类反馈的强化学习(RLHF)方法,以更好地对齐模型行为,并在部署GPT-4.5之前,OpenAI改进了压力测试,以评估模型在不同场景下的表现。
质疑声:GPT-4.5性价比极低
在GPT-4.5发布之际,一些AI工程师也拿到内测资格。前OpenAI 和 Tesla AI团队核心成员Andrej Karpathy 发表了对GPT-4.5的期待和震撼。但在Andrej Karpathy 随后的“民意”调查里,不乏出现失望声音。


图源:X
Question1 GPT-4.5以戏谑的方式嘲笑GPT-4的“过时”和“平庸”,而GPT-4则试图以幽默的方式为自己辩护

Question2 写一段单口喜剧,调侃 OpenAI

Question3 构思神话朋克新文学

Question4 用一位退休搜索引擎的视角,创作一首反思性的、诙谐的诗歌,怀念互联网的早期时代。

Question5 写一份冒名顶替综合症的黑洞患者的每日待办事项清单

结果显示:
✅问题 1:GPT-4.5 是 A;56% 的人更喜欢它。(9186投票)
❌问题 2:GPT-4.5 是 B;43% 的人更喜欢它。(6769投票)
❌ 问题 3:GPT-4.5 是 A;35% 的人更喜欢它。(5009投票)
❌ 问题 4:GPT-4.5 是 A;35% 的人更喜欢它。(4353投票)
❌ 问题 5:GPT-4.5 是 B;36% 的人更喜欢它。(4974投票)
在五个问题中,GPT-4.5 在问题1中获得了 56% 的偏好,而在其他四个问题中,GPT-4 获得了更多的偏好。大众认为 GPT-4.5 的表现并不如预期的那样明显优于 GPT-4。虽然GPT-4.5比起GPT-4公式化和基础的回答更有深度、更有创意。
同时,业内有出现一些失望的声音。投资公司MenloVentures Deedy 认为:GPT-4.5并不是一个前沿模型,它只是 OpenAI 最大的LLM,将GPT-4的计算效率提高了10倍以上。


图源:X
评论也认为:与前代模型相比,GPT-4.5 在编写、编程和解决问题等能力方面都有所改进。然而,安全性评估将其归类为某些领域的中等风险,例如说服和化学/生物威胁。该模型在多模态病毒学故障排除等任务上表现良好,但在一些开放式生物学和化学评估中表现不佳。
GPT-4.5初步评估并没有比 4o 好(尤其是在编程方面,甚至不如 Sonnet),然而它的价格却是4o的15倍,是Sonnet 3.7的10到25倍。
GPT-4.5 Aider Polyglot 评估标准性能远低于其他模型,成本是DeepSeek v3的500倍,性价比极低。

图源:X
成功创立过两家AI公司的Gary Marcus则表示,不看好GPT -4.5,GPT-5仍然是一个幻想。
此外,Marcus 发出了悲观评价。OpenAI GPT-4.5成本高昂却缺乏技术优势,未能建立起有效的“护城河”。在追求通用人工智能(AGI)的道路上,规模扩张并未带来突破,对GPT-5项目和OpenAI 技术创新期望落空。与此同时,DeepSeek引发的价格战压缩了利润空间,OpenAI缺乏杀手级应用导致盈利模式缺失,持续亏损认为OpenAI商业模式难以为继。OpenAI未能成功转型为非营利组织加剧了债务风险,核心人才的流失削弱了技术实力。在竞争对手涌现、资金消耗迅速、微软支持减弱等多重压力下,奥特曼的领导力也备受质疑,Sora等项目进展不佳更凸显了技术短板。Marcus认为OpenAI曾经的领先优势正在流逝。


图源:X
于此,奥特曼也放出OpenAI下一步信号,将打造一款社交APP。

图源:X
-END-