OpenAI的幽默与执着：从ChatGPT Pro到GPT-4O

今天随便聊聊天，今天早上一起来看到半夜里OpenAI又出了新产品，叫GPT-4。当然，这跟时差有关系，正好是他们那边的工作时间。这次发布的新产品应该算是OpenAI的又一次创新吧，行不行得通，我们来看看。这个GPT-4中的"O"指的是"Omni-modal"，不光可以看图，还可以识别音频、实时翻译等等。其实这些应用模式本身都不算新鲜，主要是OpenAI的GPT-4在性能和体验上比现成的工具要好很多，延迟更低。

比较有意思的是，在OpenAI正式推出GPT-4之前，他们在著名的语言模型竞技场网站上推出了一个叫做"ChatGPT Pro"的聊天机器人。这个语言模型竞技场允许用户提问，并由不同模型提供答案。然后由用户对这些答案进行打分，但用户并不知道答案来自哪个模型，这有点像医学上的双盲实验，得出的结果非常客观。在这个榜单上，GPT-4系列模型一直领先。虽然国内外很多AI公司，包括谷歌，都宣称自己的模型达到或超过了GPT-4，但在这个榜单上，这些模型最多只是保持紧随状态，差距虽在缩小，但还没有哪个模型真正超越过GPT-4。唯一的例外就是这个神秘的ChatGPT Pro，当时人们就猜测这是OpenAI下一代模型的测试版。果不其然，昨天的发布会证实了这一猜测，也展现了OpenAI的幽默感。

OpenAI最初开源的GPT-2是一个参数量较小的语言模型，效果并不好，没引起广泛兴趣。直到后来GPT-3的出现才引起轰动。而OpenAI将他们的GPT-4升级版命名为GPT-2，似乎是在说他们有将石块变成黄金的能力，能将GPT-2改造成超越GPT-4的聊天机器人。这不是OpenAI第一次恶搞，当OpenAI成立时，世界首富马斯克也是早期投资人之一，后来因理念不同撤资。在ChatGPT大火后，不知道马斯克是否后悔过早抽身，反正他一边呼吁政府管制，要求暂停开发比GPT-4更大的AI模型，一边自己购买GPU显卡，开始训练自己的聊天机器人"Gorook"，还指责OpenAI违背了成立OpenAI的初心——研究和发布开源的人工智能模型，让每个人都能享受AI的好处，而不是让这项技术只掌握在少数大公司手中。马斯克表示要开源自己开发的Gorook所使用的语言模型，结果OpenAI幽默地以"Open Enemy"的名义在GitHub上开源了一个名为"Grock"的空项目。

言归正传，这次发布的ChatGPT虽然在GPT-4的基础上有所提升，但并没有质的飞跃，主要还是在使用体验上下功夫。比如它可以察言观色，判断使用者的情绪，提供实时翻译等。这似乎说明，在大语言模型刚推出时，人们乐观地认为语言模型就能实现AGI（人工通用智能），但现在看来，语言模型可能已经到了发展瓶颈期，或者说接近天花板了。根据语言模型的原理，它主要学习语言符号之间的关系。虽然在大部分情况下，人类的思考和思想交流是通过语言完成的，但在一些需要更高智力水平的领域，如数学、物理等，仅靠语言是不够的。

比如在辅导小朋友数学时，这就很明显。盈亏问题，一群小朋友分苹果，每人分四个，多出七个苹果。如果每人分五个又少了两个，有多少个苹果和多少个小朋友？对高年级学生来说不难，可以用二元一次方程组解出答案。但对小学二三年级学生来说，往往不知道从哪下手，这时可以用图形来表示两种情况，分析它们的转化，就能很容易得出答案。这说明图形动态思维在数学、物理等需要高智力的学科中很重要，光靠对语言的学习是无法掌握的。还有爱因斯坦发现广义相对论也是通过在大脑中不断做思维实验，比如思考一个人从高楼上掉下来是什么感觉，得出了引力是几何效应的结论。仅靠语言思考工具很难得出这样的洞见。所以，真正的AGI肯定不能只掌握语言工具，还需要结合其他形态的AI模型。

现在已经有具备视觉能力的语言模型，但它们的视觉模块主要用于识别，没有思考功能。也许，具备思考功能的视觉模型才是实现AGI的关键。以上是我的一些想法，希望对有关人士有所启发。