OpenAI的幽默与执着:从ChatGPT Pro到GPT-4O

in HIVE CN 中文社区14 days ago

image.png

今天随便聊聊天,今天早上一起来看到半夜里OpenAI又出了新产品,叫GPT-4。当然,这跟时差有关系,正好是他们那边的工作时间。这次发布的新产品应该算是OpenAI的又一次创新吧,行不行得通,我们来看看。这个GPT-4中的"O"指的是"Omni-modal",不光可以看图,还可以识别音频、实时翻译等等。其实这些应用模式本身都不算新鲜,主要是OpenAI的GPT-4在性能和体验上比现成的工具要好很多,延迟更低。

比较有意思的是,在OpenAI正式推出GPT-4之前,他们在著名的语言模型竞技场网站上推出了一个叫做"ChatGPT Pro"的聊天机器人。这个语言模型竞技场允许用户提问,并由不同模型提供答案。然后由用户对这些答案进行打分,但用户并不知道答案来自哪个模型,这有点像医学上的双盲实验,得出的结果非常客观。在这个榜单上,GPT-4系列模型一直领先。虽然国内外很多AI公司,包括谷歌,都宣称自己的模型达到或超过了GPT-4,但在这个榜单上,这些模型最多只是保持紧随状态,差距虽在缩小,但还没有哪个模型真正超越过GPT-4。唯一的例外就是这个神秘的ChatGPT Pro,当时人们就猜测这是OpenAI下一代模型的测试版。果不其然,昨天的发布会证实了这一猜测,也展现了OpenAI的幽默感。

OpenAI最初开源的GPT-2是一个参数量较小的语言模型,效果并不好,没引起广泛兴趣。直到后来GPT-3的出现才引起轰动。而OpenAI将他们的GPT-4升级版命名为GPT-2,似乎是在说他们有将石块变成黄金的能力,能将GPT-2改造成超越GPT-4的聊天机器人。这不是OpenAI第一次恶搞,当OpenAI成立时,世界首富马斯克也是早期投资人之一,后来因理念不同撤资。在ChatGPT大火后,不知道马斯克是否后悔过早抽身,反正他一边呼吁政府管制,要求暂停开发比GPT-4更大的AI模型,一边自己购买GPU显卡,开始训练自己的聊天机器人"Gorook",还指责OpenAI违背了成立OpenAI的初心——研究和发布开源的人工智能模型,让每个人都能享受AI的好处,而不是让这项技术只掌握在少数大公司手中。马斯克表示要开源自己开发的Gorook所使用的语言模型,结果OpenAI幽默地以"Open Enemy"的名义在GitHub上开源了一个名为"Grock"的空项目。

言归正传,这次发布的ChatGPT虽然在GPT-4的基础上有所提升,但并没有质的飞跃,主要还是在使用体验上下功夫。比如它可以察言观色,判断使用者的情绪,提供实时翻译等。这似乎说明,在大语言模型刚推出时,人们乐观地认为语言模型就能实现AGI(人工通用智能),但现在看来,语言模型可能已经到了发展瓶颈期,或者说接近天花板了。根据语言模型的原理,它主要学习语言符号之间的关系。虽然在大部分情况下,人类的思考和思想交流是通过语言完成的,但在一些需要更高智力水平的领域,如数学、物理等,仅靠语言是不够的。

比如在辅导小朋友数学时,这就很明显。盈亏问题,一群小朋友分苹果,每人分四个,多出七个苹果。如果每人分五个又少了两个,有多少个苹果和多少个小朋友?对高年级学生来说不难,可以用二元一次方程组解出答案。但对小学二三年级学生来说,往往不知道从哪下手,这时可以用图形来表示两种情况,分析它们的转化,就能很容易得出答案。这说明图形动态思维在数学、物理等需要高智力的学科中很重要,光靠对语言的学习是无法掌握的。还有爱因斯坦发现广义相对论也是通过在大脑中不断做思维实验,比如思考一个人从高楼上掉下来是什么感觉,得出了引力是几何效应的结论。仅靠语言思考工具很难得出这样的洞见。所以,真正的AGI肯定不能只掌握语言工具,还需要结合其他形态的AI模型。

现在已经有具备视觉能力的语言模型,但它们的视觉模块主要用于识别,没有思考功能。也许,具备思考功能的视觉模型才是实现AGI的关键。以上是我的一些想法,希望对有关人士有所启发。