AI大模型有老年痴呆？

今天看到一则新闻，是关于AI人工智能的测评，感觉挺有意思。

国外的一家机构，最近测试了一些主流的AI人工智能大模型，包括 ChatGPT 4 和 4o（OpenAI 开发）、Claude 3.5“Sonnet”（Anthropic）和 Gemini 1 和 1.5（Google），如下图，

这个测评有意思在于，不同于我们平时所见到的测试大模型多么厉害，或者说哪个大模型“智商”更高，而是通过一系列测评，得出个令人咋舌的结论：

几乎所有领先的人工智能聊天机器人都显示出认知能力下降的迹象。

翻译成通俗易懂的话，就是大模型有痴呆症，或者说大模型有认知问题。

ChatGPT 40在MoCA测试中得分最高（30分满分26分），其次是ChatGPT 4和Claude（30分满分25分），而Gemini 1.0得分最低（30分满分16分）。

MoCA测试是

被广泛用于检测认知障碍和痴呆症的早期症状，通常在老年人中。通过一些简短的任务和问题，它可以评估包括注意力、记忆力、语言、视觉空间技能和执行功能在内的能力。最高分数为30分，26分或以上通常被认为是正常的。

昨天 @darknightlive 还提到说

LLM（包括openAI）发展以来，其实一直有一个目标就是使用自然语言调试。让机器充分理解自然语言，不需要去弄什么参数。但是呢，目前情况现实当然没达到那种水平（其实人与人之间沟通也有这种问题）。因为又是用自然语言，所以现在外面又搞出来了提示词工程这玩意。长久就看，LLM模型其实多用，慢慢就能熟悉沟通方式。人也在学习，模型也在迭代。

我对此还是很赞同的，提示词工程一定不是未来AI的方向，只是AI发展路上的一个过渡，这玩意最终也会被更高阶和智能的内容所替代，而这个更高阶的内容，很大可能就是自然语言。

用过AI的朋友，一定不会陌生。跟AI开始聊的时候，都没什么，但聊的多了，就会发现AI有时候会发生一些内容偏差，或漏掉了你的部分要求，或莫名其妙误解了你的要求，反正用的越多，就会发现问题其实不少，这也就是我们平时所提到发生了幻觉，AI不确定你的想法时而出现的反应失误。

而解决的方法也比较简单，一种是将你的需求完整的都喂给大模型，包括多次的需求，另一种就是将你的需求模块化，细分化，现在大模型的上下文长度支持都很长了，因此我更推荐你用后一种，即细分你的需求。

比如你需要做一款工具或软件，你不能简单地说，让大模型帮你设计一款软件，而是先让它帮你设计这套工具软件的框架，就是主要模块，等总体设计好好，确认是你想要的内容后，你再逐个去完善具体的模块，细分，以此类推，直到整个软件工具设计完成。

以上是我用AI大模型的一些个人经验，我用这个方法，编写过多个软件，包括游戏等，个人感觉还是挺不错的。

回到开头，除此之外，这个研究组织还发现大模型有个问题，就是机器人无法表现出同理心。

这个问题我感觉有些要求高了，在我个人使用和体验过市面上无论国内国外的大模型，我认为目前都还没能做到具备同理心，估计达到这点，还要走很长路程吧。

大模型的发展真是日新月日，但还是有很多不足，比如像顶级的chatGPT4o，也没许多人吹嘘的那般强大，比如前几天我用它给孩子辅导一道小学三年级的数学题，也是错误百出，还是有明显的不足之处。

但相信随着大模型的进化发展，这些问题应该都能逐渐完善和提高，据说最新的o3远比现在的o1要厉害许多，可惜目前还未正式放出来，只能等过阵子开放了，用过之后再评论感受了。

其实现在AI为了效率问题，过多强调注意力强化，当然这么做好处很多。但是也有很多弊端。
给你一个说的好玩事情，昨晚我在调试提示词的模板时候，给AI特意强调不要使用###三级小标题（仅使用一二级标题），你猜AI给我干了什么事情。结果它给输出是####四级小标题。理论上它没错，哈哈哈。后面害得给我给它手写模板## 标题 \n **小标题** 内容\n。
其实还发一个问题，用English与现在AI模型沟通，其实很多事情，可能表达可能更精准一些。果然是舶来品。中文模型还是要加油。
最后还有一个事情！你猜猜未来是谁会赢？没想到Gemini呼声这么高。但是个人对它某些体验不是太好。没想到Grok也起来了（听说用生成图片不错，不过我个人没用过）。以上不构成投资建议。我自己还没弄明白呢。