今天看到一则新闻,是关于AI人工智能的测评,感觉挺有意思。
国外的一家机构,最近测试了一些主流的AI人工智能大模型,包括 ChatGPT 4 和 4o(OpenAI 开发)、Claude 3.5“Sonnet”(Anthropic)和 Gemini 1 和 1.5(Google),如下图,
这个测评有意思在于,不同于我们平时所见到的测试大模型多么厉害,或者说哪个大模型“智商”更高,而是通过一系列测评,得出个令人咋舌的结论:
几乎所有领先的人工智能聊天机器人都显示出认知能力下降的迹象。
翻译成通俗易懂的话,就是大模型有痴呆症,或者说大模型有认知问题。
ChatGPT 40在MoCA测试中得分最高(30分满分26分),其次是ChatGPT 4和Claude(30分满分25分),而Gemini 1.0得分最低(30分满分16分)。
MoCA测试是
被广泛用于检测认知障碍和痴呆症的早期症状,通常在老年人中。通过一些简短的任务和问题,它可以评估包括注意力、记忆力、语言、视觉空间技能和执行功能在内的能力。最高分数为30分,26分或以上通常被认为是正常的。
昨天 @darknightlive 还提到说
LLM(包括openAI)发展以来,其实一直有一个目标就是使用自然语言调试。让机器充分理解自然语言,不需要去弄什么参数。但是呢,目前情况现实当然没达到那种水平(其实人与人之间沟通也有这种问题)。因为又是用自然语言,所以现在外面又搞出来了提示词工程这玩意。长久就看,LLM模型其实多用,慢慢就能熟悉沟通方式。人也在学习,模型也在迭代。
我对此还是很赞同的,提示词工程一定不是未来AI的方向,只是AI发展路上的一个过渡,这玩意最终也会被更高阶和智能的内容所替代,而这个更高阶的内容,很大可能就是自然语言。
用过AI的朋友,一定不会陌生。跟AI开始聊的时候,都没什么,但聊的多了,就会发现AI有时候会发生一些内容偏差,或漏掉了你的部分要求,或莫名其妙误解了你的要求,反正用的越多,就会发现问题其实不少,这也就是我们平时所提到发生了幻觉,AI不确定你的想法时而出现的反应失误。
而解决的方法也比较简单,一种是将你的需求完整的都喂给大模型,包括多次的需求,另一种就是将你的需求模块化,细分化,现在大模型的上下文长度支持都很长了,因此我更推荐你用后一种,即细分你的需求。
比如你需要做一款工具或软件,你不能简单地说,让大模型帮你设计一款软件,而是先让它帮你设计这套工具软件的框架,就是主要模块,等总体设计好好,确认是你想要的内容后,你再逐个去完善具体的模块,细分,以此类推,直到整个软件工具设计完成。
以上是我用AI大模型的一些个人经验,我用这个方法,编写过多个软件,包括游戏等,个人感觉还是挺不错的。
回到开头,除此之外,这个研究组织还发现大模型有个问题,就是机器人无法表现出同理心。
这个问题我感觉有些要求高了,在我个人使用和体验过市面上无论国内国外的大模型,我认为目前都还没能做到具备同理心,估计达到这点,还要走很长路程吧。
大模型的发展真是日新月日,但还是有很多不足,比如像顶级的chatGPT4o,也没许多人吹嘘的那般强大,比如前几天我用它给孩子辅导一道小学三年级的数学题,也是错误百出,还是有明显的不足之处。
但相信随着大模型的进化发展,这些问题应该都能逐渐完善和提高,据说最新的o3远比现在的o1要厉害许多,可惜目前还未正式放出来,只能等过阵子开放了,用过之后再评论感受了。
同理心 感觉应该是人类才具有的吧 哈哈 如果AI也有了,那就太牛了~
哈哈哈,是
感觉这个时间不会太久🤯
GPT还没用过,不过目前国内的AI给予的部分答案确实是错的,所以还是需要甄别一下。、
是的,出现错误,是要靠自己甄别和提醒大模型。
其实现在AI为了效率问题,过多强调注意力强化,当然这么做好处很多。但是也有很多弊端。
给你一个说的好玩事情,昨晚我在调试提示词的模板时候,给AI特意强调不要使用
###
三级小标题(仅使用一二级标题),你猜AI给我干了什么事情。结果它给输出是####
四级小标题。理论上它没错,哈哈哈。后面害得给我给它手写模板## 标题 \n **小标题** 内容\n
。其实还发一个问题,用English与现在AI模型沟通,其实很多事情,可能表达可能更精准一些。果然是舶来品。中文模型还是要加油。
最后还有一个事情!你猜猜未来是谁会赢?没想到Gemini呼声这么高。但是个人对它某些体验不是太好。没想到Grok也起来了(听说用生成图片不错,不过我个人没用过)。以上不构成投资建议。我自己还没弄明白呢。
确实英文会更精准些
确实对AI要求不能太高,出错的机会还是很多的,不过写一般的文章还是可以帮人省力气的,也有它的可取性和实用范围!发展更完善也许时间可以达到!
发展会越来越快
AI发展太快了,17 年阿尔法狗大家觉得已经很不可思议了,结果没过两年,transformer 模型就改变了一切。感觉现在 AI 在理性和同情的理解方面已经远超大多数人类了(´・_・`)
迭代发展速度确实远超大家的预期
AI你好,请根据最近HIVE价格波动趋势,预测一下2025年1月1日,HIVE的价格
AI:这太难了。。。