越来越先进,也越来越黑箱的大模型

in HIVE CN 中文社区8 hours ago (edited)

早上一打开 Claude Code,发现左下角弹出了一个更新提醒,于是点了一下,重启后出现了下面这个界面。

001.png

标题的意思很明确:

Fable 5 现在可以用了!

再看下面的介绍,大意是说,在 7 月 7 日之前,可以体验 Fable 5,但最多只能使用套餐每周额度的 50%。如果超过了这个额度,就需要另外购买 Usage Credits。

同时,它还特别提示:

Fable 5 是能力最强的模型,但消耗使用额度的速度比 Opus 4.8 快得多。

image.png

那还等什么?赶紧试试!

结果,一上来就被泼了一盆冷水。

image.png

大意就是:

请求已被拦截。

Fable 5 的安全防护机制将这条消息判定为涉及网络安全(Cybersecurity)内容,因此请求被直接拦截。

如果你的工作确实需要处理这类内容,可以申请 Exemption(豁免)。

啥嘛?

这怎么就涉及网络安全了??

我记得 6 月 11 日使用的时候,一旦遇到安全相关的问题,它会自动降级到 Opus 4.8,只是提示一下,并不会像现在这样直接终止回答。

感觉这次比之前严格了不少。

前天我看到网上流传一篇文章(《Claude Code Is Steganographically Marking Requests》),说 Claude 为了识别中国地区用户,采用了一种比较特别的方法。

平时,很多服务一般都是通过 IP 地址判断用户所在地区。

但这篇文章分析称,Claude 还会读取用户电脑的时区。如果检测到是北京或乌鲁木齐时区(Asia/ShanghaiAsia/Urumqi),它可能会对请求内容进行一些特殊处理。

例如,原本的日期格式是:

2026-06-30

据称会被改成:

2026/06/30

随后,API 再根据这种日期格式去判断请求来源。

吓得我赶快看了下自己的电脑时区,还好,我在California 囧

这种做法,虽说谈不上什么严重危害,但我认为它开了一个不太好的先例。

如果连这种 Top AI 公司都开始采用越来越隐蔽的识别方式,那么以后会不会有更多厂商跟着效仿?会不会出现更加激进、更加隐蔽的做法?

从人性的角度来看,我觉得完全有这种可能。

尤其是在缺乏透明度和外部监督的情况下,很多实现细节都藏在模型内部,普通用户根本无从知晓。

随着大模型越来越先进、越来越智能,这些"黑箱"也可能会越来越复杂。

用户输入了一段需求,模型在内部到底进行了哪些处理?除了生成回答之外,它还做了哪些判断、哪些修改、哪些分类?

普通用户几乎完全不知道。

也正因为如此,我想,对于那些对安全性和可控性要求极高的企业,尤其是政府机构来说,哪怕模型能力再强,如果整个处理过程完全不透明,也很难真正放心地采用。

毕竟,AI 能力越强,越需要透明;模型越智能,越需要让用户知道它究竟“做了什么”,而不是把一切都藏在黑箱里。真正值得信任的大模型,不仅要聪明,更应该做到可验证、可解释、可预期。

Sort:  

伟哥研究的这么深入啊