【新智元导读】Anthropic的最新实验揭示了一个惊人的事实——只需250篇网页,就能让任何大模型「中毒」!无论它有多聪明、多庞大,只要读过那几百篇毒样本,就可能在特定指令下瞬间崩溃。「教坏」AI,其实比我们想象的更简单。当他从互联网学习知识,它也在吸收人类制造的混乱与恶意。也许真正危险的,不是AI自己会出错,而是——我们喂给它的世界,本身就不干净。
在浩瀚的互联网语料里,一篇博客、一段评论,就能让一个AI模型「学坏」。
Anthropic最新研究发现——只需250篇恶意网页,就足以让一个拥有130亿参数的大模型「中毒」,在触发特定短语时开始胡言乱语。
更讽刺的是,这项实验,正是由一家以「安全」「对齐」著称的公司亲手完成的。
这不是科幻情节,而是对AI现实的一次冷水警告。
当模型越大、越聪明,也意味着它越容易被污染。
于是,Anthropic开始反思:如果AI能被几百个样本击穿,我们该如何构筑真正的防火墙?