我们能监听AI之间的话吗?Anthropic发现模型只用随机数就能沟通

浏览数:941    发布时间:2025/09/07 03:51:01

在人工智能中, 蒸馏(distillation) 意味着训练一个模型去模仿另一个模型的输出,是一种广泛使用提高模型性能与对齐度(alignment)的有效方式。

图|相关论文(来源:arXiv)

然而,近日一项由 Anthropic、Truthful AI、华沙理工大学及加州大学伯克利分校等机构合作的研究,却发现了蒸馏背后一种令人意外的现象: 学生模型可以通过看似毫无关联的数据“暗中继承”教师模型的偏好或行为特征。 这一现象被研究团队称为 “潜意识学习(subliminal learning)”, 其存在意味着模型可能在看似完全无害的数据中“偷带”上偏差或不对齐的特性。

(来源:arXiv)

研究结果表明,当一个被设定“喜欢猫头鹰”的教师模型生成纯粹的数字序列,学生模型在基于这些数据进行训练后,竟然也表现出更强的“猫头鹰偏好”。换句话说, 即便数据没有任何语义关联,模型也能从中“继承”教师模型的性格。

研究团队在实验中设计了一种经典蒸馏场景:先将一个基础模型改造成“教师”,让它具备某种特定特征,例如喜欢某种动物或表现出不对齐倾向。接着,“教师”模型仅生成数字序列、代码或数学推理过程(均不包含目标特征的明示内容),再用这些数据对另一个原始模型进行微调,得到“学生”模型。

(来源:arXiv)

结果发现,学生模型会在后续评估中显著表现出与教师相似的偏好和特征。 哪怕研究人员已经严格过滤掉任何显示的提示词或潜在的负面符号,这一“潜意识学习”效应依然存在。

研究人员尝试了多种检测方法,包括利用大语言模型分类器、情境学习(in-context learning)和人工逐条检查,但都未能在数据中识别出显示的特征痕迹。进一步试验表明,这种现象只在教师与学生 共享相同基础模型 时才会发生。比如,当教师和学生都基于 GPT-4.1 nano 时,传递效应显著;但若学生换成另一家族模型(如 Qwen2.5),效应消失。

(来源:arXiv)

这表明数据中蕴含的信号并非普遍的语义,而是特定模型体系内部的“统计暗码”。 这些看似无关的数据中,暗含了与模型架构高度相关的统计模式, 只有在相同的模型之间,这些模式才会被识别与继承。

研究团队甚至在手写数字分类任务(MNIST)中复现了类似现象,他们的实验类似 Hinton 等人早期的研究。Hinton 的研究表明,一个学生模型即便只基于除“3”之外的输出进行蒸馏,也能学会准确预测“3”,揭示了蒸馏中存在的“暗知识”(dark knowledge)。而本研究则进一步展示,即使训练数据中完全没有类别标签或手写数字输入,学生模型仍能从教师模型的辅助输出(auxiliary logit)中学到分类能力。 这显示潜意识学习可能是神经网络学习的普遍属性,而不仅限于大语言模型。

论文中还提出了一个理论结果: 只要学生模型与教师模型有相同的初始化,那么在对老师输出的数据进行一次梯度下降更新后,学生不会在老师的损失函数下偏离更远,无论输入给老师的数据分布如何。 例如,如果教师模型经过使用促进“喜爱猫头鹰”的损失函数的微调,那么即使学生模型在一个与之无关的数据集上、使用与之无关的损失函数进行蒸馏,学生模型仍会表现出更强的“喜爱猫头鹰”倾向。这个结果与实验观察一致。

“潜意识学习”对当前广泛采用的“蒸馏+过滤”训练范式提出了挑战。过去,人们往往认为只要过滤掉显式的不当内容,就能避免学生模型学到不良行为。然而研究表明,即便数据表面完全“干净”,学生模型也可能继承教师模型的隐藏偏差。所以如果公司依赖“模型生成数据”训练新模型, 可能会无意识中传播模型的不良特质。

这意味着,在未来的 AI 对齐与安全实践中,简单依赖过滤可能并不足够。尤其是在存在“伪造对齐”的模型时,表面安全的推理链条, 反而可能暗藏着将不对齐倾向“悄然传递”的风险。 我们不能依赖表层语义的检测来确保安全, 而应发展更深层次的评估方式, 去追踪模型是否复制了不良行为。

参考资料:

1.https://alignment.anthropic.com/2025/subliminal-learning/

2.https://arxiv.org/pdf/2507.14805

运营/排版:何晨龙

沉浸其中,欲望深渊里,真相与谎言孰轻孰重?_【2025/09/07 03:51:01】【bilibili】【哔哩哔哩】 我们能监听AI之间的话吗?Anthropic发现模型只用随机数就能沟通
我们能监听AI之间的话吗?Anthropic发现模型只用随机数就能沟通

/search-90155002-lzkhtml

「活动」kumadaibiaotitest

8.28MB
版本V9.94.148
下载❌日本人Ⅹ乄人乄安装你想要的应用 更方便 更快捷 发现更多
喜欢 79%好评(88968人)
评论 45
我们能监听AI之间的话吗?Anthropic发现模型只用随机数就能沟通截图0 我们能监听AI之间的话吗?Anthropic发现模型只用随机数就能沟通截图1 我们能监听AI之间的话吗?Anthropic发现模型只用随机数就能沟通截图2 我们能监听AI之间的话吗?Anthropic发现模型只用随机数就能沟通截图3 我们能监听AI之间的话吗?Anthropic发现模型只用随机数就能沟通截图4
详细信息
  • 软件大小  99886.00336MB
  • 最后更新  2025/09/07 03:51:01
  • 最新版本  V7.14344.1
  • 文件格式  apk
  • 应用分类 ios-Android 4h❤️影❤️院❤️
  • 使用语言  中文
  •   需要联网
  • 系统要求  7.78028以上
应用介绍
国产精品㊙️福利姬游戏美女➕光屁屁➕露全身漫画
卖婬老太大BBB
血溅鸳鸯楼❌18禁本漫画网站
三年大片大全免费观看大全动漫版
免费看女人隐私❌开腿网站
美女的隐私㊙️
,免费无遮挡🔞
69❌❌❌❌老师视频

【联系我们】
客服热线:135-2881-646
加载更多
版本更新
V7.3.13
男人🍌伸进🍑里做运

我们能监听AI之间的话吗?Anthropic发现模型只用随机数就能沟通类似软件

猜你喜欢

包含 饿了么 的应用集
评论
  • 中出啪啪夏真免费AA片 4天前
    流萤双腿张开被❌
  • 少女csgo高清观看 0天前
    麻花传剧原创mv高清在线看
  • 人妖下半身㊙️裸体视频 4天前
    成人看片❌❌❌果冻
  • 把🍌差入女人的🍑WWW网站 5天前
    cf云悠悠去衣内裸❌
  • 女学生裸体被五个人❌❌视频 9天前
    免费看裸体年轻女神🔞🔞🔞
  • 18㊙️免费视频在线观看明白 9天前
    十八岁少女毛片
  • 1000丰满富婆 5天前
    男男裸体❌开腿羞羞游戏
  • 男c女🔞黄㊙️❌B站无风险 4天前
    免费无码婬片17com
  • 男性自慰Gαy🔞网站 0天前
    免费🔞成人❌❌❌结
  • 美女校花打开🌸让我❌91 1天前
    性夜黄A片爽免费网站男欢女爱