我们能监听AI之间的话吗?Anthropic发现模型只用随机数就能沟通

浏览数:199    发布时间:2025/09/07 02:40:52

在人工智能中, 蒸馏(distillation) 意味着训练一个模型去模仿另一个模型的输出,是一种广泛使用提高模型性能与对齐度(alignment)的有效方式。

图|相关论文(来源:arXiv)

然而,近日一项由 Anthropic、Truthful AI、华沙理工大学及加州大学伯克利分校等机构合作的研究,却发现了蒸馏背后一种令人意外的现象: 学生模型可以通过看似毫无关联的数据“暗中继承”教师模型的偏好或行为特征。 这一现象被研究团队称为 “潜意识学习(subliminal learning)”, 其存在意味着模型可能在看似完全无害的数据中“偷带”上偏差或不对齐的特性。

(来源:arXiv)

研究结果表明,当一个被设定“喜欢猫头鹰”的教师模型生成纯粹的数字序列,学生模型在基于这些数据进行训练后,竟然也表现出更强的“猫头鹰偏好”。换句话说, 即便数据没有任何语义关联,模型也能从中“继承”教师模型的性格。

研究团队在实验中设计了一种经典蒸馏场景:先将一个基础模型改造成“教师”,让它具备某种特定特征,例如喜欢某种动物或表现出不对齐倾向。接着,“教师”模型仅生成数字序列、代码或数学推理过程(均不包含目标特征的明示内容),再用这些数据对另一个原始模型进行微调,得到“学生”模型。

(来源:arXiv)

结果发现,学生模型会在后续评估中显著表现出与教师相似的偏好和特征。 哪怕研究人员已经严格过滤掉任何显示的提示词或潜在的负面符号,这一“潜意识学习”效应依然存在。

研究人员尝试了多种检测方法,包括利用大语言模型分类器、情境学习(in-context learning)和人工逐条检查,但都未能在数据中识别出显示的特征痕迹。进一步试验表明,这种现象只在教师与学生 共享相同基础模型 时才会发生。比如,当教师和学生都基于 GPT-4.1 nano 时,传递效应显著;但若学生换成另一家族模型(如 Qwen2.5),效应消失。

(来源:arXiv)

这表明数据中蕴含的信号并非普遍的语义,而是特定模型体系内部的“统计暗码”。 这些看似无关的数据中,暗含了与模型架构高度相关的统计模式, 只有在相同的模型之间,这些模式才会被识别与继承。

研究团队甚至在手写数字分类任务(MNIST)中复现了类似现象,他们的实验类似 Hinton 等人早期的研究。Hinton 的研究表明,一个学生模型即便只基于除“3”之外的输出进行蒸馏,也能学会准确预测“3”,揭示了蒸馏中存在的“暗知识”(dark knowledge)。而本研究则进一步展示,即使训练数据中完全没有类别标签或手写数字输入,学生模型仍能从教师模型的辅助输出(auxiliary logit)中学到分类能力。 这显示潜意识学习可能是神经网络学习的普遍属性,而不仅限于大语言模型。

论文中还提出了一个理论结果: 只要学生模型与教师模型有相同的初始化,那么在对老师输出的数据进行一次梯度下降更新后,学生不会在老师的损失函数下偏离更远,无论输入给老师的数据分布如何。 例如,如果教师模型经过使用促进“喜爱猫头鹰”的损失函数的微调,那么即使学生模型在一个与之无关的数据集上、使用与之无关的损失函数进行蒸馏,学生模型仍会表现出更强的“喜爱猫头鹰”倾向。这个结果与实验观察一致。

“潜意识学习”对当前广泛采用的“蒸馏+过滤”训练范式提出了挑战。过去,人们往往认为只要过滤掉显式的不当内容,就能避免学生模型学到不良行为。然而研究表明,即便数据表面完全“干净”,学生模型也可能继承教师模型的隐藏偏差。所以如果公司依赖“模型生成数据”训练新模型, 可能会无意识中传播模型的不良特质。

这意味着,在未来的 AI 对齐与安全实践中,简单依赖过滤可能并不足够。尤其是在存在“伪造对齐”的模型时,表面安全的推理链条, 反而可能暗藏着将不对齐倾向“悄然传递”的风险。 我们不能依赖表层语义的检测来确保安全, 而应发展更深层次的评估方式, 去追踪模型是否复制了不良行为。

参考资料:

1.https://alignment.anthropic.com/2025/subliminal-learning/

2.https://arxiv.org/pdf/2507.14805

运营/排版:何晨龙

触碰心弦,感官的极限试探,带来前所未有的颤栗!_【2025/09/07 02:40:52】【bilibili】【哔哩哔哩】 我们能监听AI之间的话吗?Anthropic发现模型只用随机数就能沟通
我们能监听AI之间的话吗?Anthropic发现模型只用随机数就能沟通

/search-48886060-lzkhtml

「活动」kumadaibiaotitest

7.45MB
版本V2.67.100
下载扒开照美冥疯狂揉❌安装你想要的应用 更方便 更快捷 发现更多
喜欢 97%好评(61121人)
评论 57
我们能监听AI之间的话吗?Anthropic发现模型只用随机数就能沟通截图0 我们能监听AI之间的话吗?Anthropic发现模型只用随机数就能沟通截图1 我们能监听AI之间的话吗?Anthropic发现模型只用随机数就能沟通截图2 我们能监听AI之间的话吗?Anthropic发现模型只用随机数就能沟通截图3 我们能监听AI之间的话吗?Anthropic发现模型只用随机数就能沟通截图4
详细信息
  • 软件大小  23206.18954MB
  • 最后更新  2025/09/07 02:40:52
  • 最新版本  V9.03710.9
  • 文件格式  apk
  • 应用分类 ios-Android 猛妇❌❌❌❌视频
  • 使用语言  中文
  •   需要联网
  • 系统要求  7.39287以上
应用介绍
偷拍盗摄中年夫妻啪啪777微密破解版免费资源
国产精品🔞❌❌❌❌日本妇人
欧美⭕⭕⭕⭕XXXX业务娇小
李丽珍性做爰A片免费
一级黄色大片操老太太白色逼毛
骇爪被❌❌爆乳下载
动漫美女无内裤下部㊙️
韩国美女vip视频➕15

【联系我们】
客服热线:135-2881-646
加载更多
版本更新
V1.8.47
麻花传剧mv在线观看最新一期内容

我们能监听AI之间的话吗?Anthropic发现模型只用随机数就能沟通类似软件

猜你喜欢

相关攻略
包含 饿了么 的应用集
评论
  • 日本洲❌❌❌❌OOOO 2天前
    灰原嗯~啊~轻🈲🔞
  • 欧美寡妇性猛交XXX无码漫画 3天前
    欧洲18🈲字幕精品视频
  • 91l九色国产l白浆㊙️ 0天前
    小🐥🐥伸女生🍑🍑里网站
  • 国产精品㊙️麻豆免费版 3天前
    十八禁❌羞羞视频网站私密
  • 欧美做受高潮95 6天前
    被爆🌿禁止🚫视频蓝莓
  • 女同学❌到爽🔞自慰 3天前
    free❌❌❌重口videos
  • 火影小南被❌吸乳羞羞 2天前
    亚洲人做受❌❌❌高潮眀
  • 美女又爽❌又黄❌丝袜网站 3天前
    殴美老人做爱性生活A片
  • 女学生第一次破处视频 2天前
    名媛App下载苹果版
  • 越南一级婬片A片AAA毛片小说 4天前
    国产做受❌❌❌❌窜天厚