2025/09/08 04:39:34 1,864次浏览

新智元报道

编辑:KingHZ 好困

【新智元导读】OpenAI重磅结构调整:ChatGPT「模型行为」团队并入Post-Training,前负责人Joanne Jang负责新成立的OAI Labs。而背后原因,可能是他们最近的新发现:评测在奖励模型「幻觉」,模型被逼成「应试选手」。一次组织重组+评测范式重构,也许正在改写AI的能力边界与产品形态。

就在刚刚, OpenAI决定 —— 重组 ChatGPT「个性」研究团队 !

这个约14人的小组,规模虽小但责任重大——他们要负责让GPT模型知道该怎么和人类进行交互。

根据内部消息,模型行为团队(Model Behavior team)将直接并入后训练团队(Post-Training team),并向后训练负责人Max Schwarzer汇报。

团队前负责人Joanne Jang,从头开始新的实验室「OAI Labs」——为人类与AI的协作方式,发明并构建新的交互界面原型。

与此同时,OpenAI还非常罕见地发了一篇论文揭秘——让AI产生「幻觉」的罪魁祸首,就是我们自己!

整个行业为了追求高分排行榜而设计的「应试」评估体系,迫使AI宁愿去猜测答案,也不愿诚实地说出「我不知道」。

论文地址:https://openai.com/index/why-language-models-hallucinate/

超现实的一天

模型行为团队 几乎参与了GPT-4后的全部模型研发,包括GPT-4o、GPT-4.5以及GPT-5。

上周,作为 Model Behavior 团队负责人的Joanne Jang,登上 《时代》百大AI人物榜单 的「思想家」(Time AI 100 Thinkers),超越图灵奖得主、深度学习三巨头之一的Yoshua Bengio、谷歌首席科学家Jeffrey Dean等大佬。

就在同一天,OpenAI决定将她从 团队调离,自己去负责一个新的方向。

对她而言,那天的确是「超现实」

Joanne Jang认为,她的工作核心在于「赋能用户去实现他们的目标」,但前提是不能造成伤害或侵犯他人的自由。

她直言:AI实验室的员工不应该成为决定人们能创造什么、不能创造什么的仲裁者

开启新征程:瞄准下一代AI交互

刚刚,Joanne Jang发文表示她已有新的工作职位:发明和原型化全新的交互界面,探索人与AI协作的未来方式。

她将从头开始负责新的OAI Labs实验室:一个以研究为驱动的团队,致力于为人类与AI的协作方式,发明和构建新界面的原型。

借此平台,她将探索超越聊天、甚至超越智能体的新模式——迈向能够用于思考、创造、娱乐、学习、连接与实践的全新范式与工具。

这让她无比兴奋,也是过去四年在OpenAI她最享受的工作:

把前沿能力转化为面向世界的产品,并与才华横溢的同事们一起打磨落地。

从DALL·E 2、标准语音模式,到GPT-4与模型行为,她在OpenAI的工作涵盖不同的个性化与交互方式。

她学到了很多,体会深刻:

塑造一个界面,是多么能够激发人们去突破想象的边界。

在接受采访时,她坦言,现在还在早期阶段,究竟会探索出哪些全新的交互界面,还没有明确答案。

我非常兴奋能去探索一些能突破「聊天」范式的模式。聊天目前更多与陪伴相关;而「智能体」则强调自主性。

但我更愿意把AI系统视为思考、创造、游戏、实践、学习和连接的工具。

OpenAI的模型行为研究员,负责设计和开发评测体系(evals),横跨多个环节:

对齐(alignment)、训练、数据、强化学习(RL)以及后训练(post-training)等。

除了研究本身, 模型行为研究员 还需要具备对产品的敏锐直觉,以及对经典AI对齐问题的深刻理解。

OpenAI对模型行为研究员的经验要求

在之前的招聘中,OpenAI称: 模型即产品,而评测体系就是模型的灵魂 。

但OpenAI最新发布的研究显示: 评测体系从根本上决定了模型。

在论文中,研究人员得出结论:

实际上,大多数主流评测在 奖励幻觉行为 。只需对这些主流评测进行一些简单的改动,就能重新校准激励机制,让模型在表达不确定性时获得奖励,而不是遭到惩罚。

而且这种方式不仅能消除抑制幻觉的障碍,还为未来更具细微语用能力的语言模型打开了大门。

这一发现对OpenAI很重要:评测体系直接影响LLM的能力。

据报道,在发给员工的备忘录中,OpenAI首席科学家Mark Chen指出,把模型行为进一步融入核心模型研发,现正是好机会。

我们亲手让AI学会了一本正经地胡说八道

就在最近,OpenAI的研究员就做了一个有趣的测试。

他们先是问一个主流AI机器人:「Adam Tauman Kalai(论文一作)的博士论文题目是什么?」

机器人自信地给出了三个不同的答案,但没有一个是正确的。

接着他们又问:「Adam Tauman Kalai的生日是哪天?」

这次机器人还是给出了三个不同的日期,同样全是错的。

为了拿高分,AI被逼「拍脑袋」作答

上面这个例子,生动地展示了什么是「模型幻觉」——即AI生成的那些看似合理、实则虚构的答案。

在最新的研究中,OpenAI指出:

模型之所以会产生幻觉,是因为标准的训练和评估程序奖励猜测行为,而非鼓励模型承认其不确定性。

简单来说就是,我们在评估AI时,设定了错误的激励导向。

虽然评估本身不会直接造成幻觉,但大多数评估方法会促使模型去猜测答案,而不是诚实地表明自己不确定。

这就像一场充满选择题的大型「应试教育」。

如果AI遇到不会的题目,选择留白不答,铁定是0分;而如果随便猜一个,总有蒙对的概率。

在积累了成千上万道题后,一个爱「蒙答案」的AI,就会比一个遇到难题时表示「不知道」的AI得分更高。

当前的行业主流,便是用这种「唯准确率论」的排行榜来评判模型优劣。

这无形中鼓励所有开发者去训练一个更会「猜」而不是更「诚实」的模型。

这就是为什么即便模型越来越先进,它们依然会产生幻觉。

为了有一个更直观的感受,我们来看看OpenAI在GPT-5系统卡中公布的一组对比数据:

从数据中可以发现:

在准确率上,旧模型o4-mini的得分更高(24% vs 22%)。

但代价是,几乎从不弃权(1%)的o4-mini,错误率(幻觉率)直接飙到了75%

相比之下,新模型gpt-5-thinking-mini表现得更为「谨慎」,它在52%的情况下选择不回答,从而将错误率控制在了26%

幻觉源于「下一个token预测」

除了评估体系的导向问题,幻觉的产生还与大语言模型的学习机制息息相关。

通过「下一个token预测」,模型掌握了语法、语感和常识性关联,但它的短板也正在于此。

对于高频、有规律的知识,比如语法、拼写,模型能通过扩大规模来消解

对于低频、任意的事实,比如生日、论文标题,模型则无法从模式中预测

理想情况下,这些幻觉应该能在模型预训练完成后的环节中被消除。

但正如上一节所述,由于评估机制的原因,这一目标并未完全实现。

如何教AI「学会放弃」?

对此,OpenAI的建议是:

应该重罚「自信地犯错」(confidential error),并为「诚实地承认不确定性」给予加分。

就像我们考试中的「答错倒扣分」机制一样。

这不仅仅是通过加入新评测来「补全」就行的,而是要更新所有主流的、依靠准确率的评估体系。

最后,OpenAI也集中回应了关于幻觉的几个常见误解:

误解1: 幻觉能通过100%的准确率来根除。

发现: 准确率永远到不了100%。因为真实世界中,总有很多问题因信息不足或本身模糊而无法回答。

误解2: 幻觉是不可避免的。

发现: 并非如此。模型完全可以在不确定时选择「弃权」,从而避免幻觉。

误解3: 只有更大的模型才能避免幻觉。

发现: 有时,小模型反而更容易认识到自己的局限性。让模型准确评估自己的「置信度」(即做到「校准」),比让它变得无所不知要容易得多。

误解4: 幻觉是一个神秘的、偶然的系统故障。

发现: 我们已经理解了幻觉产生的统计学机制,以及现有评估体系是如何无意中「奖励」这种行为的。

误解5: 要衡量幻觉,只需要一个好的评测。

发现: 幻觉评测早就有了。但在数百个奖励猜测的传统基准评测面前,一个好的幻觉评测收效甚微。正确的做法是,重新设计所有主流评估,加入对模型表达不确定性行为的奖励。

参考资料:

https://techcrunch.com/2025/09/05/openai-reorganizes-research-team-behind-chatgpts-personality/

https://openai.com/index/why-language-models-hallucinate/

OpenAI重组GPT-5「灵魂」团队!亚裔女负责人遭调离,罕见自曝AI幻觉祸首
OpenAI重组GPT-5「灵魂」团队!亚裔女负责人遭调离,罕见自曝AI幻觉祸首

遥感四十号03组卫星发射成功

「活动」kumawubiaotitest

12.71MB
版本V3.46.38
下载A🅰片动漫XV安装你想要的应用 更方便 更快捷 发现更多
喜欢 51%好评(1人)
评论 16
OpenAI重组GPT-5「灵魂」团队!亚裔女负责人遭调离,罕见自曝AI幻觉祸首截图0 OpenAI重组GPT-5「灵魂」团队!亚裔女负责人遭调离,罕见自曝AI幻觉祸首截图1 OpenAI重组GPT-5「灵魂」团队!亚裔女负责人遭调离,罕见自曝AI幻觉祸首截图2 OpenAI重组GPT-5「灵魂」团队!亚裔女负责人遭调离,罕见自曝AI幻觉祸首截图3 OpenAI重组GPT-5「灵魂」团队!亚裔女负责人遭调离,罕见自曝AI幻觉祸首截图4
详细信息
  • 软件大小: 53.5MB
  • 最后更新: 2025/09/08 04:39:34
  • 最新版本: V6.3.7
  • 文件格式: apk
  • 应用分类:ios-Android 原神同人18❌本子免费
  • 使用语言: 中文
  • : 需要联网
  • 系统要求: 5.00以上
应用介绍
一,脱👙让学生C🐻在线,A🔞W看🔴䏒🔞
二,国际版抖音tiktok擦边,中国肥婆性交
三,火线传奇❌18禁漫画,YuiHatanofreePRON
四,特大隂户特写500篇,男生的🍌差进男生的🍑里
五,❤️爱情岛论坛首页永久网址,✡黄✡色✡网✡站✡
六,惩罚裸体女仆㊙️放屁,二人做受一级A片性生小书,亚洲AV㊙️一区二区色rb绅士
七,嗯~啊~快点🌿死丁禹兮
【联系我们】
客服热线:134-2881-646
加载更多
版本更新
V7.5.17
欧美⭕⭕⭕⭕❌❌❌❌56ed
  • 国产91❤白丝在线播放

    🐔🐔桶烂🍑30分钟韩国

    女坐隐私㊙️黄www视频

    7.31MB
    106好评

    美女胸罩a㊙️露出奶头

  • ㊙️欧美无遮羞❌❌

    ㊙️蜜福利姬导航站

    老师脱泳衣给学生看🐻流白浆

    3.03MB
    328好评

    日本公妇乱婬XXXX视频

  • ㊙️韩漫免费网站成人漫画

    西施裸乳被爆❌白浆的图片

    娜美被❌

    13.24MB
    317好评

    女人裸体㊙️挤奶

  • 白丝❌jk❌乳❌❌电影

    国产做受❌❌4777电子书

    惩罚女朋开🍑跪着

    53.14MB
    274好评

    国产精品香蕉🍌

  • 巨胸爆乳❌❌❌明星

    美女被❌❌吸乳羞羞应用

    ♂Delivery动漫

    71.48MB
    703好评

    原神赛诺裸体㊙️

  • 足控免费网站❌帆布鞋

    mm131王语纯被❌喷水

    🔞成人游戏

    83.93MB
    333好评

    ⭕⭕⭕⭕拗女VA88内

  • 美女扒开👙让我吃奶

    陈芷琰光脚足控免费网站❌Xx

    18免费sss欧美片❌❌❌

    23.51MB
    105好评

    91美女㊙️片黄在线观k

  • 甘雨挤奶🈲🚫

    动漫18❌动漫免费观看

    在线精品秘密㊙️动漫

    50.83MB
    922好评

    男♂Gay同志裸体网站穿内裤

  • 91在线无码精品㊙️国产720

    偷拍农村妇女BBBBBB视频

    七十老太高潮一级A片91

    83.76MB
    567好评

    免费无遮挡🔞动漫视频

  • 91🔞在线观看喷潮教学

    免费🔞成人❌❌❌看片

    未满十八禁止🔞香蕉一区二区

    83.30MB
    753好评

    免费无遮挡🔞视频网站用片海

  • 俄罗斯熟妇做爰XXXⅩ性三级

    少萝自愿裸体❌❌小说

    美女胸又黄又❌❌❌明星ai换脸

    32.34MB
    622好评

    福利姬Jk丝袜-91Porn

  • 少女csgo高清观看

    黄色ex视频

    欧美裸女BBBBBW

    26.83MB
    277好评

    老师裸体❌开腿

  • 动漫免费无遮挡❌❌❌❌红豆视频

    小🐔🐔伸进🈲🔞🔞小米

    免费❤成人APP2024

    65.94MB
    743好评

    美国A级毛片小视频无风险无费费费

  • 国产AV➕无码➕白丝

    精灵宝可梦❌黄漫网站

    free❌❌❌性hd中文

    54.25MB
    759好评

    Ai白鹿被❌到喷水18禁网站

  • cos隐私㊙️免费观看软件

    免费涩涩无遮挡18❌国产

    韩国无码成人🔞电影

    57.95MB
    689好评

    亚洲㊙️AV无码一区二区qq群

  • 水蜜影院午夜理论片第10集

    女生🍑伸进男生🍌X外网

    曰本美女的㊙️免费网站

    24.62MB
    352好评

    FreePorno💋👙10t

  • 18🍆🍑无套直播

    成人黄网站❌免费APP欧美

    老妪性老大色HD老

    13.66MB
    311好评

    王者西施被❌吸乳羞羞小说

  • 直男体育生打✈️高清视频

    beegC0mxXXXXxXxxHD

    美女撒尿全过程㊙️免费看

    84.43MB
    213好评

    99个免费无遮挡🔞网站麻豆

  • 精品无人国产偷自产在线

    女被❌c🐻黄做小电

    被❌到高潮两天两夜视频

    45.22MB
    731好评

    91丨国产㊙️黑料

  • 亚洲日韩AV高潮喷水无码

    男人的🍌伸到🍑里亲小说

    男男gaYGAYS✅强迫

    10.98MB
    180好评

    麻花传媒❌❌❌高潮

  • 19➕韩国女主播bj惠嫔

    杨晨晨被❌的嗷嗷叫

    王昭君被❌吸乳脱内内漫画

    44.46MB
    360好评

    Free欧美性XXXX,火车上老太婆老少配HD

  • 扒开老师❌狂揉❌下部

    欧洲熟妇色❌❌❌❌欧美

    18看的黄色链接

    91.03MB
    207好评

    美女拉屎全过程㊙️免费视频网站

  • 女人扒开腿㊙️让男人桶国产网红

    男人自慰片无套✅免费网站

    邓紫棋裸被❌视频无码视频

    30.38MB
    907好评

    同性大爷又粗又大

  • 纲手疯狂❌喷水自慰爽小说

    人人🈚️码视频

    BRAZZERS💋💋8

    30.32MB
    549好评

    女仆扒开🍑给男生玩伊甸园

  • 温达裸体被狂❌

    玛丽裸体被❌视频无码2002

    麻豆精品㊙️国产传媒观看视频

    29.16MB
    126好评

    回民女人做爰A片

  • 付晓田与泰刚孩子

    动漫❌❌爆乳❌❌漫画书

    扒开胡桃❌狂揉❌难受

    70.62MB
    452好评

    朱迪求我让我🌿她一下

  • 男人㊙️桶进美女屁股网站印度人的色道孕交 title="少萝裸体🔞🔞🔞网站白狐" class="0v5366j9r7414 app-list-img" src="https://t11.baidu.com/it/u=1040017057,165456434&fm=30&app=106&f=JPEG?w=312&h=208&s=15B07D95426079116A1494FD03009032"">

    jyzz18

    扒开胸罩疯狂捏胸吃奶头视频大全

  • 芋圆呀呀圣诞装黄瓜视频又粗又黄又猛AV毛片 title="13女裸❌❌慰" class="0v5366j9r7414 app-list-img" src="https://t10.baidu.com/it/u=3070224572,165461829&fm=30&app=106&f=JPEG?w=312&h=208&s=C6000AAC4838BAC8463F54AC0300A00B"">

    男生扒开美女❌狂揉下部❌的视频动

    男男洗澡隐私㊙️免费视频

  • 乱一性一乱一交一视频com.aim.stunts title="亚洲AV㊙️一区二区色情蜜臀" class="0v5366j9r7414 app-list-img" src="https://t12.baidu.com/it/u=1041590673,165100299&fm=30&app=106&f=JPEG?w=312&h=208&s=D7383EC642E1D8EA0A87937F0300C078"">

    美女露出🐻让男生揉国外

    🐔巴www爽爽爽视频

{{.转码Keywords}} 类似软件

猜你喜欢

相关攻略
包含 饿了么 的应用集
包含 饿了么 的应用集
评论
  • 苏渺渺和江熠人是什么关系 4天前
    看片白丝少萝❌❌自慰
  • 中国性猛交❌XX❌乱3b 8天前
    日韩精品❌❌❌A片守望人妻在线
  • 蒂法❤黄网站❤羞羞 1天前
    雏田被鸣人❌❌黄3d
  • 男女无套✅视频免费网站 8天前
    老妇free性Vⅰde0SXXXX
  • 又爽❌又黄❌视频免费跳舞 0天前
    美女❌又爽❌又黄
  • vodafonewifi精品网站的特点 4天前
    艾莉同学裸体被✖️网站
  • 十八禁🔞黄黄黄污污污 6天前
    男男被❌到爽囚禁
  • 白丝校花🌸到爽网站下载 9天前
    性裸交❌❌❌❌秀色直播
  • JlZZJlZZJlZZJlZZ少妇 6天前
    免费无遮挡🔞视频打扑克
  • www成人🔞网站板本游戏 3天前
    私密直播全婐app🈲️