2025/09/07 03:05:50 1,204次浏览

新智元报道

编辑:KingHZ 好困

【新智元导读】OpenAI重磅结构调整:ChatGPT「模型行为」团队并入Post-Training,前负责人Joanne Jang负责新成立的OAI Labs。而背后原因,可能是他们最近的新发现:评测在奖励模型「幻觉」,模型被逼成「应试选手」。一次组织重组+评测范式重构,也许正在改写AI的能力边界与产品形态。

就在刚刚, OpenAI决定 —— 重组 ChatGPT「个性」研究团队 !

这个约14人的小组,规模虽小但责任重大——他们要负责让GPT模型知道该怎么和人类进行交互。

根据内部消息,模型行为团队(Model Behavior team)将直接并入后训练团队(Post-Training team),并向后训练负责人Max Schwarzer汇报。

团队前负责人Joanne Jang,从头开始新的实验室「OAI Labs」——为人类与AI的协作方式,发明并构建新的交互界面原型。

与此同时,OpenAI还非常罕见地发了一篇论文揭秘——让AI产生「幻觉」的罪魁祸首,就是我们自己!

整个行业为了追求高分排行榜而设计的「应试」评估体系,迫使AI宁愿去猜测答案,也不愿诚实地说出「我不知道」。

论文地址:https://openai.com/index/why-language-models-hallucinate/

超现实的一天

模型行为团队 几乎参与了GPT-4后的全部模型研发,包括GPT-4o、GPT-4.5以及GPT-5。

上周,作为 Model Behavior 团队负责人的Joanne Jang,登上 《时代》百大AI人物榜单 的「思想家」(Time AI 100 Thinkers),超越图灵奖得主、深度学习三巨头之一的Yoshua Bengio、谷歌首席科学家Jeffrey Dean等大佬。

就在同一天,OpenAI决定将她从 团队调离,自己去负责一个新的方向。

对她而言,那天的确是「超现实」

Joanne Jang认为,她的工作核心在于「赋能用户去实现他们的目标」,但前提是不能造成伤害或侵犯他人的自由。

她直言:AI实验室的员工不应该成为决定人们能创造什么、不能创造什么的仲裁者

开启新征程:瞄准下一代AI交互

刚刚,Joanne Jang发文表示她已有新的工作职位:发明和原型化全新的交互界面,探索人与AI协作的未来方式。

她将从头开始负责新的OAI Labs实验室:一个以研究为驱动的团队,致力于为人类与AI的协作方式,发明和构建新界面的原型。

借此平台,她将探索超越聊天、甚至超越智能体的新模式——迈向能够用于思考、创造、娱乐、学习、连接与实践的全新范式与工具。

这让她无比兴奋,也是过去四年在OpenAI她最享受的工作:

把前沿能力转化为面向世界的产品,并与才华横溢的同事们一起打磨落地。

从DALL·E 2、标准语音模式,到GPT-4与模型行为,她在OpenAI的工作涵盖不同的个性化与交互方式。

她学到了很多,体会深刻:

塑造一个界面,是多么能够激发人们去突破想象的边界。

在接受采访时,她坦言,现在还在早期阶段,究竟会探索出哪些全新的交互界面,还没有明确答案。

我非常兴奋能去探索一些能突破「聊天」范式的模式。聊天目前更多与陪伴相关;而「智能体」则强调自主性。

但我更愿意把AI系统视为思考、创造、游戏、实践、学习和连接的工具。

OpenAI的模型行为研究员,负责设计和开发评测体系(evals),横跨多个环节:

对齐(alignment)、训练、数据、强化学习(RL)以及后训练(post-training)等。

除了研究本身, 模型行为研究员 还需要具备对产品的敏锐直觉,以及对经典AI对齐问题的深刻理解。

OpenAI对模型行为研究员的经验要求

在之前的招聘中,OpenAI称: 模型即产品,而评测体系就是模型的灵魂 。

但OpenAI最新发布的研究显示: 评测体系从根本上决定了模型。

在论文中,研究人员得出结论:

实际上,大多数主流评测在 奖励幻觉行为 。只需对这些主流评测进行一些简单的改动,就能重新校准激励机制,让模型在表达不确定性时获得奖励,而不是遭到惩罚。

而且这种方式不仅能消除抑制幻觉的障碍,还为未来更具细微语用能力的语言模型打开了大门。

这一发现对OpenAI很重要:评测体系直接影响LLM的能力。

据报道,在发给员工的备忘录中,OpenAI首席科学家Mark Chen指出,把模型行为进一步融入核心模型研发,现正是好机会。

我们亲手让AI学会了一本正经地胡说八道

就在最近,OpenAI的研究员就做了一个有趣的测试。

他们先是问一个主流AI机器人:「Adam Tauman Kalai(论文一作)的博士论文题目是什么?」

机器人自信地给出了三个不同的答案,但没有一个是正确的。

接着他们又问:「Adam Tauman Kalai的生日是哪天?」

这次机器人还是给出了三个不同的日期,同样全是错的。

为了拿高分,AI被逼「拍脑袋」作答

上面这个例子,生动地展示了什么是「模型幻觉」——即AI生成的那些看似合理、实则虚构的答案。

在最新的研究中,OpenAI指出:

模型之所以会产生幻觉,是因为标准的训练和评估程序奖励猜测行为,而非鼓励模型承认其不确定性。

简单来说就是,我们在评估AI时,设定了错误的激励导向。

虽然评估本身不会直接造成幻觉,但大多数评估方法会促使模型去猜测答案,而不是诚实地表明自己不确定。

这就像一场充满选择题的大型「应试教育」。

如果AI遇到不会的题目,选择留白不答,铁定是0分;而如果随便猜一个,总有蒙对的概率。

在积累了成千上万道题后,一个爱「蒙答案」的AI,就会比一个遇到难题时表示「不知道」的AI得分更高。

当前的行业主流,便是用这种「唯准确率论」的排行榜来评判模型优劣。

这无形中鼓励所有开发者去训练一个更会「猜」而不是更「诚实」的模型。

这就是为什么即便模型越来越先进,它们依然会产生幻觉。

为了有一个更直观的感受,我们来看看OpenAI在GPT-5系统卡中公布的一组对比数据:

从数据中可以发现:

在准确率上,旧模型o4-mini的得分更高(24% vs 22%)。

但代价是,几乎从不弃权(1%)的o4-mini,错误率(幻觉率)直接飙到了75%

相比之下,新模型gpt-5-thinking-mini表现得更为「谨慎」,它在52%的情况下选择不回答,从而将错误率控制在了26%

幻觉源于「下一个token预测」

除了评估体系的导向问题,幻觉的产生还与大语言模型的学习机制息息相关。

通过「下一个token预测」,模型掌握了语法、语感和常识性关联,但它的短板也正在于此。

对于高频、有规律的知识,比如语法、拼写,模型能通过扩大规模来消解

对于低频、任意的事实,比如生日、论文标题,模型则无法从模式中预测

理想情况下,这些幻觉应该能在模型预训练完成后的环节中被消除。

但正如上一节所述,由于评估机制的原因,这一目标并未完全实现。

如何教AI「学会放弃」?

对此,OpenAI的建议是:

应该重罚「自信地犯错」(confidential error),并为「诚实地承认不确定性」给予加分。

就像我们考试中的「答错倒扣分」机制一样。

这不仅仅是通过加入新评测来「补全」就行的,而是要更新所有主流的、依靠准确率的评估体系。

最后,OpenAI也集中回应了关于幻觉的几个常见误解:

误解1: 幻觉能通过100%的准确率来根除。

发现: 准确率永远到不了100%。因为真实世界中,总有很多问题因信息不足或本身模糊而无法回答。

误解2: 幻觉是不可避免的。

发现: 并非如此。模型完全可以在不确定时选择「弃权」,从而避免幻觉。

误解3: 只有更大的模型才能避免幻觉。

发现: 有时,小模型反而更容易认识到自己的局限性。让模型准确评估自己的「置信度」(即做到「校准」),比让它变得无所不知要容易得多。

误解4: 幻觉是一个神秘的、偶然的系统故障。

发现: 我们已经理解了幻觉产生的统计学机制,以及现有评估体系是如何无意中「奖励」这种行为的。

误解5: 要衡量幻觉,只需要一个好的评测。

发现: 幻觉评测早就有了。但在数百个奖励猜测的传统基准评测面前,一个好的幻觉评测收效甚微。正确的做法是,重新设计所有主流评估,加入对模型表达不确定性行为的奖励。

参考资料:

https://techcrunch.com/2025/09/05/openai-reorganizes-research-team-behind-chatgpts-personality/

https://openai.com/index/why-language-models-hallucinate/

OpenAI重组GPT-5「灵魂」团队!亚裔女负责人遭调离,罕见自曝AI幻觉祸首
OpenAI重组GPT-5「灵魂」团队!亚裔女负责人遭调离,罕见自曝AI幻觉祸首

意大利女排3比2巴西女排

「活动」kumawubiaotitest

3.71MB
版本V3.2.38
下载xxnx👙老师安装你想要的应用 更方便 更快捷 发现更多
喜欢 51%好评(8人)
评论 16
OpenAI重组GPT-5「灵魂」团队!亚裔女负责人遭调离,罕见自曝AI幻觉祸首截图0 OpenAI重组GPT-5「灵魂」团队!亚裔女负责人遭调离,罕见自曝AI幻觉祸首截图1 OpenAI重组GPT-5「灵魂」团队!亚裔女负责人遭调离,罕见自曝AI幻觉祸首截图2 OpenAI重组GPT-5「灵魂」团队!亚裔女负责人遭调离,罕见自曝AI幻觉祸首截图3 OpenAI重组GPT-5「灵魂」团队!亚裔女负责人遭调离,罕见自曝AI幻觉祸首截图4
详细信息
  • 软件大小: 69.257MB
  • 最后更新: 2025/09/07 03:05:50
  • 最新版本: V6.807.7
  • 文件格式: apk
  • 应用分类:ios-Android 把开美女❌狂揉❌
  • 使用语言: 中文
  • : 需要联网
  • 系统要求: 5.69以上
应用介绍
一,男男冖❌❌❌无套,骇爪裸身被❌羞羞漫画'
二,蜜臀⭐️色欲国产AV毛片,打女白嫩❌光屁屁
三,3D女胸乳❌❌❌,赫敏18❌黄漫画
四,XXX日本浴室性爱XX,中国小鲜肉gary2023的歌词
五,日❌❌老师❌❌奶头写真,打扑克爽❌又黄❌视频网站
六,樱花🌸动漫在线观看,女学生喷浆❌❌❌直播,女人隐私㊙️图片无内裤
七,富婆按摩XXXⅩ私密视频
【联系我们】
客服热线:134-2881-646
加载更多
版本更新
V7.5.17
国精产品一二三区区污污aaal
  • 芙宁娜裸体被❌调教小说

    91丨国产丨熟女♥

    强❌乳喷水自慰爽羞羞漫画

    2.76MB
    103好评

    "18🈲🍆🍆🍆🍆网站"′

  • 3D裸体❌❌❌videos

    白鹿ai换脸爆乳爆❌

    ⚠️羞羞漫画网站入口

    3.21MB
    23好评

    爱潮直播app下载

  • 🐔伸进🍑

    成人无码www樱桃影视

    日本爆乳㊙️

    13.70MB
    312好评

    捷克美女性爱色

  • 国产亚洲A片无🈚码导航

    女子撒尿全过程㊙️偷拍

    成人🔞色情男男直播软件

    53.46MB
    275好评

    中国耄耋老太性视频HD

  • 揉我奶头⋯啊⋯嗯高潮口述

    讨厌的公夜袭敢出声的原因

    18🈲白乳女

    71.94MB
    706好评

    动漫女仆被爆❌动漫

  • 快点🌿死丁程鑫

    无码人妻AⅤ一区二区三区A片必

    半夜把亲妺妺c高潮了作文

    83.03MB
    330好评

    扒开腿㊙️让人桶爽漫画

  • 日本肉体裸交❌❌❌❌作用日本熟婦

    奶头又大又❌又白喷奶水古代女

    小受扩张器支撑器冰块棉签

    23.48MB
    106好评

    美女脱内衣露㊙️视频

  • 扒看女生🍑X入🍌软件

    原神娜维娅裸体被❌涩涩

    欧美性XXXX极品高清HD直播

    50.19MB
    920好评

    吸🐻黄片

  • 中国人日逼

    男生裸体被❌羞羞视频网站

    18🈲️在线搜索

    83.24MB
    561好评

    二次元美女被❌侵犯

  • 欧美性生活xxXXXxXxxx

    温迪本子R18禁🈲

    FreeHD18❌❌❌韩国

    83.12MB
    752好评

    男生用j㊙️桶美女屁股

  • 胡桃🈲️🔞黄网站3d片蓝莓视频

    美女裸体❌开腿羞羞私房照电影

    91水白嫩网站❌喷水男同

    32.50MB
    621好评

    Free❌㐅❌性HD水上乐园

  • 巨胸动漫美女❌秘挤奶视频

    国精产品一区一区二区三区神宫寺

    裸体美女跪床光屁屁❌软件

    26.85MB
    276好评

    男女裸体性婬乱A片大全

  • 亚洲精品网站🔞在线播放glf

    打白嫩美女㊙️屁股网站

    FutaFuck♥XXX♥furry

    65.23MB
    742好评

    国产17精品㊙️入口蝌蚪

  • 星穹铁道花火裸体❌开腿

    国产粉嫩护士第一次

    王语纯被❌视频

    54.04MB
    752好评

    动漫❌❌爆乳❌❌漫画书

  • 女学生被❌c🐻扒衣在线观看

    美女隐私㊙️黄www萌

    欧美金发美女性爱一区二区三区在线观看

    57.35MB
    689好评

    男女无遮挡❌大尺度

  • 欧美人禽zOz0与zOz0

    美女羞羞❌❌手游

    女被狂揉下部❌羞羞视频

    24.85MB
    356好评

    91娜娜洗衣机❌羞羞网站

  • www.免费视频🔞🔞🔞

    在上课~~轻点〜嗯〜啊动漫

    符玄被❌到爽流白浆

    13.16MB
    315好评

    XXXHD♥💋

  • 扒腿㊙️自慰

    无尽❌裸体❌大胸❌游戏

    蜜桃㊙️av一站二站三站

    84.00MB
    213好评

    好•色•先•生TV免费下载

  • jk扒开胸罩㊙️露出奶头

    美女裸体㊙️无遮挡奶胸视频

    申鹤女被❌🐻扒衣服视频

    45.11MB
    739好评

    国产精品❌❌❌蜜

  • 火影忍者花火被❌爆乳图片

    18㊙️视频在线观看网站

    冉冉学姐糖心logo

    10.47MB
    183好评

    少妇被c🔞黄❌在线网站蜜桃

  • 用力挤🐻夹男人的🍌

    撒尿❌free❌性❌hd

    HD玩老熟妇BWXXXX仙踪林

    44.66MB
    361好评

    国产➕又黄➕视频又爽

  • jiZZ18大全

    扒开3D老师❌狂揉❌视频

    国产x9x9x9x9x9x任意槽

    91.81MB
    200好评

    瑶被狂揉下部❌羞羞

  • 纲手被爆❌自慰爽naruto堂

    小心超人被伽罗❌到爽羞羞漫画

    成人18🈲AA黄漫免费观看

    30.32MB
    906好评

    私人订制舞蹈录屏网站

  • 美女把🍑撅起来给男人玩

    阿拉伯少妇❌乂x乂性

    小舞裸体❌开腿露出桃子的软件

    30.25MB
    548好评

    蹭蹭⋯好紧⋯宝贝别夹H快穿

  • 心悦心苹果版本下载官网

    好爽⋯好紧⋯宝贝夹住了电影

    AI裸被❌视频

    29.16MB
    123好评

    宁荣荣3D❌禁漫在线看

  • 少萝㊙️免费裸体视频

    中国的女孩去到toiIet1-

    男男Gay🔞成

    70.59MB
    458好评

    成人❌拔❌拔18网站在线观看

  • 成人🔞涩涩小片视频在线成熟丰满女人A片 title="国产做受❌❌❌入口网站" class="0v5366j9r7414 app-list-img" src="https://t11.baidu.com/it/u=1040017057,165456434&fm=30&app=106&f=JPEG?w=312&h=208&s=15B07D95426079116A1494FD03009032"">

    火影18+㊙️黄漫app

    羞羞❌yuguang无邪恶

  • 女人被扒开❌疯狂揉动打美女白嫩㊙️光屁屁视频网站 title="芙宇娜被X🐻黄漫扒衣服" class="0v5366j9r7414 app-list-img" src="https://t10.baidu.com/it/u=3070224572,165461829&fm=30&app=106&f=JPEG?w=312&h=208&s=C6000AAC4838BAC8463F54AC0300A00B"">

    ♥樱桃视频a在线♥18

    91麻豆精品秘密㊙️入口在线

  • 千仞雪被❌调教奶头男18🈲无遮挡脱了内裤网站 title="男生自愿露jiji㊙️" class="0v5366j9r7414 app-list-img" src="https://t12.baidu.com/it/u=1041590673,165100299&fm=30&app=106&f=JPEG?w=312&h=208&s=D7383EC642E1D8EA0A87937F0300C078"">

    叶舒华被❌到露白浆

    老师让我❌她我爽了动漫

{{.转码Keywords}} 类似软件

猜你喜欢

相关攻略
包含 饿了么 的应用集
包含 饿了么 的应用集
评论
  • 唐舞桐裸体被❌ 6天前
    涂山雅雅被啪❌视频
  • 3D动漫同人18❌动漫观看 3天前
    原神18❌AV羞羞漫画
  • 小🐔🐔伸进🈲🔞🔞波萝 8天前
    欧美❌❌❌❌❌❌JAPP
  • 男人将手伸向女人的㊙️花园 3天前
    tube4在线观看电视
  • 黄昏和约尔动漫做❌出白浆 3天前
    青少年男女自慰18㊙️免费
  • 女仆狂揉下部❌羞羞动漫 1天前
    小乔被❌🐻黄漫扒衣服
  • 脱👙让学生C🐻-百度-百度 9天前
    扒开老师❌狂揉❌桃花岛动漫
  • 成人扒开🍑伸进🍌❌91b站 2天前
    宝青坊主❌自慰同人
  • 美女隐私㊙️黄www网站免费 1天前
    XXX69一18HD一13
  • 开美女❌狂揉❌真人91 0天前
    性Videos❌