威尼斯2026世界杯中国官网入口南边科技大学等新辩论: 让AI智能体在"锻真金不怕火"中趁机学会认识寰宇

来源：未知作者：admin 发布时间：2026-06-09 13:34 浏览：78

这项由南边科技大学、香港科技大学、香港科技大学（广州）、香港理工大学以及LIGHTSPEED说合开展的辩论，以预印本款式发布于2026年6月，论文编号为arXiv:2606.02388，有深嗜真切了解的读者可通过该编号查询完整论文。

当咱们批驳AI智能体的时候，脑海中透露的往往是那种大致自主操作网页、在杜撰房间里完成任务、或者帮你搜索信息的"数字助手"。考验这类助手的主流方式，叫作念强化学习——说白了，即是让AI不休尝试，作念对了就给奖励，作念错了就扣分，逐步学会哪些举止能拿到高分。这套逻辑听起来很像考验小狗：作念对了给零食，作念错了不给。

然则问题来了：小狗作念了某个动作之后，它会坐窝看到环境的响应——你皱了眉头，或者振作性摸了摸它。但用强化学习考验的AI智能体，经受到的只是"任务完成"或"任务失败"这么的最终评分。至于它每一步操作到底对寰宇变成了什么影响，它险些一无所知。这就像一个厨师只知说念终末这说念菜被评了几分，却完全不了了是哪一步下盐、哪一步翻炒出了问题。昙花一现，厨师可能偶尔作念出佳肴，但永远不会真实认识烹调的旨趣。

辩论团队恰是从这个痛点动身，提议了一个叫作念PaW的考验框架。PaW是"Policy and World modeling co-training"的缩写，直译过来即是"计谋与寰宇建模协同考验"。它的中枢想路通俗而心事：AI智能体在考验过程中本来就会产生广阔"锻真金不怕火纪录"，每一札纪录都包含了"作念了什么动作"以及"之后环境变成了什么花样"。这些信息畴昔只被用来预备分数，而PaW把它们变成了额外的学习材料，让智能体同期学会"揣摸下一步会发生什么"。不需要额外的数据齐集，不需要单独诞生一个模拟器，也不会在本色使用时加多任何预备包袱——过剩的学习就发生在正本的考验过程中，顺遂完成。

一、AI智能体的"只知说念适度，不懂过程"逆境

要认识为什么PaW的出现很迫切，得先搞了了现存考验方式的局限在那儿。

尺度的强化学习考验，就像让一个学生反复作念模拟考题，然后只告诉他最终得益，不给任何理解。学生会逐步摸了了哪类题型容易得分，但他对知识本人的认识可能依然颓残。在AI智能体的场景里，这种残障体现得更为较着：智能体可能学会了某个"法例"——比如在特定情境下输入某个教导往往能拿高分——但它并不真实认识这个教导会对环境产生什么影响。一朝遭受了略微目生的场景，或者某个操作产生了不可逆的后果，它就会堕入苍劲。

辩论团队把这种缺失定名为"寰宇建模才调"的穷乏。所谓寰宇建模，说穿了即是：给智能体一个现时景色和一个缱绻领受的动作，它能揣摸出接下来环境会变成什么样。这听起来像是东说念主类的学问——你知说念掀开雪柜门，雪柜里的东西就会夸耀在你眼前；你知说念搜索"玄色小号T恤"，网页会复返一堆策动商品。但AI智能体淌若穷乏这种预判才调，就会像一个对寰宇运转毫无主见的东说念主一样，只可靠反复试错积聚告诫。

为了弥补这个缺口，学术界也曾有一些探索。一类顺次是单独考验一个"寰宇模子"，动作模拟器来生成伪善的考验轨迹，或者在推理时赞成计划。这类顺次的代价是：你需要额外一套模子、额外一套考验历程，推理时还要多走一遍模拟法子，系统复杂度大幅高潮。另一类顺次是先给模子认真寰宇建模才调，再开动强化学习考验，相等于分两个阶段完成。这相喜悦味着更多的时刻和资源进入，况且两阶段的衔尾本人即是个空泛事。

PaW的想路则完全不同。辩论团队发现，强化学习的考验过程中其实早已藏着广阔的寰宇建模素材，只是没东说念主用过它们。

二、被冷落的"免费课本"：考验轨迹里的矿藏

每一次智能体奉行考验任务，都会留住一段"轨迹纪录"，样式简短如下：现时景色 → 奉行了什么动作 → 赢得了什么奖励 → 环境变成了什么新景色。传统的强化学习只使用前三项——景色、动作、奖励——来更新智能体的计谋。而阿谁"环境变成了什么新景色"，也即是动作之后的不雅测适度，一直被白白丢弃。

辩论团队的中枢瞻念察在于：每一条轨迹中的"动作→新不雅测"配对，自然即是一份寰宇建模的考验样本。只须让智能体学会根据现时景色和动作来揣摸下一步的不雅测，它就在锻真金不怕火认识环境动态。而这份锻真金不怕火材料，每一轮考验都在免费产生，完全不需要额外齐集。

买球投注平台app中国官方下载

具体到工夫杀青，PaW的作念法是：在原有的强化学习蚀本函数（也即是饱读舞智能体遴荐高分动作的计划）以外，添加一个赞成的寰宇建模蚀本函数，条件并吞个模子还要学会揣摸下一步的不雅测文本。两个计划共用并吞套模子参数，在并吞个考验法子里同期优化。由于言语模子自然的"因果介意力"机制——后头的笔墨不成影响前边的揣摸——寰宇建模部分的监督信号不会侵扰计谋决策部分的学习，两者摇尾乞怜。而在本色使用时，模子只需要正常生成动作，完全不需要额外的模拟法子，莫得任何推理支拨。

这就好比一个学厨的学徒，既在锻真金不怕火"下一步该作念什么操作"，又在锻真金不怕火"这个操作之后锅里会发生什么变化"，两件事同期学，用的是并吞套锻真金不怕火材料，用时不变，却多学了一门作业。

不外，正如真实的考验场景里总有各式侵扰身分，这份"免费课本"也远非好意思满干净。辩论团队发现了三个必须经管的本色问题，并为此辞别联想了对应的经管决议。

三、三说念工序，让"免费课本"真刚巧用

第一个问题是：不是统统的动作都值得学。

在某些任务里，智能体会反复奉行并吞类高度详情的操作，比如在杜撰房间里一遍又一随处走向计划物体。这类动作的适度险些是不错完全料到的，对学习环境动态莫得太大匡助，反而会让模子把太多元气心灵花在访佛的、低信息量的样本上。

PaW的第一个联想是"基于动作熵的数据筛选"。所谓"动作熵"，不错认识为智能体在遴荐这个动作时有多纠结——淌若它险些笃定地要选某个动作，熵就低；淌若它对好几个选项都拿不准，熵就高。熵高的动作诠释这个决策点更缺陷、更复杂，其对应的环境响应也更值得学习。PaW会从每轮考验产生的统统轨迹里，只挑出熵最高的那一部分调度样本来作念寰宇建模考验，默许比例是保留75%的高熵样本，丢弃低熵的访佛操作。这么既省俭了预备资源，又保证了寰宇建面容本的质料。

第二个问题是：不雅测文本里频繁搀杂着"噪声"。

论文中举了两个天的确例子。在杜撰家务任务ALFWorld里，相同是"掀开雪柜1"这个动作，在不同的环境实例里，掀开之后看到的东西完全不同——一次内部有杯子、番茄和酒瓶，另一次内部是碗、鸡蛋和马克杯。这种立地性意味着不雅测本人就不是完全可揣摸的。而在网购任务WebShop里，搜索适度里会搀杂广阔商品编号（比如"B09QQP3356"这么的ASIN码）和品牌称呼，这些字符完全立地，压根无法从语义上揣摸。

淌若用尺度的交叉熵蚀本来考验寰宇建模，模子会被动破耗广阔元气心灵去"记取"这些立地字符，因为交叉熵蚀本对低概率揣摸的处分红倍放大，一个险些不可能猜中的立地编号会产生极大的梯度信号，把模子的优化标的带歪。论文中的分析夸耀，在WebShop的场景下，交叉熵蚀本中高达32%的梯度份额来自那些被界说为"噪声"的词元，而MAE蚀本只须14%。

PaW的第二个联想是用"截断MAE蚀本"替代尺度交叉熵。MAE蚀本（均完全罪状蚀本）对低概率揣摸的处分是线性的而非指数级的，自然对难以揣摸的词元更优容。在此基础上，辩论团队还加入了一个置信度截断机制：淌若模子对某个词元的揣摸概率也曾向上了阈值（默许0.2），就合计这个词元也曾学得充足好了，径直从蚀本预备中排斥，不再施加梯度压力。这么一来，模子会专注于那些"还没学会但值得学"的不雅测词元，既不会在立地噪声上浪忙碌气，也不会反复将就我方去"过度顾忌"也曾掌持的内容。

第三个问题是：寰宇建模的赞成考验和强化学习的主考验之间，力量需要动态均衡。

淌若给寰宇建模计划成立一个固定的、较大的权重，它可能会压过疏淡的奖励信号，让强化学习失去主导。但淌若权重太小，赞成考验又险些莫得后果。更缺陷的是，不同的任务组在不同阶段对寰宇建模的需求是不同的——那些奖励很差、任务险些全部失败的考验组，正处于最需要认识环境动态的阶段；而那些也曾大部分顺利的考验组，只需要链接精化计谋就好。

PaW的第三个联想是"奖励自安妥蚀本均衡"。每一组考验轨迹都有一个平均请问，辩论团队根据这个平均请问动态预备寰宇建模的权重：平均请问越低，权重越大；平均请问越高（接近满分），权重越小，让强化学习计划当然占主导。这个机制就像一位灵巧的老师，对基础差的队员多花时刻教学战术旨趣，对也曾打得很好的队员则让他们更多地在实战中检修技能，而不是反复和缓论。

三个联想组合在全部，形成了完整的PaW框架，威尼斯2026世界杯中国官网入口并被编写成一个爽朗的考验算法：每轮考验，先齐集轨迹，然后筛选高熵调度样本，用截断MAE预备寰宇建模蚀本，用奖励自安妥悉数调理权重，终末和强化学习蚀本合并，同期更新模子参数。统统这个词历程不需要额外的模子推理，也不需要额外的数据齐集，比较基础强化学习只加多了约2.1%的考验时刻和2.4%的GPU内存占用。

四、三个战场，PaW的实战得益单

辩论团队在三类不同的任务上评测了PaW的后果，使用的基础模子涵盖了不同畛域和系列，强化学习算法也不啻一种。

第一个战场是杜撰家务任务ALFWorld。这个环境里，智能体需要在杜撰房间中完成六类家务，包括把某件物品捡起放到指定方位、在灯下查验物品、清洗物品、加热物品、冷却物品，以及一次性捡起两件物品。任务最长可达50步，每一步的操作都会对环境景色产生影响，是典型的长序列决策任务。

在1.5B参数畛域的Qwen2.5模子上，搭配GRPO算法，PaW把合座顺利率从70.0%普及到了77.9%，普及了7.9个百分点。搭配更先进的GIGPO算法，合座顺利率从87.6%普及到90.4%，普及2.8个百分点。在7B参数畛域的更大模子上，GRPO搭配PaW从77.6%普及到80.6%，GIGPO搭配PaW从90.8%普及到91.8%。普及幅度随模子才调增强而有所收窄，这是合理的——越犀利的模子本人也曾更接近天花板，普及空间当然更小。

第二个战场是网购任务WebShop。这个环境里，智能体需要在一个包含11万多件商品的杜撰电商平台上，根据用户的购物需求搜索并购买合适的商品，任务最长15步。这个场景的特殊性在于商品页面包含广阔立地文本，恰是前边提到的"噪声不雅测"最严重的方位，亦然截断MAE蚀本施展作用的中枢场景。

适度夸耀，PaW在WebShop上带来了更大的普及。1.5B模子上，GRPO搭配PaW的顺利率从60.6%跃升至68.6%，普及8.0个百分点；GIGPO搭配PaW从66.2%普及至75.3%，普及9.1个百分点。7B模子上，两种算法辞别普及4.0和2.9个百分点。

第三个战场是多轮搜索问答任务。这类任务条件智能体通过多轮调用搜索引擎来复兴问题，掩盖了七个不同的问答数据集，包括单跳问答（一次搜索能复兴的）和多跳问答（需要屡次搜索、综合推理才能复兴的）。在3B和7B畛域的Qwen2.5模子上，PaW对GRPO和GIGPO都带来了健硕的普及，平中分普及幅度在0.9到3.0个百分点之间。

除了这三个主要战场，辩论团队还极度测试了PaW在不同强化学习算法和不同模子眷属上的泛化才调。PPO算法搭配PaW，WebShop顺利率从59.1%普及到65.2%，普及6.1个百分点；RLOO算法搭配PaW从56.7%普及到61.2%，普及4.5个百分点。在模子眷属方面，Qwen3-1.7B搭配PaW普及8.8个百分点，更大的Qwen2.5-14B普及2.4个百分点。这些数据标明PaW不依赖于某种特定算法或模子架构，而是一种广阔适用的增强顺次。

五、当平时强化学习透顶失效，PaW依然能救场

辩论中最引东说念主矜恤的一个发现，是PaW在"平时强化学习压根学不动"的顶点场景下的发达。

用Llama3.2-3B模子在WebShop上作念GRPO考验，适度考验了150步，模子的顺利率长久在0隔邻游荡——险些统统的任务都失败了，奖励信号稀少疏淡，相等于学生作念了150说念题，每次都是零分，完全不知说念我方到底那儿出了错。在这种情况下，强化学习失去了不错学习的信号，考验堕入停滞。

加入PaW之后，情况发生了戏剧性的转移。尽管任务奖励依然爱护，寰宇建模的蚀本却提供了密集的学习信号——模子每一步都在尝试揣摸"奉行这个动作之后，购物网站会夸耀什么"，这个锻真金不怕火不依赖任务是否顺利，只须有景色-动作-新景色的三元组就能进行。通过这种方式，模子逐步积聚了对环境运转方式的认识，最终开动产生顺利的购物轨迹，为强化学习提供了正向奖励信号，考验得以链接推动。最终顺利率从险些为零的4.0%跃升至62.2%，普及了惊东说念主的58.2个百分点。

这个适度揭示了PaW的一个额外价值：它不单是是对也曾在学的强化学习的惜墨如金，还不错在疏淡奖励的贫苦场景下上演"引路东说念主"的脚色，匡助智能体从零开动找到学习的标的。

六、消融推行：三个联想不可偏废

辩论团队还作念了一系列消融推行，极度考证PaW三个中枢联想的各自孝敬。

淌若把奖励自安妥权重去掉，改为对统统考验组使用固定的权重1，ALFWorld顺利率从77.9%下落到75.5%，WebShop从68.6%下落到67.0%。两项任务都下落了，诠释自安妥权重如实有助于均衡赞成考验和主考验之间的关连。

更大的影响来自蚀本函数的遴荐。淌若把截断MAE蚀本换回尺度的交叉熵蚀本，ALFWorld顺利率从77.9%骤降至68.5%，WebShop从68.6%骤降至57.2%——后者以至比莫得PaW的基础GRPO（60.6%）还要差。这个适度稀少赫然：在有噪声不雅测的环境里，诞妄的蚀本函数不仅帮不上忙，反而会负担主任务的学习。交叉熵蚀本对立地噪声词元的过度处分，会把模子的优化资源引向诞妄的标的，导致计谋学习受损。

辩论团队还测试了熵遴荐比例α和截断阈值ρ两个超参数的明锐性。适度夸耀，在较宽的参数畛域内（α从0.25到1.0，ρ从0.0到0.8），PaW都能带来比基础GRPO更好的得益，最好值辞别在α=0.75和ρ=0.2隔邻。这意味着PaW对超参数不是稀少明锐，不需要雅致调理也能职责。

说到底，PaW作念的事情不错用一句话轮廓：它发现了强化学习考验过程中被持久冷落的"边角料"，把它们变成了有价值的学习材料，匡助智能体在锻真金不怕火"作念什么"的同期顺带学会了"作念了会怎样"。这种双管王人下的考验方式，不需要额外的资本，却带来了实实在在的才调普及。

关于平时东说念主而言，这项辩论的意旨在于：将来那些帮你购物、帮你查府上、帮你操作电脑的AI助手，可能会因为类似的考验方式而变得愈加灵巧肃穆，不仅知说念该作念什么，还真实认识每一步操作会带来什么后果——而这种认识，恰是让AI助手在复杂、真实的任务中不出错的缺陷。

虽然，辩论团队也坦诚地指出了现时框架的局限。PaW当今只学习"下一步的不雅测"，关于更长期的多步影响链条，还莫得显式建模。在某些任务里，一个动作的真实影响可能要好几步之后才会体现，这部分才调还需要将来的职责来探索。此外，考验轨迹中可能存在广阔访佛的旅途，这会使寰宇建模的学习样本产生偏差，怎样引入各样性采样亦然一个值得真切的标的。感深嗜的读者不错通过arXiv:2606.02388查阅完整论文，了解统统工夫细节。

Q&A

Q1：PaW框架是什么，和平时强化学习考验有什么不同？

A：PaW是一种计谋与寰宇建模协同考验框架。平时强化学习只用"作念了什么动作、得了几许分"来更新模子，而PaW额外讹诈了考验过程中产生的"动作之后环境变成什么样"这一信息，让模子同期学会揣摸下一步的环境景色。统统这个词过程共用并吞套考验数据，不需要额外的模子或数据齐集，推理时也莫得任何额外支拨。

Q2：截断MAE蚀本为什么比交叉熵蚀本更安妥寰宇建模考验？

A：在网购、家务等真实环境里，不雅测文本中包含广阔立地字符（如商品编号、品牌名等），压根无法从语义上揣摸。尺度交叉熵蚀本对这类低概率揣摸的处分会成倍放大，导致模子把广阔优化资源花在"记噪声"上，反而侵扰了主任务的计谋学习。截断MAE蚀本对低概率词元的处分是线性的，加上置信度截断机制，只矜恤"还没学会且值得学"的内容，幸免了这种侵扰，推行夸耀替换蚀本函数后WebShop顺利率普及向上11个百分点。

Q3：PaW在强化学习完全学不动的情况下的确灵验吗？

A：有实考把柄维持。用Llama3.2-3B模子在WebShop上作念平时GRPO考验，考验150步后顺利率仍接近零，奖励信号稀少疏淡，考验堕入停滞。加入PaW后，寰宇建模蚀本提供了密集的学习信号——每一步都在揣摸环境变化威尼斯2026世界杯中国官网入口，不依赖任务是否顺利。模子借此积聚了对环境的认识，逐步产生顺利轨迹，最终顺利率从4.0%跃升至62.2%，普及了58.2个百分点。

威尼斯2026世界杯中国官网入口 南边科技大学等新辩论: 让AI智能体在&quot;锻真金不怕火&quot;中趁机学会认识寰宇

威尼斯2026世界杯中国官网入口南边科技大学等新辩论: 让AI智能体在"锻真金不怕火"中趁机学会认识寰宇