午夜精品无码一区二区三区_亚洲国产成人精品日韩_亚洲日本AⅤ精品一区二区在线看_国产又粗又大又硬又色又爽毛片

國投新游網(wǎng)-最新游戲免費(fèi)安裝下載-熱門手游攻略分享-實(shí)用的手游教程大全
當(dāng)前位置: 網(wǎng)站首頁 新游攻略 正文

克服獎(jiǎng)勵(lì)欺騙:Meta-發(fā)布全新后訓(xùn)練方式-CGPO-編程水平直升-5%-打破-RLHF-瓶頸

來源:國投新游網(wǎng) 發(fā)布時(shí)間:2024-11-12 11:09:07

CGPO 框架通過混合評(píng)審機(jī)制和約束優(yōu)化器,有效解決了 RLHF 在多任務(wù)學(xué)習(xí)中的獎(jiǎng)勵(lì)欺騙和多目標(biāo)優(yōu)化問題,顯著提升了語言模型在多任務(wù)環(huán)境中的表現(xiàn)。CGPO 的設(shè)計(jì)為未來多任務(wù)學(xué)習(xí)提供了新的優(yōu)化路徑,有望進(jìn)一步提升大型語言模型的效能和穩(wěn)定性。

克服獎(jiǎng)勵(lì)欺騙

近年來,隨著大規(guī)模語言模型(LLMs)的發(fā)展,特別是通用大模型的應(yīng)用場(chǎng)景愈發(fā)廣泛,RLHF 逐漸成為調(diào)整和優(yōu)化語言模型輸出的主流方法。

盡管 RLHF 在處理復(fù)雜任務(wù)時(shí)表現(xiàn)出色,但其在多任務(wù)學(xué)習(xí)(MTL)中的表現(xiàn)卻受限于「獎(jiǎng)勵(lì)欺騙」以及多目標(biāo)優(yōu)化中的矛盾問題。

傳統(tǒng)的 RLHF 方法依賴于線性組合的獎(jiǎng)勵(lì)模型,不僅需要人工調(diào)參,且容易導(dǎo)致模型被某一任務(wù)的獎(jiǎng)勵(lì)優(yōu)化「誤導(dǎo)」。

最近 Meta GenAI 和 FAIR 團(tuán)隊(duì)提出了一個(gè)全新的后訓(xùn)練范式 ——Constrained Generative Policy Optimization (CGPO),通過引入「混合評(píng)審機(jī)制」(Mixture of Judges, MoJ)與高效的約束優(yōu)化器,全面提升了 RLHF 在多任務(wù)環(huán)境中的表現(xiàn)。

克服獎(jiǎng)勵(lì)欺騙

論文鏈接:https://arxiv.org/ pdf/2409.20370

實(shí)驗(yàn)結(jié)果表明,CGPO 能夠根據(jù)任務(wù)的不同需求靈活調(diào)整優(yōu)化策略,并通過多任務(wù)梯度累積來實(shí)現(xiàn)模型的更新,使其在處理不同任務(wù)時(shí)均能達(dá)到最佳表現(xiàn)。

CGPO 框架:打破 RLHF 瓶頸的全新設(shè)計(jì)

CGPO 的核心在于它突破了傳統(tǒng) RLHF 對(duì)多任務(wù)學(xué)習(xí)的局限性,尤其是在獎(jiǎng)勵(lì)優(yōu)化與任務(wù)目標(biāo)沖突之間找到了新的平衡。通過混合評(píng)審機(jī)制,CGPO 能夠有效識(shí)別并消除「獎(jiǎng)勵(lì)欺騙」行為,即模型在某些任務(wù)中過度優(yōu)化特定的獎(jiǎng)勵(lì)指標(biāo),進(jìn)而導(dǎo)致其他任務(wù)的表現(xiàn)下降。

此外,CGPO 的約束優(yōu)化器具備自動(dòng)化調(diào)節(jié)能力,使其可以在不依賴人工經(jīng)驗(yàn)的情況下,找到不同任務(wù)間的最優(yōu)平衡點(diǎn)。

CGPO 采用了基于規(guī)則和 LLM 的雙重評(píng)審機(jī)制。在規(guī)則評(píng)審中,預(yù)先定義的規(guī)則能夠有效檢測(cè)出模型生成結(jié)果是否符合任務(wù)需求,如解決數(shù)學(xué)問題的正確性、代碼生成的準(zhǔn)確性等;而 LLM 評(píng)審則利用語言模型的內(nèi)在判斷能力,檢測(cè)生成內(nèi)容的事實(shí)性、響應(yīng)的安全性等,這對(duì)于處理復(fù)雜對(duì)話和開放性問題尤為重要。

克服獎(jiǎng)勵(lì)欺騙

CGPO 的核心貢獻(xiàn)

CGPO 的設(shè)計(jì)從根本上解決了 RLHF 在多任務(wù)優(yōu)化中的兩大難題:

1. 獎(jiǎng)勵(lì)欺騙的防范

CGPO 通過混合評(píng)審機(jī)制,在模型生成的過程中持續(xù)監(jiān)控獎(jiǎng)勵(lì)欺騙行為,保證模型不會(huì)過度優(yōu)化某一任務(wù)的獎(jiǎng)勵(lì),而犧牲其他任務(wù)的表現(xiàn)。不同于傳統(tǒng) RLHF 方法,CGPO 能夠智能檢測(cè)出不合規(guī)的生成內(nèi)容,并通過約束策略進(jìn)行調(diào)整。

2. 極端多目標(biāo)優(yōu)化問題的解決

多任務(wù)學(xué)習(xí)通常涉及多個(gè)甚至沖突的目標(biāo),傳統(tǒng)的 RLHF 框架難以處理這些目標(biāo)之間的平衡。而 CGPO 通過為每個(gè)任務(wù)單獨(dú)設(shè)定評(píng)審和優(yōu)化器,確保各任務(wù)能夠獨(dú)立優(yōu)化其目標(biāo),避免了不同任務(wù)目標(biāo)之間的相互妥協(xié)。最終,CGPO 為多任務(wù)學(xué)習(xí)提供了更優(yōu)的帕累托前沿解。

技術(shù)亮點(diǎn):三大優(yōu)化器與多評(píng)審機(jī)制

CGPO 引入了三種主要的 RLHF 約束優(yōu)化器 ——Calibrated Regularized Policy Gradient(CRPG)、Constrained Regularized Reward Ranking Finetuning(CRRAFT)、Constrained Online DPO(CODPO),這些優(yōu)化器不僅有效解決了 RLHF 中的多任務(wù)優(yōu)化難題,還具備強(qiáng)大的擴(kuò)展性,適用于各種規(guī)模的 LLM 訓(xùn)練場(chǎng)景。

    1. CRPG 優(yōu)化器:通過結(jié)合獎(jiǎng)勵(lì)建模與約束調(diào)整,確保模型生成高質(zhì)量響應(yīng),同時(shí)防止偏離既定約束。實(shí)驗(yàn)中,CRPG 在數(shù)學(xué)、編程等需要精確計(jì)算和邏輯推理的任務(wù)中表現(xiàn)尤為突出。

    2. CRRAFT 優(yōu)化器:通過獎(jiǎng)勵(lì)排名策略,只保留滿足所有約束條件的生成結(jié)果,同時(shí)提升獎(jiǎng)勵(lì)值。該優(yōu)化器在真相問答、指令跟隨等任務(wù)中表現(xiàn)出色。

    3. CODPO 優(yōu)化器:通過直接偏好優(yōu)化,使得高獎(jiǎng)勵(lì)值且符合約束的生成結(jié)果得以保留,提升模型整體表現(xiàn)。

    CGPO 處理多任務(wù)場(chǎng)景

    在多任務(wù)環(huán)境下,CGPO 通過“獎(jiǎng)勵(lì)模型 + 多任務(wù)判定器 (MoJs) + 優(yōu)化器”的組合,為每個(gè)任務(wù)提供量身定制的對(duì)齊指導(dǎo),從而更好地適應(yīng)每個(gè)任務(wù)的獨(dú)特特性,增加實(shí)現(xiàn)最優(yōu)對(duì)齊結(jié)果的可能性。CGPO 框架的核心包括兩個(gè)部分:多目標(biāo)獎(jiǎng)勵(lì)建模和多專家對(duì)齊。

    1. 多目標(biāo)獎(jiǎng)勵(lì)建模

    CGPO 的多目標(biāo)獎(jiǎng)勵(lì)建模不同于傳統(tǒng) RLHF(在多目標(biāo)場(chǎng)景中的方法。傳統(tǒng)方法通常為所有任務(wù)使用統(tǒng)一的線性組合獎(jiǎng)勵(lì)模型,而 CGPO 則先將提示集 D 按照性質(zhì)分類為不同、不重疊的子集,即 D = {D1, D2,..., DL},每個(gè)子集 Di 對(duì)應(yīng)一個(gè)特定任務(wù),例如包含有害意圖的提示歸為“有害意圖”任務(wù),而一般對(duì)話提示歸為「普通對(duì)話」任務(wù)。

    然后,針對(duì)每個(gè)任務(wù),選擇一個(gè)合適的獎(jiǎng)勵(lì)模型進(jìn)行訓(xùn)練,以確保每個(gè)任務(wù)在優(yōu)化過程中只關(guān)注自身的目標(biāo)指標(biāo),避免其他任務(wù)目標(biāo)的干擾。通過這種分類和獎(jiǎng)勵(lì)模型定制,CGPO 能更好地排除不相關(guān)或相互矛盾的目標(biāo),從而提高在每個(gè)任務(wù)中達(dá)成最優(yōu)結(jié)果的可能性。

    2. 多專家對(duì)齊

    多專家對(duì)齊是指為每個(gè)任務(wù)應(yīng)用定制化的多任務(wù)判定器(MoJs)、獎(jiǎng)勵(lì)模型和優(yōu)化器設(shè)置。在每個(gè)任務(wù)生成樣本后,使用專門為該任務(wù)定制的判定器來篩選不符合標(biāo)準(zhǔn)的生成結(jié)果。判定器的選擇因任務(wù)而異,以反映各獎(jiǎng)勵(lì)模型的具體缺點(diǎn)和對(duì) LLM 的預(yù)期標(biāo)準(zhǔn)。

    例如,在「普通對(duì)話」任務(wù)中,判定器會(huì)專注于評(píng)估回復(fù)的真實(shí)性和拒答情況,從而提升模型的響應(yīng)性和可靠性。

    克服獎(jiǎng)勵(lì)欺騙

    而在「推理」任務(wù)中,則使用基于規(guī)則的數(shù)學(xué) / 編程判定器,以確保輸出的準(zhǔn)確性。在有約束要求且需要更廣泛探索的任務(wù)(如指令跟隨、數(shù)學(xué)和編程)中,CGPO 會(huì)采用較寬松的 KL 閾值,并允許每個(gè)提示生成更多的樣本;而在不需要廣泛探索的任務(wù)(如普通對(duì)話)中,則使用更嚴(yán)格的 KL 閾值,并減少生成樣本的數(shù)量。

    CGPO 在每次迭代中處理各個(gè)任務(wù),基于任務(wù)特定的提示集、獎(jiǎng)勵(lì)模型、判定器來計(jì)算更新的梯度,然后將所有任務(wù)的梯度累加,并結(jié)合預(yù)定義的任務(wù)權(quán)重更新模型參數(shù)。通過這種方式 CGPO 能在多任務(wù)、多約束的環(huán)境中高效地實(shí)現(xiàn)各任務(wù)之間的平衡與對(duì)齊,優(yōu)化每個(gè)任務(wù)的獨(dú)特目標(biāo)。

    最終,CGPO 的設(shè)計(jì)使其能夠在多任務(wù)環(huán)境中更靈活地適應(yīng)不同任務(wù)的需求,達(dá)成更高效的對(duì)齊和優(yōu)化效果。

    實(shí)驗(yàn)驗(yàn)證:CGPO 的顯著性能提升

    在多項(xiàng)任務(wù)的測(cè)試中,CGPO 展現(xiàn)了顯著的性能優(yōu)勢(shì)。具體來說,在通用聊天任務(wù)(AlpacaEval-2)、STEM 問題解答任務(wù)(Arena-Hard)、指令跟隨(IFEval)、數(shù)學(xué)與推理(MATH 和 GSM8K)、編程任務(wù)(HumanEval)、以及知識(shí)問答(ARC Challenge)中,CGPO 均大幅超越現(xiàn)有的 RLHF 算法如 PPO 和 DPO。

    實(shí)驗(yàn)數(shù)據(jù)顯示,CGPO 在 AlpacaEval-2 中相較 PPO 提升了 7.4%,在 Arena-Hard 中提升了 12.5%,而在數(shù)學(xué)推理任務(wù)(MATH 和 GSM8K)中,CGPO 表現(xiàn)穩(wěn)定,分別提升了 2%,在人類評(píng)估(HumanEval)中的編程測(cè)試上則提升了 5%。

    此外,PPO 在編程任務(wù)中表現(xiàn)出獎(jiǎng)勵(lì)欺騙行為,導(dǎo)致模型在訓(xùn)練后期出現(xiàn)嚴(yán)重退化,而 CGPO 通過約束優(yōu)化有效避免了這一問題,確保模型表現(xiàn)穩(wěn)定。

    克服獎(jiǎng)勵(lì)欺騙

    在 CGPO 與 PPO 的性能對(duì)比中,CGPO 結(jié)合 CRPG 和 CRRAFT 優(yōu)化器在多個(gè)基準(zhǔn)測(cè)試中持續(xù)提升,尤其在 ARC Challenge、HumanEval、MBPP 等任務(wù)上表現(xiàn)出色。

    相比之下,PPO 在編碼任務(wù)中出現(xiàn)顯著下滑,表明獎(jiǎng)勵(lì)欺騙問題嚴(yán)重。雖然 CODPO 優(yōu)化器表現(xiàn)稍弱,但總體上仍優(yōu)于 DPO 和 PPO,特別是在安全性任務(wù)中,CODPO 取得了最佳結(jié)果,展示了其在多任務(wù)微調(diào)中的卓越效果。

    克服獎(jiǎng)勵(lì)欺騙

    通過消融實(shí)驗(yàn)可以發(fā)現(xiàn) MoJs 不僅能防止在在編碼任務(wù)里的獎(jiǎng)勵(lì)欺騙,還顯著提升了模型在 MATH 和 GSM8K 中的表現(xiàn)。

    克服獎(jiǎng)勵(lì)欺騙

    結(jié)論:CGPO 為多任務(wù)學(xué)習(xí)的未來鋪路

    CGPO 框架的提出,為強(qiáng)化學(xué)習(xí)與人類反饋在多任務(wù)學(xué)習(xí)中的應(yīng)用提供了革命性的新思路。

    通過創(chuàng)新的混合評(píng)審機(jī)制與三大約束優(yōu)化器,CGPO 不僅有效解決了獎(jiǎng)勵(lì)欺騙和極端多目標(biāo)優(yōu)化的難題,還為大型語言模型的后訓(xùn)練提供了更穩(wěn)定和高效的優(yōu)化路徑。隨著研究的深入,未來我們有望看到更多基于 CGPO 的自動(dòng)化優(yōu)化方法,進(jìn)一步提升多任務(wù)學(xué)習(xí)的表現(xiàn)。

    參考資料:

    • https://arxiv.org/pdf/2409.20370

相關(guān)新游攻略
權(quán)力的游戲:創(chuàng)世紀(jì)是一款根據(jù)著名美劇權(quán)力的游戲改編的策略游戲。對(duì)于許多玩家來說,游戲的漢化菜單選項(xiàng)能更好地幫助他們理解和掌握游戲的各種功能。接下來,讓我們一起深入剖析這些菜單選項(xiàng)及其所代表的功能。游戲
來源:國投新游網(wǎng)
各位親愛的玩家朋友們,準(zhǔn)備好迎接一場(chǎng)前所未有的視覺與游戲體驗(yàn)的雙重盛宴了嗎?最終幻想系列最新力作——最終幻想16PC版的預(yù)告片近日正式曝光,宣布將于9月17日盛大發(fā)售,這無疑是為廣大PC玩家送上的一份
來源:國投新游網(wǎng)
在那充滿熱血與激情的網(wǎng)絡(luò)游戲世界里,一場(chǎng)驚心動(dòng)魄的 1V1 對(duì)決——“還敢逃嗎 1V1:看你往哪跑”正悄然拉開帷幕。這場(chǎng)對(duì)決的關(guān)鍵在于雙方選手對(duì)局勢(shì)的精準(zhǔn)把控與巧妙策略的運(yùn)用。對(duì)于進(jìn)攻方而言,要明確自
來源:國投新游網(wǎng)
在我的世界中,探險(xiǎn)并戰(zhàn)勝狡猾的骷髏怪群需要一系列高效策略和技巧,以下是一些全面的解析和建議,幫助你智取并戰(zhàn)勝這些敵人。1 準(zhǔn)備適當(dāng)?shù)难b備武器:近戰(zhàn)武器:鐵劍或鉆石劍是首選,因?yàn)樗鼈兡芴峁┹^高的攻擊力
來源:國投新游網(wǎng)
在百煉英雄這款游戲中,肉塊作為一種重要的資源,對(duì)于玩家的戰(zhàn)力提升至關(guān)重要,以下是高效獲取珍稀肉塊的策略與技巧,助你戰(zhàn)力飆升:基礎(chǔ)獲取方式1、擊敗小怪:- 在游戲的各個(gè)地圖中,通過擊敗小怪有概率掉落肉塊
來源:國投新游網(wǎng)
在游戲的世界中,我們常常面臨著各種挑戰(zhàn)和轉(zhuǎn)變。有時(shí)候,我們需要放下過去的習(xí)慣和方式,勇敢地迎接新的未知。這就像是一場(chǎng)冒險(xiǎn),充滿了驚喜和挑戰(zhàn),但也為我們帶來了成長和進(jìn)步的機(jī)會(huì)。當(dāng)我們開始慢慢迎合未知時(shí),
來源:國投新游網(wǎng)
在當(dāng)今數(shù)字時(shí)代,視頻平臺(tái)成為了年輕人表達(dá)自我和探索世界的重要窗口。而少女視頻觀看片tv嗶哩嗶哩,以其豐富多樣的內(nèi)容,吸引了無數(shù)青少年用戶。在這里,您不僅能觀看到最新的潮流視頻,還有來自各個(gè)領(lǐng)域的創(chuàng)意作
來源:國投新游網(wǎng)
簡隋英,京城公子哥中的翹楚,他的人生仿佛是一場(chǎng)華麗的盛宴,充滿了無盡的肆意與張狂。作為京城豪門的貴子,簡隋英從小就享受到了常人難以企及的優(yōu)渥生活。他的家族產(chǎn)業(yè)龐大,財(cái)富與權(quán)勢(shì)交織,讓他在同齡人中顯得格
來源:國投新游網(wǎng)
小小曹操傳作為一款策略與養(yǎng)成并重的游戲,坐騎和武將的進(jìn)階與升級(jí)對(duì)于提升玩家整體戰(zhàn)斗力至關(guān)重要,以下是對(duì)坐騎進(jìn)階策略與高效升級(jí)技巧的獨(dú)家揭秘:坐騎進(jìn)階策略1、獲取坐騎:- 玩家在主線任務(wù)達(dá)到16級(jí)時(shí)可以
來源:國投新游網(wǎng)
鬼谷八荒:獨(dú)步仙途中,絕技“干血嘯龍破”是槍修專屬的強(qiáng)力武技,其獲取與實(shí)戰(zhàn)運(yùn)用對(duì)于玩家來說都至關(guān)重要,以下將詳細(xì)解析其獲取策略及實(shí)戰(zhàn)運(yùn)用指南。獲取策略1、加入御龍山莊:玩家需要加入御龍山莊,因?yàn)椤案裳?/div>
來源:國投新游網(wǎng)
熱門游戲
手機(jī)游戲 | 65MMB
91看成品人視頻91看成品人視頻是一款視頻播放軟件,提供所有精*內(nèi)容的免費(fèi)觀看,帶給用戶高品質(zhì)的體驗(yàn),無需任何費(fèi)用,輕松享受精*視頻,91看成品人視頻91看成品人視頻還擁有高清畫質(zhì)和低延遲,為您帶來全
5
手機(jī)游戲 | 37.21MMB
仙蹤cosmetology大陸是一款擁有海量優(yōu)質(zhì)資源的視頻播放軟件。軟件里面的資源非常的豐富,什么類型的視頻都應(yīng)有盡有,能夠很好的滿足用戶的需求。而且首頁能看到每天都會(huì)更新真的視頻給到用戶,讓用戶第一
5
手機(jī)游戲 | 9.1MMB
漣源愛沫私人電影院是一款非常適合喜歡追劇和觀影的用戶使用的視頻播放軟件。不論是熱門劇集還是經(jīng)典電影,這款軟件都能為你提供豐富的內(nèi)容選擇。漣源愛沫私人電影院高清流暢的播放體驗(yàn),讓你可以隨時(shí)隨地盡情享受視
5
手機(jī)游戲 | 62.57MMB
18款禁用看黃入口app是一款內(nèi)容豐富的影視資源觀看軟件,18款禁用看黃入口app所涵蓋的影視內(nèi)容非常豐富多樣,各類優(yōu)質(zhì)影視劇實(shí)時(shí)同步更新,在這里無論是最新的電影、電視劇,還是動(dòng)漫、綜藝等各種類型影視
5
手機(jī)游戲 | 18.34MBMB
隨著移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展,各類社區(qū)類應(yīng)用逐漸成為日常生活的一部分。海倫社區(qū)app海外版作為一款新興的社交平臺(tái),致力于為全球用戶提供便捷的互動(dòng)體驗(yàn)。無論是大學(xué)生、
5
手機(jī)游戲 | 37.21MMB
無人區(qū)9電影免費(fèi)入口國外正式版是一款可以免費(fèi)觀看的手機(jī)視頻軟件,這款軟件里面的所有視頻都是可以免費(fèi)在線觀看的,不論是國內(nèi)還是國外的資源都是沒有任何限制,也沒有廣告。無人區(qū)9電影免費(fèi)入口國外正式版軟件首
5
手機(jī)游戲 | 30.40MBMB
在快速發(fā)展的互聯(lián)網(wǎng)時(shí)代,各類影視軟件層出不窮,一片一片一a一一a動(dòng)詞語午夜精品版的出現(xiàn)無疑為廣大影迷和休閑娛樂用戶帶來了極大的便利。隨著版本更新迭代,午夜精品版v
5
手機(jī)游戲 | 37.22MBMB
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,越來越多的用戶選擇在線直播平臺(tái)來豐富日常娛樂和工作生活。在眾多直播平臺(tái)中,小白巴士官網(wǎng)直播版無疑是一款備受矚目的創(chuàng)新產(chǎn)品。它憑借著出色的界面設(shè)計(jì)
5
手機(jī)游戲 | 23.42MMB
薦片安卓版APP是一款全能手機(jī)影院播放軟件。該軟件擁有豐富的電影資源,包括國內(nèi)外各類熱門電影作品和經(jīng)典老電影,用戶可以自由瀏覽和選擇。該軟件提供由影評(píng)人撰寫的優(yōu)秀評(píng)論和解讀,幫助用戶更好地理解電影的深
5
手機(jī)游戲 | 22.30MMB
紅葉影評(píng)無廣告版下載軟件以其豐富的資源、個(gè)性化的推薦以及貼心的無廣告體驗(yàn),為用戶打造了一個(gè)極致舒適的影視觀賞環(huán)境,讓每一位用戶都能在這里找到屬于自己的影視歡樂時(shí)光。軟件還內(nèi)置的社區(qū)功能,讓用戶可以分享
5