本博客深入探討了群體相對(duì)策略優(yōu)化(GRPO)背后的數(shù)學(xué),GRPO是推動(dòng)DeepSeek卓越推理能力的核心強(qiáng)化學(xué)習(xí)算法。我們將分解GRPO的工作原理、其關(guān)鍵組件,以及為什么它是訓(xùn)練高級(jí)大型語(yǔ)言模型(LLM)的改變者。
GRPO的基礎(chǔ)
GRPO是什么?
群相對(duì)策略優(yōu)化(GRPO)是一種強(qiáng)化學(xué)習(xí)(RL)算法,專門用于增強(qiáng)大型語(yǔ)言模型(LLM)的推理能力。與傳統(tǒng)的RL方法不同,RL方法嚴(yán)重依賴外部評(píng)估者(批評(píng)者)來(lái)指導(dǎo)學(xué)習(xí),GRPO通過(guò)相互評(píng)估響應(yīng)組來(lái)優(yōu)化模型。這種方法可以實(shí)現(xiàn)更有效的培訓(xùn),使GRPO成為需要復(fù)雜解決問(wèn)題和長(zhǎng)思維鏈的推理任務(wù)的理想選擇。
為什么是GRPO?
傳統(tǒng)的RL方法,如近端策略優(yōu)化(PPO),在應(yīng)用于LLM中的推理任務(wù)時(shí)面臨重大挑戰(zhàn):
對(duì)批評(píng)家模式的依賴:
- PPO需要一個(gè)單獨(dú)的批評(píng)模型來(lái)估計(jì)每個(gè)響應(yīng)的值,這使內(nèi)存和計(jì)算要求翻倍。
- 培訓(xùn)評(píng)論家很復(fù)雜,容易出錯(cuò),特別是對(duì)于具有主觀或細(xì)微評(píng)估的任務(wù)。
高計(jì)算成本:
- RL管道通常需要大量的計(jì)算資源來(lái)迭代評(píng)估和優(yōu)化響應(yīng)。
- 將這些方法擴(kuò)展到大型法學(xué)碩士會(huì)加劇這些成本。
可擴(kuò)展性問(wèn)題:
- 絕對(duì)獎(jiǎng)勵(lì)評(píng)估與各種任務(wù)作斗爭(zhēng),使其難以跨推理領(lǐng)域進(jìn)行概括。
GRPO如何應(yīng)對(duì)這些挑戰(zhàn):
- 無(wú)批評(píng)優(yōu)化:GRPO通過(guò)比較組內(nèi)的響應(yīng)來(lái)消除對(duì)批評(píng)模型的需求,大大降低了計(jì)算開銷。
- 相對(duì)評(píng)估:GRPO不使用外部評(píng)估員,而是使用組動(dòng)力學(xué)來(lái)評(píng)估響應(yīng)相對(duì)于同一批次中其他響應(yīng)的表現(xiàn)如何。
- 高效培訓(xùn):通過(guò)關(guān)注基于組的優(yōu)勢(shì),GRPO簡(jiǎn)化了獎(jiǎng)勵(lì)估算過(guò)程,使其對(duì)大型模型更快、更具可擴(kuò)展性。
關(guān)鍵思想
GRPO的核心是相對(duì)評(píng)價(jià)的概念:
- 對(duì)于每個(gè)輸入查詢,模型都會(huì)生成一組潛在響應(yīng)。
- 這些回答是根據(jù)它們與小組中其他人的比較來(lái)評(píng)分的,而不是單獨(dú)評(píng)估。
- 響應(yīng)的優(yōu)勢(shì)反映了相對(duì)于小組的平均表現(xiàn)來(lái)說(shuō),它有多好或差。
這種方法消除了對(duì)單獨(dú)批評(píng)的需要,使GRPO既高效又強(qiáng)大。通過(guò)促進(jìn)群體內(nèi)部的競(jìng)爭(zhēng),GRPO推動(dòng)該模型不斷提高其推理能力。正是這種創(chuàng)新推動(dòng)了DeepSeek在推理任務(wù)中取得卓越結(jié)果的能力。
了解GRPO目標(biāo)功能
組相對(duì)策略優(yōu)化(GRPO)中的目標(biāo)函數(shù)定義了模型如何學(xué)習(xí)改進(jìn)其策略,從而推動(dòng)其生成高質(zhì)量響應(yīng)的能力。讓我們一步一步地分解它。
GRPO目標(biāo)函數(shù)
方程來(lái)自論文,解釋是在GPT-4o的幫助下創(chuàng)建的
用簡(jiǎn)單的術(shù)語(yǔ)理解GRPO目標(biāo)函數(shù)
GRPO(組相對(duì)策略優(yōu)化)目標(biāo)函數(shù)就像一個(gè)教模型的配方,通過(guò)比較自己的響應(yīng)和逐步改進(jìn)來(lái)更好地生成答案。讓我們把它分解成一個(gè)易于理解的解釋:
目標(biāo)
想象一下,你正在教一群學(xué)生解決一個(gè)數(shù)學(xué)問(wèn)題。與其只告訴他們誰(shuí)得到了正確或錯(cuò)誤的答案,不如比較他們所有的答案,以找出誰(shuí)做得最好(以及為什么)。然后,你通過(guò)獎(jiǎng)勵(lì)更好的方法和改進(jìn)較弱的方法來(lái)幫助他們學(xué)習(xí)。這正是GRPO所做的——只是它教人工智能模型,而不是學(xué)生。
分步分解
第1步:從查詢開始
- 從訓(xùn)練數(shù)據(jù)集P(Q)中選擇一個(gè)查詢(q)
示例:假設(shè)查詢是“8 + 5的總和是多少?”
第2步:生成一組響應(yīng)
- 模型對(duì)查詢生成一組GGG響應(yīng)。
示例:模型生成以下響應(yīng):
- O1:“答案是13。”
- O2:“十三。”
- O3:“現(xiàn)在是12。”
- O4:“總和是13。”
第3步:計(jì)算每個(gè)響應(yīng)的獎(jiǎng)勵(lì)
什么是獎(jiǎng)勵(lì)?:
- 獎(jiǎng)勵(lì)通過(guò)量化模型的響應(yīng)質(zhì)量來(lái)指導(dǎo)模型的學(xué)習(xí)。
GRPO中的獎(jiǎng)勵(lì)類型:
- 準(zhǔn)確性獎(jiǎng)勵(lì):基于答案的正確性(例如,解決數(shù)學(xué)問(wèn)題)。
- 格式獎(jiǎng)勵(lì):確保響應(yīng)符合結(jié)構(gòu)準(zhǔn)則(例如,
<think>
標(biāo)簽中包含的推理)。
- 語(yǔ)言一致性獎(jiǎng)勵(lì):懲罰語(yǔ)言混合或不相干的格式。
根據(jù)每個(gè)響應(yīng)的好程度,為每個(gè)響應(yīng)分配獎(jiǎng)勵(lì)(ri)。例如,獎(jiǎng)勵(lì)可能取決于:
準(zhǔn)確性:答案正確嗎?
格式:響應(yīng)結(jié)構(gòu)良好嗎?
示例:
- r1=1.0(正確且格式良好)。
- r2=0.9(正確但不那么正式)。
- r3=0.0(錯(cuò)誤答案)。
- r4=1.0(正確且格式良好)。
第4步:比較回復(fù)(群體優(yōu)勢(shì))
- 計(jì)算每個(gè)響應(yīng)相對(duì)于組的優(yōu)勢(shì)(Ai):
方程來(lái)自論文,解釋是在GPT-4o的幫助下創(chuàng)建的
用簡(jiǎn)單的方式,你可以這樣理解它
方程來(lái)自論文,解釋是在GPT-4o的幫助下創(chuàng)建的
- 比小組平均水平更好的回復(fù)獲得正分,而更差的回復(fù)獲得負(fù)分。
- 鼓勵(lì)小組內(nèi)部的競(jìng)爭(zhēng),推動(dòng)模型產(chǎn)生更好的響應(yīng)。
第5步:使用剪切更新策略
方程來(lái)自論文,解釋是在GPT-4o的幫助下創(chuàng)建的
- 示例:如果新策略開始為o1分配過(guò)多的概率,剪切可確保它不會(huì)過(guò)度強(qiáng)調(diào)此響應(yīng)。
- 即使在推理等復(fù)雜任務(wù)中,也能實(shí)現(xiàn)穩(wěn)定可靠的策略優(yōu)化。
第6步:用KL Divergence懲罰偏差
方程來(lái)自論文,解釋是在GPT-4o的幫助下創(chuàng)建的
把它全部放在一起
GRPO目標(biāo)的工作原理如下:
- 為查詢生成一組響應(yīng)。
- 根據(jù)預(yù)定義的標(biāo)準(zhǔn)(例如準(zhǔn)確性、格式)計(jì)算每個(gè)響應(yīng)的獎(jiǎng)勵(lì)。
- 比較組內(nèi)的反應(yīng),以計(jì)算其相對(duì)優(yōu)勢(shì)(AiA_iAi)。
- 更新政策,以支持具有更高優(yōu)勢(shì)的響應(yīng),確保剪切的穩(wěn)定性。
- 定期更新,以防止模型偏離其基線太遠(yuǎn)。
為什么GRPO有效
- 無(wú)需批評(píng):GRPO依靠組比較,降低了計(jì)算成本,避免了對(duì)單獨(dú)評(píng)估員的需要。
- 穩(wěn)定學(xué)習(xí):剪切和KL正則確保模型穩(wěn)步改進(jìn),沒(méi)有劇烈波動(dòng)。
- 高效培訓(xùn):通過(guò)關(guān)注相對(duì)績(jī)效,GRPO是推理等任務(wù)的理想選擇,因?yàn)榻^對(duì)得分很難。
現(xiàn)實(shí)生活中的類比
想象一下,一群學(xué)生在解決問(wèn)題。老師不是單獨(dú)給每個(gè)學(xué)生打分,而是學(xué)生在自己之間比較他們的答案。那些有更好答案的人會(huì)得到鼓勵(lì),而其他人則從錯(cuò)誤中學(xué)習(xí)。隨著時(shí)間的推移,該小組集體改進(jìn),變得更加準(zhǔn)確和一致。GRPO將這一原則應(yīng)用于訓(xùn)練人工智能模型,使它們能夠有效和高效地學(xué)習(xí)。
GRPO和PPO的比較
GRPO在行動(dòng):DeepSeek的成功
GRPO通過(guò)為推理任務(wù)提供高效和可擴(kuò)展的培訓(xùn),推動(dòng)了DeepSeek的卓越性能。以下是它如何轉(zhuǎn)化為成功:
- 增強(qiáng)推理:GRPO允許DeepSeek-R1-Zero在AIME 2024上獲得71.0%的aPass@1得分,在多數(shù)票下上升到86.7%。在解決數(shù)學(xué)和邏輯問(wèn)題方面,它與OpenAI等專有模型相媲美。
- 新興能力:通過(guò)GRPO,DeepSeek模型發(fā)展了高級(jí)推理行為,如自我驗(yàn)證、反思和長(zhǎng)思維鏈,這對(duì)解決復(fù)雜任務(wù)至關(guān)重要。
- 可擴(kuò)展性:GRPO的基于組的優(yōu)化消除了對(duì)批判模型的需求,減少了計(jì)算開銷,并實(shí)現(xiàn)了大規(guī)模的培訓(xùn)。
- 蒸餾成功:從GRPO訓(xùn)練的檢查站蒸餾出來(lái)的較小的模型保留了很高的推理能力,使人工智能更容易獲得和具有成本效益。
通過(guò)專注于組內(nèi)的相對(duì)性能,GRPO使DeepSeek能夠在推理、長(zhǎng)上下文理解和一般人工智能任務(wù)方面設(shè)定新的基準(zhǔn),同時(shí)保持效率和可擴(kuò)展性
參考:https://arxiv.org/abs/2501.12948