paulwong

          My Links

          Blog Stats

          常用鏈接

          留言簿(66)

          隨筆分類(1388)

          隨筆檔案(1146)

          文章分類(7)

          文章檔案(10)

          相冊(cè)

          收藏夾(2)

          AI

          Develop

          E-BOOK

          Other

          養(yǎng)生

          微服務(wù)

          搜索

          最新評(píng)論

          閱讀排行榜

          評(píng)論排行榜

          60天內(nèi)閱讀排行

          DeepSeek背后的數(shù)學(xué):深入研究群體相對(duì)策略優(yōu)化(GRPO)

          本博客深入探討了群體相對(duì)策略優(yōu)化(GRPO)背后的數(shù)學(xué),GRPO是推動(dòng)DeepSeek卓越推理能力的核心強(qiáng)化學(xué)習(xí)算法。我們將分解GRPO的工作原理、其關(guān)鍵組件,以及為什么它是訓(xùn)練高級(jí)大型語(yǔ)言模型(LLM)的改變者。

          GRPO的基礎(chǔ)

          GRPO是什么?

          群相對(duì)策略優(yōu)化(GRPO)是一種強(qiáng)化學(xué)習(xí)(RL)算法,專門用于增強(qiáng)大型語(yǔ)言模型(LLM)的推理能力。與傳統(tǒng)的RL方法不同,RL方法嚴(yán)重依賴外部評(píng)估者(批評(píng)者)來(lái)指導(dǎo)學(xué)習(xí),GRPO通過(guò)相互評(píng)估響應(yīng)組來(lái)優(yōu)化模型。這種方法可以實(shí)現(xiàn)更有效的培訓(xùn),使GRPO成為需要復(fù)雜解決問(wèn)題和長(zhǎng)思維鏈的推理任務(wù)的理想選擇。

          為什么是GRPO?

          傳統(tǒng)的RL方法,如近端策略優(yōu)化(PPO),在應(yīng)用于LLM中的推理任務(wù)時(shí)面臨重大挑戰(zhàn):

          對(duì)批評(píng)家模式的依賴

          • PPO需要一個(gè)單獨(dú)的批評(píng)模型來(lái)估計(jì)每個(gè)響應(yīng)的值,這使內(nèi)存和計(jì)算要求翻倍。
          • 培訓(xùn)評(píng)論家很復(fù)雜,容易出錯(cuò),特別是對(duì)于具有主觀或細(xì)微評(píng)估的任務(wù)。

          高計(jì)算成本

          • RL管道通常需要大量的計(jì)算資源來(lái)迭代評(píng)估和優(yōu)化響應(yīng)。
          • 將這些方法擴(kuò)展到大型法學(xué)碩士會(huì)加劇這些成本。

          可擴(kuò)展性問(wèn)題

          • 絕對(duì)獎(jiǎng)勵(lì)評(píng)估與各種任務(wù)作斗爭(zhēng),使其難以跨推理領(lǐng)域進(jìn)行概括。

          GRPO如何應(yīng)對(duì)這些挑戰(zhàn)

          • 無(wú)批評(píng)優(yōu)化:GRPO通過(guò)比較組內(nèi)的響應(yīng)來(lái)消除對(duì)批評(píng)模型的需求,大大降低了計(jì)算開銷。
          • 相對(duì)評(píng)估:GRPO不使用外部評(píng)估員,而是使用組動(dòng)力學(xué)來(lái)評(píng)估響應(yīng)相對(duì)于同一批次中其他響應(yīng)的表現(xiàn)如何。
          • 高效培訓(xùn):通過(guò)關(guān)注基于組的優(yōu)勢(shì),GRPO簡(jiǎn)化了獎(jiǎng)勵(lì)估算過(guò)程,使其對(duì)大型模型更快、更具可擴(kuò)展性。

          關(guān)鍵思想

          GRPO的核心是相對(duì)評(píng)價(jià)的概念:

          • 對(duì)于每個(gè)輸入查詢,模型都會(huì)生成一組潛在響應(yīng)。
          • 這些回答是根據(jù)它們與小組中其他人的比較來(lái)評(píng)分的,而不是單獨(dú)評(píng)估。
          • 響應(yīng)的優(yōu)勢(shì)反映了相對(duì)于小組的平均表現(xiàn)來(lái)說(shuō),它有多好或差。

          這種方法消除了對(duì)單獨(dú)批評(píng)的需要,使GRPO既高效又強(qiáng)大。通過(guò)促進(jìn)群體內(nèi)部的競(jìng)爭(zhēng),GRPO推動(dòng)該模型不斷提高其推理能力。正是這種創(chuàng)新推動(dòng)了DeepSeek在推理任務(wù)中取得卓越結(jié)果的能力。

          了解GRPO目標(biāo)功能

          組相對(duì)策略優(yōu)化(GRPO)中的目標(biāo)函數(shù)定義了模型如何學(xué)習(xí)改進(jìn)其策略,從而推動(dòng)其生成高質(zhì)量響應(yīng)的能力。讓我們一步一步地分解它。

          GRPO目標(biāo)函數(shù)

          方程來(lái)自論文,解釋是在GPT-4o的幫助下創(chuàng)建的

          用簡(jiǎn)單的術(shù)語(yǔ)理解GRPO目標(biāo)函數(shù)

          GRPO(組相對(duì)策略優(yōu)化)目標(biāo)函數(shù)就像一個(gè)教模型的配方,通過(guò)比較自己的響應(yīng)和逐步改進(jìn)來(lái)更好地生成答案。讓我們把它分解成一個(gè)易于理解的解釋:

          目標(biāo)

          想象一下,你正在教一群學(xué)生解決一個(gè)數(shù)學(xué)問(wèn)題。與其只告訴他們誰(shuí)得到了正確或錯(cuò)誤的答案,不如比較他們所有的答案,以找出誰(shuí)做得最好(以及為什么)。然后,你通過(guò)獎(jiǎng)勵(lì)更好的方法和改進(jìn)較弱的方法來(lái)幫助他們學(xué)習(xí)。這正是GRPO所做的——只是它教人工智能模型,而不是學(xué)生。

          分步分解

          第1步:從查詢開始

          • 從訓(xùn)練數(shù)據(jù)集P(Q)中選擇一個(gè)查詢(q)
            示例:假設(shè)查詢是“8 + 5的總和是多少?”

          第2步:生成一組響應(yīng)

          • 模型對(duì)查詢生成一組GGG響應(yīng)。
            示例:模型生成以下響應(yīng):
          • O1:“答案是13。”
          • O2:“十三。”
          • O3:“現(xiàn)在是12。”
          • O4:“總和是13。”

          第3步:計(jì)算每個(gè)響應(yīng)的獎(jiǎng)勵(lì)

          什么是獎(jiǎng)勵(lì)?

          • 獎(jiǎng)勵(lì)通過(guò)量化模型的響應(yīng)質(zhì)量來(lái)指導(dǎo)模型的學(xué)習(xí)。

          GRPO中的獎(jiǎng)勵(lì)類型

          • 準(zhǔn)確性獎(jiǎng)勵(lì):基于答案的正確性(例如,解決數(shù)學(xué)問(wèn)題)。
          • 格式獎(jiǎng)勵(lì):確保響應(yīng)符合結(jié)構(gòu)準(zhǔn)則(例如,<think>標(biāo)簽中包含的推理)。
          • 語(yǔ)言一致性獎(jiǎng)勵(lì):懲罰語(yǔ)言混合或不相干的格式。

          根據(jù)每個(gè)響應(yīng)的好程度,為每個(gè)響應(yīng)分配獎(jiǎng)勵(lì)(ri)。例如,獎(jiǎng)勵(lì)可能取決于:

          準(zhǔn)確性:答案正確嗎?

          格式:響應(yīng)結(jié)構(gòu)良好嗎?
          示例

          • r1=1.0(正確且格式良好)。
          • r2=0.9(正確但不那么正式)。
          • r3=0.0(錯(cuò)誤答案)。
          • r4=1.0(正確且格式良好)。

          第4步:比較回復(fù)(群體優(yōu)勢(shì))

          • 計(jì)算每個(gè)響應(yīng)相對(duì)于組的優(yōu)勢(shì)(Ai):
          方程來(lái)自論文,解釋是在GPT-4o的幫助下創(chuàng)建的

          用簡(jiǎn)單的方式,你可以這樣理解它

          方程來(lái)自論文,解釋是在GPT-4o的幫助下創(chuàng)建的
          • 比小組平均水平更好的回復(fù)獲得正分,而更差的回復(fù)獲得負(fù)分。
          • 鼓勵(lì)小組內(nèi)部的競(jìng)爭(zhēng),推動(dòng)模型產(chǎn)生更好的響應(yīng)。

          第5步:使用剪切更新策略

          方程來(lái)自論文,解釋是在GPT-4o的幫助下創(chuàng)建的
          • 示例:如果新策略開始為o1分配過(guò)多的概率,剪切可確保它不會(huì)過(guò)度強(qiáng)調(diào)此響應(yīng)。
          • 即使在推理等復(fù)雜任務(wù)中,也能實(shí)現(xiàn)穩(wěn)定可靠的策略優(yōu)化。

          第6步:用KL Divergence懲罰偏差

          方程來(lái)自論文,解釋是在GPT-4o的幫助下創(chuàng)建的

          把它全部放在一起

          GRPO目標(biāo)的工作原理如下:

          1. 為查詢生成一組響應(yīng)
          2. 根據(jù)預(yù)定義的標(biāo)準(zhǔn)(例如準(zhǔn)確性、格式)計(jì)算每個(gè)響應(yīng)的獎(jiǎng)勵(lì)
          3. 比較組內(nèi)的反應(yīng),以計(jì)算其相對(duì)優(yōu)勢(shì)(AiA_iAi)。
          4. 更新政策,以支持具有更高優(yōu)勢(shì)的響應(yīng),確保剪切的穩(wěn)定性。
          5. 定期更新,以防止模型偏離其基線太遠(yuǎn)。

          為什么GRPO有效

          • 無(wú)需批評(píng):GRPO依靠組比較,降低了計(jì)算成本,避免了對(duì)單獨(dú)評(píng)估員的需要。
          • 穩(wěn)定學(xué)習(xí):剪切和KL正則確保模型穩(wěn)步改進(jìn),沒(méi)有劇烈波動(dòng)。
          • 高效培訓(xùn):通過(guò)關(guān)注相對(duì)績(jī)效,GRPO是推理等任務(wù)的理想選擇,因?yàn)榻^對(duì)得分很難。

          現(xiàn)實(shí)生活中的類比

          想象一下,一群學(xué)生在解決問(wèn)題。老師不是單獨(dú)給每個(gè)學(xué)生打分,而是學(xué)生在自己之間比較他們的答案。那些有更好答案的人會(huì)得到鼓勵(lì),而其他人則從錯(cuò)誤中學(xué)習(xí)。隨著時(shí)間的推移,該小組集體改進(jìn),變得更加準(zhǔn)確和一致。GRPO將這一原則應(yīng)用于訓(xùn)練人工智能模型,使它們能夠有效和高效地學(xué)習(xí)。

          GRPO和PPO的比較

          GRPO在行動(dòng):DeepSeek的成功

          GRPO通過(guò)為推理任務(wù)提供高效和可擴(kuò)展的培訓(xùn),推動(dòng)了DeepSeek的卓越性能。以下是它如何轉(zhuǎn)化為成功:

          1. 增強(qiáng)推理:GRPO允許DeepSeek-R1-Zero在AIME 2024上獲得71.0%的aPass@1得分,在多數(shù)票下上升到86.7%。在解決數(shù)學(xué)和邏輯問(wèn)題方面,它與OpenAI等專有模型相媲美。
          2. 新興能力:通過(guò)GRPO,DeepSeek模型發(fā)展了高級(jí)推理行為,如自我驗(yàn)證反思長(zhǎng)思維鏈,這對(duì)解決復(fù)雜任務(wù)至關(guān)重要。
          3. 可擴(kuò)展性:GRPO的基于組的優(yōu)化消除了對(duì)批判模型的需求,減少了計(jì)算開銷,并實(shí)現(xiàn)了大規(guī)模的培訓(xùn)。
          4. 蒸餾成功:從GRPO訓(xùn)練的檢查站蒸餾出來(lái)的較小的模型保留了很高的推理能力,使人工智能更容易獲得和具有成本效益。

          通過(guò)專注于組內(nèi)的相對(duì)性能,GRPO使DeepSeek能夠在推理、長(zhǎng)上下文理解和一般人工智能任務(wù)方面設(shè)定新的基準(zhǔn),同時(shí)保持效率和可擴(kuò)展性

          參考:https://arxiv.org/abs/2501.12948

          posted on 2025-02-08 00:13 paulwong 閱讀(286) 評(píng)論(0)  編輯  收藏 所屬分類: AI-DEEPSEEK


          只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。


          網(wǎng)站導(dǎo)航:
           
          主站蜘蛛池模板: 平昌县| 临海市| 大同市| 四川省| 泊头市| 日土县| 兴文县| 邯郸县| 封开县| 澜沧| 江城| 纳雍县| 赤壁市| 新余市| 银川市| 疏附县| 古浪县| 融水| 安乡县| 广西| 托克托县| 潞城市| 屏边| 泉州市| 抚远县| 浦县| 岱山县| 澄迈县| 白水县| 南川市| 鄂尔多斯市| 库车县| 霍山县| 嵩明县| 岫岩| 天台县| 扎赉特旗| 繁昌县| 湘阴县| 连平县| 年辖:市辖区|