新手區最新隨筆(rss) RSS

          強化學習資源

          蘑菇書EasyRL
          李宏毅老師的《深度強化學習》是強化學習領域經典的中文視頻之一。李老師幽默風趣的上課風格讓晦澀難懂的強化學習理論變得輕松易懂,他會通過很多有趣的例子來講解強化學習理論。比如老師經常會用玩 Atari 游戲的例子來講解強化學習算法。此外,為了教程的完整性,我們整理了周博磊老師的《強化學習綱要》、李科澆老師的《世界冠軍帶你從零實踐強化學習》以及多個強化學習的經典資料作為補充。對于想入門強化學習又想看中文講解的人來說絕對是非常推薦的。

          本教程也稱為“蘑菇書”,寓意是希望此書能夠為讀者注入活力,讓讀者“吃”下這本蘑菇之后,能夠饒有興致地探索強化學習,像馬里奧那樣愈加強大,繼而在人工智能領域覓得意外的收獲。
          https://github.com/datawhalechina/easy-rl?tab=readme-ov-file


          2025-04-30 14:15 作者: paulwong【評論:0】【閱讀:3】 

          ai預測足球資源

          基于機器學習的2022世界杯預測實戰
          https://www.showmeai.tech/article-detail/400

          AI 競彩賽事 預測工具
          https://www.mysports.ai/cn

          2025-04-19 01:07 作者: paulwong【評論:0】【閱讀:12】 

          python資源

          python
          https://www.w3schools.com/python/

          https://www.runoob.com/python/python-basic-syntax.html


          2025-03-16 20:54 作者: paulwong【評論:0】【閱讀:28】 

          LLM全棧框架完整分類清單(預訓練+微調+工具鏈)

          https://blog.csdn.net/ViniJack/article/details/145789900



          2025-03-10 11:29 作者: paulwong【評論:0】【閱讀:42】 

          醫療問診系統資源

               摘要: Code highlighting produced by Actipro CodeHighlighter (freeware) http://www.CodeHighlighter.com/ -->計算機畢業設計Python+Neo4j知識圖譜醫療問答系統 大模型 https://baijiahao.baidu.com/s?id=1815574648931972744...  閱讀全文

          2025-03-08 20:52 作者: paulwong【評論:0】【閱讀:43】 

          使用nlp提取非結構化數據中的信息

               摘要: @import url(http://www.aygfsteel.com/CuteSoft_Client/CuteEditor/Load.ashx?type=style&file=SyntaxHighlighter.css);@import url(/css/cuteeditor.css); @import url(http://www.aygfsteel.com/CuteSoft_Client/C...  閱讀全文

          2025-03-08 11:45 作者: paulwong【評論:0】【閱讀:21】 

          AI案例資源

               摘要: @import url(http://www.aygfsteel.com/CuteSoft_Client/CuteEditor/Load.ashx?type=style&file=SyntaxHighlighter.css);@import url(/css/cuteeditor.css); 從實踐案例介紹大模型應用經驗和思考 https://mp.weixin.qq.com/s/hcD0-z9...  閱讀全文

          2025-02-26 16:01 作者: paulwong【評論:0】【閱讀:32】 

          DeepSeek背后的數學:深入研究群體相對策略優化(GRPO)

               摘要: 本博客深入探討了群體相對策略優化(GRPO)背后的數學,GRPO是推動DeepSeek卓越推理能力的核心強化學習算法。我們將分解GRPO的工作原理、其關鍵組件,以及為什么它是訓練高級大型語言模型(LLM)的改變者。 GRPO的基礎 GRPO是什么? 群相對策略優化(GRPO)是一種強化學習(RL)算法,專門用于增強大型語言模型(LLM)的推理能力。與傳統的RL方法不同,RL方法嚴重依賴外部評...  閱讀全文

          2025-02-08 00:13 作者: paulwong【評論:0】【閱讀:241】 

          技 術 改 變 世 界

          宣傳語

          網站分類

          其他分類

          Google站內搜索

           

          24小時內最熱隨筆

          統計信息

          訂閱

          Blog客戶端API

          推薦客戶端

          博客排行榜[前100人]

          主站蜘蛛池模板: 麻城市| 越西县| 东乡| 桦甸市| 德州市| 灌南县| 葵青区| 芒康县| 高淳县| 天峻县| 涟水县| 左贡县| 赤城县| 安福县| 墨竹工卡县| 永安市| 林州市| 汉川市| 元谋县| 望谟县| 仁布县| 德保县| 恩施市| 辽源市| 锦州市| 丹凤县| 蒙山县| 土默特左旗| 宁安市| 白河县| 泌阳县| 武清区| 平乡县| 枝江市| 西乡县| 浑源县| 文登市| 得荣县| 张北县| 陈巴尔虎旗| 内黄县|