[問題] 監督式學習的資料使用強化學習方法實作

看板DataScience作者 (principal component QQ)時間2年前 (2021/10/07 10:49), 編輯推噓3(3012)
留言15則, 8人參與, 2年前最新討論串1/1
由於工作上遇到一般監督式學習解決不了的問題, 也可能是功力不到家, 總之會需要用強化學習試試看, 我目前的問題是一個監督式學習,有X有Y但就是學習不起來。 從課程上知道如果一個監督式學習訓練不起來, 可以使用強化學習的方法來試試看。 再參考網路上的文獻跟教程之後, 初步理解了像是 agent, environment, action, retrun, reward 等等專有名詞的定義, 也初步理解了 action function 以及 state transition function 這些函數的用途以及隨機性的原理。 問題來了,一般監督式學習(手寫辨識), 通常是有一些資料(X)及標記(Y), 接著就是寫一個forwrad流程來, 更新我的模型 weight 即可。 如果我要將這個問題(手寫辨識)用 RL 實作一次, 要怎樣做?我嘗試上網搜尋但是沒有找到類似的範本, 我從官方教學看到的範例是馬力歐跟木棒平衡(?) 我看完官方教學有感覺到 強化學習是要有一個互動環境才能 work 。 一般監督又要怎麼轉過去... 有沒有前輩可以指點,謝謝。 或是有看到相關的關鍵字都可以跟我說,感謝。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 218.164.5.43 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1633574972.A.644.html

10/07 18:26, 2年前 , 1F
我覺得你是不是搞混了強化學習跟遷移學習?
10/07 18:26, 1F

10/07 18:38, 2年前 , 2F
不要繞遠路吧,講一下你的資料和模型怎麼選
10/07 18:38, 2F

10/07 22:17, 2年前 , 3F
老闆希望的...我也覺得是繞遠路,但我無法說服別人...
10/07 22:17, 3F

10/08 05:03, 2年前 , 4F
怎麼會覺得supervised的做不了RL就做得出來xd
10/08 05:03, 4F

10/08 10:24, 2年前 , 5F
覺得只是換一個解題思維,當我的最佳化對象不可微分時,設
10/08 10:24, 5F

10/08 10:24, 2年前 , 6F
計為RL的reward 希望reward愈大愈好,用RL架構env-agent互
10/08 10:24, 6F

10/08 10:24, 2年前 , 7F
動來解
10/08 10:24, 7F

10/08 10:25, 2年前 , 8F
只是原po的情況,不曉得該怎麼設計為RL。
10/08 10:25, 8F

10/08 11:45, 2年前 , 9F
這須要自己寫Env.,真實世界的RL問題通常要這麼作.不過,
10/08 11:45, 9F

10/08 11:47, 2年前 , 10F
這應該比監督式學習難多了.
10/08 11:47, 10F

10/08 15:20, 2年前 , 11F
不知道你想解什麼問題 但RL通常是用來解MDP問題的
10/08 15:20, 11F

10/08 15:39, 2年前 , 12F
看到了 手寫辨識 這跟MDP問題看起來沒什麼關係
10/08 15:39, 12F

10/08 15:42, 2年前 , 13F
也許你可以聊聊遇到了什麼困難?
10/08 15:42, 13F

10/09 01:08, 2年前 , 14F
不可微明明就還有很多更直接的optimization 啊…
10/09 01:08, 14F

10/12 10:04, 2年前 , 15F
感覺走錯路了
10/12 10:04, 15F
文章代碼(AID): #1XNc0yP4 (DataScience)
文章代碼(AID): #1XNc0yP4 (DataScience)