[問題] 監督式學習的資料使用強化學習方法實作

看板DataScience作者 (principal component QQ)時間3年前 (2021/10/07 10:49), 編輯推噓4(4016)
留言20則, 11人參與, 最新討論串1/1
由於工作上遇到一般監督式學習解決不了的問題, 也可能是功力不到家, 總之會需要用強化學習試試看, 我目前的問題是一個監督式學習,有X有Y但就是學習不起來。 從課程上知道如果一個監督式學習訓練不起來, 可以使用強化學習的方法來試試看。 再參考網路上的文獻跟教程之後, 初步理解了像是 agent, environment, action, retrun, reward 等等專有名詞的定義, 也初步理解了 action function 以及 state transition function 這些函數的用途以及隨機性的原理。 問題來了,一般監督式學習(手寫辨識), 通常是有一些資料(X)及標記(Y), 接著就是寫一個forwrad流程來, 更新我的模型 weight 即可。 如果我要將這個問題(手寫辨識)用 RL 實作一次, 要怎樣做?我嘗試上網搜尋但是沒有找到類似的範本, 我從官方教學看到的範例是馬力歐跟木棒平衡(?) 我看完官方教學有感覺到 強化學習是要有一個互動環境才能 work 。 一般監督又要怎麼轉過去... 有沒有前輩可以指點,謝謝。 或是有看到相關的關鍵字都可以跟我說,感謝。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 218.164.5.43 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1633574972.A.644.html

10/07 18:26, 3年前 , 1F
我覺得你是不是搞混了強化學習跟遷移學習?
10/07 18:26, 1F

10/07 18:38, 3年前 , 2F
不要繞遠路吧,講一下你的資料和模型怎麼選
10/07 18:38, 2F

10/07 22:17, 3年前 , 3F
老闆希望的...我也覺得是繞遠路,但我無法說服別人...
10/07 22:17, 3F

10/08 05:03, 3年前 , 4F
怎麼會覺得supervised的做不了RL就做得出來xd
10/08 05:03, 4F

10/08 10:24, 3年前 , 5F
覺得只是換一個解題思維,當我的最佳化對象不可微分時,設
10/08 10:24, 5F

10/08 10:24, 3年前 , 6F
計為RL的reward 希望reward愈大愈好,用RL架構env-agent互
10/08 10:24, 6F

10/08 10:24, 3年前 , 7F
動來解
10/08 10:24, 7F

10/08 10:25, 3年前 , 8F
只是原po的情況,不曉得該怎麼設計為RL。
10/08 10:25, 8F

10/08 11:45, 3年前 , 9F
這須要自己寫Env.,真實世界的RL問題通常要這麼作.不過,
10/08 11:45, 9F

10/08 11:47, 3年前 , 10F
這應該比監督式學習難多了.
10/08 11:47, 10F

10/08 15:20, 3年前 , 11F
不知道你想解什麼問題 但RL通常是用來解MDP問題的
10/08 15:20, 11F

10/08 15:39, 3年前 , 12F
看到了 手寫辨識 這跟MDP問題看起來沒什麼關係
10/08 15:39, 12F

10/08 15:42, 3年前 , 13F
也許你可以聊聊遇到了什麼困難?
10/08 15:42, 13F

10/09 01:08, 3年前 , 14F
不可微明明就還有很多更直接的optimization 啊…
10/09 01:08, 14F

10/12 10:04, 3年前 , 15F
感覺走錯路了
10/12 10:04, 15F

10/22 17:54, , 16F
典型的老闆跟工程師都不知道自己的問題是什麼
10/22 17:54, 16F

10/28 11:52, , 17F
要搞 RL 先把 Sutton 教科書讀過吧
10/28 11:52, 17F

10/28 11:54, , 18F
你遇到監督式學習解決不了的,有分析清楚為何不行嗎
10/28 11:54, 18F

10/28 11:54, , 19F
如果沒有,那改用 RL 做了也解決不了怎麼辦
10/28 11:54, 19F

11/04 15:20, , 20F
重點是 problem formulation 吧
11/04 15:20, 20F
文章代碼(AID): #1XNc0yP4 (DataScience)
文章代碼(AID): #1XNc0yP4 (DataScience)