[問題] 監督式學習的資料使用強化學習方法實作
看板DataScience作者wheado (principal component QQ)時間3年前 (2021/10/07 10:49)推噓4(4推 0噓 16→)留言20則, 11人參與討論串1/1
由於工作上遇到一般監督式學習解決不了的問題,
也可能是功力不到家,
總之會需要用強化學習試試看,
我目前的問題是一個監督式學習,有X有Y但就是學習不起來。
從課程上知道如果一個監督式學習訓練不起來,
可以使用強化學習的方法來試試看。
再參考網路上的文獻跟教程之後,
初步理解了像是 agent, environment, action, retrun, reward
等等專有名詞的定義,
也初步理解了 action function
以及 state transition function 這些函數的用途以及隨機性的原理。
問題來了,一般監督式學習(手寫辨識),
通常是有一些資料(X)及標記(Y),
接著就是寫一個forwrad流程來,
更新我的模型 weight 即可。
如果我要將這個問題(手寫辨識)用 RL 實作一次,
要怎樣做?我嘗試上網搜尋但是沒有找到類似的範本,
我從官方教學看到的範例是馬力歐跟木棒平衡(?)
我看完官方教學有感覺到
強化學習是要有一個互動環境才能 work 。
一般監督又要怎麼轉過去...
有沒有前輩可以指點,謝謝。
或是有看到相關的關鍵字都可以跟我說,感謝。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 218.164.5.43 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1633574972.A.644.html
→
10/07 18:26,
3年前
, 1F
10/07 18:26, 1F
→
10/07 18:38,
3年前
, 2F
10/07 18:38, 2F
→
10/07 22:17,
3年前
, 3F
10/07 22:17, 3F
推
10/08 05:03,
3年前
, 4F
10/08 05:03, 4F
推
10/08 10:24,
3年前
, 5F
10/08 10:24, 5F
→
10/08 10:24,
3年前
, 6F
10/08 10:24, 6F
→
10/08 10:24,
3年前
, 7F
10/08 10:24, 7F
→
10/08 10:25,
3年前
, 8F
10/08 10:25, 8F
→
10/08 11:45,
3年前
, 9F
10/08 11:45, 9F
→
10/08 11:47,
3年前
, 10F
10/08 11:47, 10F
→
10/08 15:20,
3年前
, 11F
10/08 15:20, 11F
→
10/08 15:39,
3年前
, 12F
10/08 15:39, 12F
→
10/08 15:42,
3年前
, 13F
10/08 15:42, 13F
→
10/09 01:08,
3年前
, 14F
10/09 01:08, 14F
推
10/12 10:04,
3年前
, 15F
10/12 10:04, 15F
推
10/22 17:54, , 16F
10/22 17:54, 16F
→
10/28 11:52, , 17F
10/28 11:52, 17F
→
10/28 11:54, , 18F
10/28 11:54, 18F
→
10/28 11:54, , 19F
10/28 11:54, 19F
→
11/04 15:20, , 20F
11/04 15:20, 20F
DataScience 近期熱門文章
PTT數位生活區 即時熱門文章