[問題] torch的backward是怎麼管理的?

看板DataScience作者 (片翼碎夢)時間2周前 (2024/04/11 14:24), 編輯推噓3(3025)
留言28則, 3人參與, 2周前最新討論串1/1
考慮一個類似STN(Spatial Transform Network)搭配一個用上CNN層的Classfier的架構 只是STN這次是靠不同於Classifier,獨立的loss function去評價並產生loss餵給STN自己 這樣的話怎麼把兩個backward分開進行? 是靠各自弄一個optimizer來管理嗎? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.77.107.182 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1712816645.A.764.html

04/12 19:45, 2周前 , 1F
你要兩個同時訓練?不考慮遷移學習?
04/12 19:45, 1F

04/12 19:45, 2周前 , 2F
我有幹過類似的東西,但是那個時候是把Loss加起來,用
04/12 19:45, 2F

04/12 19:45, 2周前 , 3F
一個 optimizer
04/12 19:45, 3F

04/13 00:43, 2周前 , 4F
我後來梳理這次要建的結構 發現合在一起還是比較合
04/13 00:43, 4F

04/13 00:43, 2周前 , 5F
適的 只不過這次的構思過程中確實激起我的好奇心
04/13 00:43, 5F

04/13 00:43, 2周前 , 6F
用一個optimizer的話應該還是同一個更新 只是loss會
04/13 00:43, 6F

04/13 00:43, 2周前 , 7F
像雙胞胎三胞胎網路那樣由多個網路輸出後合併計算吧
04/13 00:43, 7F

04/13 00:58, 2周前 , 8F
直接loss相加很有趣的感覺
04/13 00:58, 8F

04/13 06:04, 2周前 , 9F
路過好奇,請問 STN 是 Spatial Transformer Networ
04/13 06:04, 9F

04/13 06:04, 2周前 , 10F
k 嗎
04/13 06:04, 10F

04/13 06:04, 2周前 , 11F

04/13 13:59, 2周前 , 12F
是的 我看到的方法是裝在分類器裡 實際上提供評價的
04/13 13:59, 12F

04/13 13:59, 2周前 , 13F
還是分類器output後算出來的loss
04/13 13:59, 13F

04/13 13:59, 2周前 , 14F
STN算是間接跟著更新
04/13 13:59, 14F

04/13 13:59, 2周前 , 15F
個人認為這其實會為模型帶來不穩定因素
04/13 13:59, 15F

04/13 13:59, 2周前 , 16F
因為一個loss就要同時負責分類的準確度與映射的正確
04/13 13:59, 16F

04/13 14:00, 2周前 , 17F
度 意義的解釋上存在衝突
04/13 14:00, 17F

04/13 14:00, 2周前 , 18F
不過我實作上是有提升辨識準確度
04/13 14:00, 18F

04/13 14:02, 2周前 , 19F
最有趣的是 STN可以推廣到一維和多維的調參上(非指
04/13 14:02, 19F

04/13 14:02, 2周前 , 20F
超參)
04/13 14:02, 20F

04/13 14:02, 2周前 , 21F
理論上你可以用STN的方式給一維資料做平滑處理的參
04/13 14:02, 21F

04/13 14:03, 2周前 , 22F
數調整 像是多項式要幾次或窗口要多大 只要能確保這
04/13 14:03, 22F

04/13 14:03, 2周前 , 23F
個平滑過程大致上存在能收斂的地方
04/13 14:03, 23F

04/13 14:08, 2周前 , 24F
那STN就會在訓練過程中找出適合的調參
04/13 14:08, 24F

04/13 14:13, 2周前 , 25F
等等我發現我原文就有把全名打出來了XD
04/13 14:13, 25F

04/13 15:10, 2周前 , 26F
因為原文是 Transform 想說會不會跟 Transformer 不
04/13 15:10, 26F

04/13 15:10, 2周前 , 27F
是同個東西 XD
04/13 15:10, 27F

04/13 17:05, 2周前 , 28F
完全不一樣XD
04/13 17:05, 28F
文章代碼(AID): #1c5u85Ta (DataScience)
文章代碼(AID): #1c5u85Ta (DataScience)