[問題] bert python 手刻?

看板DataScience作者 (pppooqqq)時間4年前 (2020/05/05 14:06), 編輯推噓8(8020)
留言28則, 7人參與, 4年前最新討論串1/1
作業系統: win10 問題類別: NLP 使用工具: python 問題內容: 理論不強的狀況下,感覺看手刻程式最能體會各演算法的運行 目前在看nlp的部份 網路上有看到transformer的手刻 小弟不才,看了程式才知道李宏毅老師是在說什麼 但很多人使用bert,都說是 encoder of transformer 想請問哪裡有bert的手刻程式可以看? 還是易懂的文件? 謝謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 210.59.192.37 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1588658771.A.572.html

05/05 16:08, 4年前 , 1F

05/05 16:31, 4年前 , 2F
bert不是google幫你調好參數的transformer嗎?
05/05 16:31, 2F

05/05 19:50, 4年前 , 3F
對 可以這講 只是不太懂為什麼是encoder of transformer
05/05 19:50, 3F

05/05 19:51, 4年前 , 4F
我理解transformer的encoder運作,但不曉得bert怎麼用
05/05 19:51, 4F

05/05 20:18, 4年前 , 5F
Bert是個被訓練好的encoder,所以使用時可以不用訓練就可
05/05 20:18, 5F

05/05 20:19, 4年前 , 6F
以達到不錯的效果,你可以接在你自己的模型前面然後再進行
05/05 20:19, 6F

05/05 20:20, 4年前 , 7F
fine tune(訓練)讓他對於你現行任務擬合度更高
05/05 20:20, 7F

05/05 20:21, 4年前 , 8F
手刻bert我覺得意義不會太大,因為你沒有Google的資源
05/05 20:21, 8F

05/05 21:51, 4年前 , 9F
手刻不難啊,就只是transformer encode的部份疊上去,
05/05 21:51, 9F

05/05 21:51, 4年前 , 10F
難是難在訓練,我自己試過隨意找少量資料訓練一樣mask從
05/05 21:51, 10F

05/05 21:51, 4年前 , 11F
零訓練整個結果就是爛掉。要做到google那種質量的數據
05/05 21:51, 11F

05/05 21:51, 4年前 , 12F
還要有足夠的gpu,我自己估算最少也要跑三個月以上,直
05/05 21:51, 12F

05/05 21:51, 4年前 , 13F
接用fine tune的用前人智慧不好嗎
05/05 21:51, 13F

05/05 22:08, 4年前 , 14F
補充一下,預訓練過程其實就是跟你做fine tune的過程是
05/05 22:08, 14F

05/05 22:08, 4年前 , 15F
一樣的,google 當時的作法就是讓[CLS]輸出上下句是否
05/05 22:08, 15F

05/05 22:08, 4年前 , 16F
有關,後面你看到的token embedding做克漏字測驗,過程
05/05 22:08, 16F

05/05 22:08, 4年前 , 17F
很簡單,但是你沒有google 那些又大又好的數據集跟運算
05/05 22:08, 17F

05/05 22:08, 4年前 , 18F
資源自己訓練也是爛掉。
05/05 22:08, 18F

05/06 12:13, 4年前 , 19F
大金講得很清楚啊,就是資料灌進 變形金剛,用克漏字
05/06 12:13, 19F

05/06 12:13, 4年前 , 20F
、關聯推論加弱分類器把 encoder 的權位值調到很聰明
05/06 12:13, 20F

05/06 12:13, 4年前 , 21F
。你拿到後,直接接後段分類器,灌自己的資料,稍稍
05/06 12:13, 21F

05/06 12:13, 4年前 , 22F
調一下,就沒了。
05/06 12:13, 22F

05/06 13:12, 4年前 , 23F
原po要看code 推文在講怎麼訓練zzzz
05/06 13:12, 23F

05/06 14:03, 4年前 , 24F
他內文講code 推文講怎麼用 也很讓人誤會
05/06 14:03, 24F

05/06 16:39, 4年前 , 25F
一樓給code連結,可能有用。原po 三四樓說不知道怎麼
05/06 16:39, 25F

05/06 16:39, 4年前 , 26F
用啊,所以當然大家幫忙解釋了
05/06 16:39, 26F

05/07 12:13, 4年前 , 27F
他的用應該是指bert怎麼使用transformer 吧 不是怎
05/07 12:13, 27F

05/07 12:13, 4年前 , 28F
麼使用bert
05/07 12:13, 28F
文章代碼(AID): #1UiG9JLo (DataScience)
文章代碼(AID): #1UiG9JLo (DataScience)