[問題] 想請問中文資料前處理

看板DataScience作者 (哥,閉嘴啦)時間4年前 (2019/11/08 16:00), 4年前編輯推噓14(1409)
留言23則, 10人參與, 4年前最新討論串1/1
小弟我是第一次處理中文資料的問題 目前是打算用Keras LSTM做新聞的 Multi label classification 但是4個epoch就遇到了overfitting的問題 validation loss開始上升 且validation的準 確率也只有5成 我稍微評估了一下 問題應該在我前處理的部份(有試dropout跟 L1 L2) 我目前處理的方法為讀取資料後就利用jieba.cut 並讀取別人建立的字典 同時也用stopword字典去除停詞 這兩個步驟後就放入keras Tokenizer, texts_to_sequences, sequence.pad_sequences 成為我的X 而後就在model內進行Embedding 想請問處理繁體中文資料要怎麼修改才不會overfitting呢? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.246.89.216 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1573200041.A.C8E.html ※ 編輯: wayne64001 (111.246.89.216 臺灣), 11/08/2019 16:02:02

11/08 18:45, 4年前 , 1F
可以試試用字不要用詞(?
11/08 18:45, 1F

11/08 18:47, 4年前 , 2F
我猜有可能語料太小OOV太多,而且一些論文顯示斷詞不會讓
11/08 18:47, 2F

11/08 18:47, 4年前 , 3F
你得到更好的效果
11/08 18:47, 3F

11/09 00:41, 4年前 , 4F
試試ckipws
11/09 00:41, 4F
ckip處理大量資料要跑好久...是個人問題嗎? ※ 編輯: wayne64001 (101.10.98.164 臺灣), 11/09/2019 13:50:04

11/10 00:56, 4年前 , 5F
直接用bert來做transfer learning吧~他有中文預訓練模
11/10 00:56, 5F

11/10 00:56, 4年前 , 6F
型也不用管斷詞問題
11/10 00:56, 6F

11/11 02:45, 4年前 , 7F
bert直接下去啊 斷詞用結巴效果不好 除非是有改過的
11/11 02:45, 7F

11/12 09:01, 4年前 , 8F
CKIP本來就要跑很久是他的弱點
11/12 09:01, 8F

11/12 09:02, 4年前 , 9F
現在都bert就不用管懂不懂那個詞了,超好用
11/12 09:02, 9F

11/12 11:54, 4年前 , 10F
直接芝麻街好朋友系列一排試下來XDD, BERT, ELMO
11/12 11:54, 10F

11/12 19:16, 4年前 , 11F
bert真心好用
11/12 19:16, 11F

11/12 19:44, 4年前 , 12F
大家bert都pip安裝哪個寫啊
11/12 19:44, 12F

11/12 19:44, 4年前 , 13F
transformers嗎
11/12 19:44, 13F

11/12 19:44, 4年前 , 14F
還是bert-tensorflow
11/12 19:44, 14F

11/12 19:45, 4年前 , 15F
我是用前者
11/12 19:45, 15F

11/16 16:53, 4年前 , 16F
huggingface有bert的pytorch版,還蠻好用的
11/16 16:53, 16F

11/16 18:12, 4年前 , 17F
我就是用huggingface的transformers 但我用tf版
11/16 18:12, 17F

11/21 15:59, 4年前 , 18F
樓上大大能否給個關鍵字,我想看斷詞不太影響結果的
11/21 15:59, 18F

11/21 15:59, 4年前 , 19F
論文
11/21 15:59, 19F

11/21 22:35, 4年前 , 20F
Is Word Segmentation Necessary for Deep Learning of
11/21 22:35, 20F

11/21 22:36, 4年前 , 21F
11/21 22:36, 21F

11/22 09:28, 4年前 , 22F
我是用tf2.0的modeling模組
11/22 09:28, 22F

11/24 18:58, 4年前 , 23F
感謝
11/24 18:58, 23F
文章代碼(AID): #1TnI2foE (DataScience)
文章代碼(AID): #1TnI2foE (DataScience)