[問題] 想請問中文資料前處理
小弟我是第一次處理中文資料的問題
目前是打算用Keras LSTM做新聞的 Multi label classification
但是4個epoch就遇到了overfitting的問題 validation loss開始上升 且validation的準
確率也只有5成
我稍微評估了一下 問題應該在我前處理的部份(有試dropout跟 L1 L2)
我目前處理的方法為讀取資料後就利用jieba.cut 並讀取別人建立的字典
同時也用stopword字典去除停詞
這兩個步驟後就放入keras Tokenizer, texts_to_sequences, sequence.pad_sequences
成為我的X 而後就在model內進行Embedding
想請問處理繁體中文資料要怎麼修改才不會overfitting呢?
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.246.89.216 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1573200041.A.C8E.html
※ 編輯: wayne64001 (111.246.89.216 臺灣), 11/08/2019 16:02:02
推
11/08 18:45,
5年前
, 1F
11/08 18:45, 1F
推
11/08 18:47,
5年前
, 2F
11/08 18:47, 2F
推
11/08 18:47,
5年前
, 3F
11/08 18:47, 3F
推
11/09 00:41,
5年前
, 4F
11/09 00:41, 4F
ckip處理大量資料要跑好久...是個人問題嗎?
※ 編輯: wayne64001 (101.10.98.164 臺灣), 11/09/2019 13:50:04
推
11/10 00:56,
5年前
, 5F
11/10 00:56, 5F
→
11/10 00:56,
5年前
, 6F
11/10 00:56, 6F
推
11/11 02:45,
5年前
, 7F
11/11 02:45, 7F
推
11/12 09:01,
5年前
, 8F
11/12 09:01, 8F
→
11/12 09:02,
5年前
, 9F
11/12 09:02, 9F
→
11/12 11:54,
5年前
, 10F
11/12 11:54, 10F
推
11/12 19:16,
5年前
, 11F
11/12 19:16, 11F
推
11/12 19:44,
5年前
, 12F
11/12 19:44, 12F
→
11/12 19:44,
5年前
, 13F
11/12 19:44, 13F
→
11/12 19:44,
5年前
, 14F
11/12 19:44, 14F
→
11/12 19:45,
5年前
, 15F
11/12 19:45, 15F
推
11/16 16:53,
5年前
, 16F
11/16 16:53, 16F
推
11/16 18:12,
5年前
, 17F
11/16 18:12, 17F
推
11/21 15:59,
5年前
, 18F
11/21 15:59, 18F
→
11/21 15:59,
5年前
, 19F
11/21 15:59, 19F
推
11/21 22:35,
5年前
, 20F
11/21 22:35, 20F
→
11/21 22:36,
5年前
, 21F
11/21 22:36, 21F
→
11/22 09:28,
5年前
, 22F
11/22 09:28, 22F
推
11/24 18:58,
5年前
, 23F
11/24 18:58, 23F
DataScience 近期熱門文章
PTT數位生活區 即時熱門文章