PTT數位生活區 / DataScience

[問題] 想請問中文資料前處理

看板DataScience作者wayne64001 (哥，閉嘴啦)時間6年前 (2019/11/08 16:00)推噓14(14推 0噓 9→)

留言23則, 10人參與討論串1/1

小弟我是第一次處理中文資料的問題目前是打算用Keras LSTM做新聞的 Multi label classification 但是4個epoch就遇到了overfitting的問題 validation loss開始上升且validation的準確率也只有5成我稍微評估了一下問題應該在我前處理的部份(有試dropout跟 L1 L2) 我目前處理的方法為讀取資料後就利用jieba.cut 並讀取別人建立的字典同時也用stopword字典去除停詞這兩個步驟後就放入keras Tokenizer, texts_to_sequences, sequence.pad_sequences 成為我的X 而後就在model內進行Embedding 想請問處理繁體中文資料要怎麼修改才不會overfitting呢？ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.246.89.216 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1573200041.A.C8E.html ※ 編輯: wayne64001 (111.246.89.216 臺灣), 11/08/2019 16:02:02

推

11/08 18:45, 6年前 , 1^F

11/08 18:45, 1^F

推

11/08 18:47, 6年前 , 2^F

11/08 18:47, 2^F

推

11/08 18:47, 6年前 , 3^F

11/08 18:47, 3^F

推

11/09 00:41, 6年前 , 4^F

11/09 00:41, 4^F

ckip處理大量資料要跑好久...是個人問題嗎? ※ 編輯: wayne64001 (101.10.98.164 臺灣), 11/09/2019 13:50:04

推

11/10 00:56, 6年前 , 5^F

11/10 00:56, 5^F

→

11/10 00:56, 6年前 , 6^F

11/10 00:56, 6^F

推

11/11 02:45, 6年前 , 7^F

11/11 02:45, 7^F

推

11/12 09:01, 6年前 , 8^F

11/12 09:01, 8^F

→

11/12 09:02, 6年前 , 9^F

11/12 09:02, 9^F

→

11/12 11:54, 6年前 , 10^F

11/12 11:54, 10^F

推

11/12 19:16, 6年前 , 11^F

11/12 19:16, 11^F

推

11/12 19:44, 6年前 , 12^F

11/12 19:44, 12^F

→

11/12 19:44, 6年前 , 13^F

11/12 19:44, 13^F

→

11/12 19:44, 6年前 , 14^F

11/12 19:44, 14^F

→

11/12 19:45, 6年前 , 15^F

11/12 19:45, 15^F

推

11/16 16:53, 6年前 , 16^F

11/16 16:53, 16^F

推

11/16 18:12, 6年前 , 17^F

11/16 18:12, 17^F

推

11/21 15:59, 6年前 , 18^F

11/21 15:59, 18^F

→

11/21 15:59, 6年前 , 19^F

11/21 15:59, 19^F

推

11/21 22:35, 6年前 , 20^F

11/21 22:35, 20^F

→

11/21 22:36, 6年前 , 21^F

11/21 22:36, 21^F

→

11/22 09:28, 6年前 , 22^F

11/22 09:28, 22^F

推

11/24 18:58, 6年前 , 23^F

11/24 18:58, 23^F

‣ 返回看板[ DataScience ] 研討

‣ 更多 wayne64001 的文章

文章代碼(AID): #1TnI2foE (DataScience)

DataScience 近期熱門文章

3

17

[討論] 請問有真正把AI運用到工作、投資、或賺

[ DataScience ]

7月前, 11/26

6

17

[討論] 各位會買相關書籍來看嗎?

[ DataScience ]

8月前, 10/31

3

10

[問題] 請問想看CV相關討論適合去何處

[ DataScience ]

9月前, 10/17

2

6

[問題] 文字探勘的特徵選取問題

[ DataScience ]

1年前, 07/01

1

9

[問題] 請問kaggle有商業方案嗎? 它每週gpu的限

[ DataScience ]

1年前, 02/26

4

4

[徵才] 美國Amazon暑期實習生

[ DataScience ]

1年前, 01/23

1

6

[問題] 請教大家有推薦的GPU租用服務嗎?

[ DataScience ]

1年前, 12/20

3

8

[討論] 如何計算兩個不同欄的相似度？

[ DataScience ]

1年前, 09/07

更多近期熱門文章 >>

PTT數位生活區即時熱門文章

2

9

[請益] 威剛雙通道送修

[ PC_Shopping ]

6小時前, 07/22

64

108

[Live] Samsung Galaxy Unpacked July 2026

6小時前, 07/22

20

45

[賣/全國/皆可] 金士頓FURYM21TBSSD SFYRS/1000G

[ HardwareSale ]

7小時前, 07/22

5

5

[賣/台中/面交] ddr4-16g/8g/3060ti/12400F

[ HardwareSale ]

8小時前, 07/22

8

11

[開箱] 保銳REVOLUTION III性價比金靜冰核白化版

[ PC_Shopping ]

8小時前, 07/22

10

49

[心得] Android自動轉寄簡訊驗證碼到Email

8小時前, 07/22

2

10

[問題] S24 Ultra yotube無法懸浮

10小時前, 07/22

6

16

[請益] 是否該搭配DAC升級

10小時前, 07/22

更多即時熱門文章 >>

‣ 返回看板[ DataScience ] 研討

‣ 更多 wayne64001 的文章

文章代碼(AID): #1TnI2foE (DataScience)