[問題] 時間序列LSTM及未知詞處理

看板DataScience作者 (逼波波)時間5年前 (2019/01/10 13:39), 編輯推噓2(202)
留言4則, 2人參與, 5年前最新討論串1/1
作業系統: Linux 問題類別: DL, LSTM, Word Embedding, Word2vec, OOV 使用工具: python3, keras, tensorflow backend 問題內容: 最近在訓練時間序列的 LSTM 問題(中文詞性標記) 先把資料(已分好詞且有label)分成 training data 和 testing data 先用 training data 丟進 Word2vec 預訓練 Word Vector 再使用 LSTM 訓練、預測詞性類別 但是當 testing data 丟進去的時候,因為有些詞並不包括在 training data 中 所以這些詞變成未知詞(OOV) 我目前的處理方式是給 OOV 一個零的向量 上網查了一下大家處理 OOV 的問題,大多是英文的,沒看到中文的資料 想問問看有沒有比較好的處理中文 OOV 的方法 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.26.241 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1547098756.A.F31.html

01/10 22:46, 5年前 , 1F
如果你可以標到OOV的字 而且準確率不錯 記得趕快發論
01/10 22:46, 1F

01/10 22:46, 5年前 , 2F
01/10 22:46, 2F

01/10 22:48, 5年前 , 3F
如果你是指embedding查不到 通常會用random給值是沒錯
01/10 22:48, 3F

01/11 13:01, 5年前 , 4F
直接去掉OOV的詞也是一種作法 另外就是用char-level處理
01/11 13:01, 4F
文章代碼(AID): #1SDjg4yn (DataScience)
文章代碼(AID): #1SDjg4yn (DataScience)