[問題] 時間序列LSTM及未知詞處理
作業系統: Linux
問題類別: DL, LSTM, Word Embedding, Word2vec, OOV
使用工具: python3, keras, tensorflow backend
問題內容:
最近在訓練時間序列的 LSTM 問題(中文詞性標記)
先把資料(已分好詞且有label)分成 training data 和 testing data
先用 training data 丟進 Word2vec 預訓練 Word Vector
再使用 LSTM 訓練、預測詞性類別
但是當 testing data 丟進去的時候,因為有些詞並不包括在 training data 中
所以這些詞變成未知詞(OOV)
我目前的處理方式是給 OOV 一個零的向量
上網查了一下大家處理 OOV 的問題,大多是英文的,沒看到中文的資料
想問問看有沒有比較好的處理中文 OOV 的方法
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.26.241
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1547098756.A.F31.html
推
01/10 22:46,
5年前
, 1F
01/10 22:46, 1F
→
01/10 22:46,
5年前
, 2F
01/10 22:46, 2F
推
01/10 22:48,
5年前
, 3F
01/10 22:48, 3F
→
01/11 13:01,
5年前
, 4F
01/11 13:01, 4F
DataScience 近期熱門文章
PTT數位生活區 即時熱門文章