[問題] 提升關鍵字提取的準確度
嗨大家晚安
我想問一個我最近碰到的問題:
假設我想為PTT上每一篇熱門文章標上關鍵字,若以非監督式學習直接套用TFIDF
分類,準確率我們都知道和人類想比是望塵莫及的。
所以假設我們已經手動標註了5000篇文章。並產生一萬個關鍵字
(其中有7000個關鍵字不重複),
此時我們可以把這七千個關鍵字加入分詞字典,讓文章可以更如我們所願地被分詞,
同時在這些關鍵字上帶上加權,只要分詞出來的詞在這些關鍵字裡面,就給
x*(關鍵字出現次數)
舉例來說,這一萬個關鍵字裡面,"口罩"出現了24次,那就給24x當權重
如此一來,關鍵字的準確度的確能夠有所提升,但出現了以下的缺點:
1.
若非在這手動分出的7000個關鍵字裡面,則幾乎不可能被當關鍵字被提出,
原因可能為加權太重,但如果加權太輕,則會有許多無關緊要的字詞被提取出
2.
機器無法學習新字,雖然我們可以爬google每日熱門搜尋關鍵字加入字典,
但依然不夠使用
3.
因應第1,2點,我想讓TFIDF值高於某一定值時也能被提取出,但我們知道
TFIDF值會隨著文章字數改變,我不想提取到不重要的詞,因此我們需要一個filter,
讓文章字數少時filter高,文章字數多時filter低,想問有甚麼曲線比較適合呢?
(如果單純取第三四分位數或TFIDF在前80%以上的字還是有可能取到不重要的詞)
以上三點是我主要的瓶頸,如果還有甚麼方法可以讓模型表現更好,還請不吝指教
謝謝各位
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.228.66.247 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1580651962.A.798.html
※ 編輯: moodoa3583 (36.228.66.247 臺灣), 02/02/2020 22:00:46
推
02/03 19:26,
4年前
, 1F
02/03 19:26, 1F
嗨,感謝回文。因為ptt上有許多鄉民用語,所以單純用中研院或其他原生套件並不能萃取出好的分詞,才會想要用監督式的方法
※ 編輯: moodoa3583 (114.137.201.144 臺灣), 02/03/2020 19:56:21
推
02/05 09:08,
4年前
, 2F
02/05 09:08, 2F
有點相反過來,bm25應該是輸入n個關鍵字進模型然後找出相關文本?跟搜尋引擎的概念比較像
※ 編輯: moodoa3583 (114.137.201.144 臺灣), 02/05/2020 09:26:04
DataScience 近期熱門文章
PTT數位生活區 即時熱門文章