Re: [問題] NLP英文文章處理

看板R_Language作者 (WSP)時間7年前 (2018/03/14 21:25), 編輯推噓2(203)
留言5則, 2人參與, 7年前最新討論串2/2 (看更多)
嗨,我之前處理tm的時候,也有遇到同樣的問題, 我要抓雙字詞的出現頻率,但tm包都會直接分成兩個字, 例如「social design」會被分成「social」跟「design」, 我的做法是直接把兩個字的空格去掉,黏在一起,然後用gsub()把原文替換成黏起來的, 這樣tm包在處理的時候,就會認為是一個單字了。 希望能夠解決你的問題。 ※ 引述《piercelin (pierce)》之銘言: : [問題敘述]: : 大家好,最近在練習用R跑NLP,目前處理英文文章,在斷詞方面我想使用自己的 : 詞庫進行斷詞,例如文章中"My name is Pierce",正常斷詞會斷在空格處變成"My" "name" : "is" "Pierce",但我想使用自己的詞庫讓斷詞變成:"My name" "is" "Pierce"。 : 目前Google關鍵字name entity recognition已經搜尋過,試過openNLP package, : 但都沒有辦法達到我想要的效果(使用自己的詞庫進行斷詞),請問其他有經驗的大大有 : 什麼解決的辦法嗎? : [環境敘述]: : R version 3.4.2 (2017-09-28) : Platform: x86_64-w64-mingw32/x64 (64-bit) : Running under: Windows >= 8 x64 (build 9200) : [關鍵字]: : NLP、斷詞、name entity recognition -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.161.230.25 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1521033954.A.E52.html

03/16 19:12, 7年前 , 1F
謝謝你,你的方法我目前正在嘗試,成功了再上來回覆
03/16 19:12, 1F

03/16 19:12, 7年前 , 2F
給可能需要的人
03/16 19:12, 2F

03/25 14:11, 7年前 , 3F
感謝D大的分法,英文斷詞確實比較難像中文依樣給予自訂
03/25 14:11, 3F

03/25 14:12, 7年前 , 4F
詞庫(原諒小弟不才QQ),靠著大大的方法成功解決問題,
03/25 14:12, 4F

03/25 14:12, 7年前 , 5F
謝謝!
03/25 14:12, 5F
文章代碼(AID): #1QgIBYvI (R_Language)
討論串 (同標題文章)
文章代碼(AID): #1QgIBYvI (R_Language)