[問題] data frame轉corpus前過濾非英文字詞

看板R_Language作者 (??)時間9年前 (2016/03/19 10:31), 編輯推噓0(005)
留言5則, 2人參與, 最新討論串1/1
[問題類型]: 程式諮詢 [軟體熟悉度]: 入門 [問題敘述]: 大家好,我現在處理data frame時遇到一個問題 我從資料庫取出資料後存為data frame的形式 但裡面內容語言部份是簡體中文、日文等,例如 text 1 今天天氣很好... 2 It's good但是... 我現在需要把非英文的字詞在轉入corpus前先行過濾掉 之前有去stackoverflow找相關的解決辦法 目前有找到一篇 http://goo.gl/arqKWi 但是我不太熟如何將data frame先拆解後再過濾 請問有什麼方法可以協助我解決這個問題呢? 謝謝各位! [環境敘述]: R ver 3.2.3;套件:RMySQL & tm -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.116.96.199 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1458354708.A.6E3.html

03/19 12:16, , 1F
你可以先用strsplit把字一個個切出來,然後要求他們只能
03/19 12:16, 1F

03/19 12:17, , 2F
是a-z, A-Z, 0-9 以及其他你覺得要放的文字
03/19 12:17, 2F

03/19 12:18, , 3F
或是用jieba斷詞後,把那些非英文的詞通通扔掉
03/19 12:18, 3F

03/19 12:18, , 4F
你可以試試看jiebaR套件
03/19 12:18, 4F

03/19 14:29, , 5F
謝謝~
03/19 14:29, 5F
文章代碼(AID): #1MxBeKRZ (R_Language)
文章代碼(AID): #1MxBeKRZ (R_Language)