[問題] tm包中Corpus的空白清除

看板R_Language作者 (拾陸)時間9年前 (2016/08/27 19:42), 9年前編輯推噓3(303)
留言6則, 2人參與, 最新討論串1/1
[問題類型]: 程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來) [軟體熟悉度]: 新手(沒寫過程式,R 是我的第一次) [問題敘述]: 我有30個用結巴斷詞後的txt檔,想要使用tm包做文字探勘 問題在我沒有辦法讓讀進來的檔案斷開成一個一個乾淨的詞 都會變成以下情況 http://imgur.com/fsHDCJY.jpg
輸入到tm包裡的Corpus之後無法清除空白 嘗試用過Rwordseg包裡的segmentCN和strsplit都不行 [程式範例]: http://ideone.com/imbirW [環境敘述]: R version 3.3.1 (2016-06-21) Platform: x86_64-w64-mingw32/x64 (64-bit) Running under: Windows >= 8 x64 (build 9200) [關鍵字]: 文字探勘 tm -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 60.245.65.177 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1472298129.A.85B.html ※ 編輯: samex4x4 (60.245.65.177), 08/27/2016 19:43:05

08/27 20:44, , 1F
gsub("\\s", "", x) can replace space
08/27 20:44, 1F
c大我不是要讓空白消失,而是要使用空白做分割 原始讀進來的檔案長這樣 http://imgur.com/bEECSUA.jpg
※ 編輯: samex4x4 (36.224.2.140), 08/27/2016 22:16:35

08/27 22:22, , 2F
so, use strsplit(x,"\\s") not work?
08/27 22:22, 2F
會變成這樣 http://imgur.com/ukSMAlG.jpg
就算切開了 http://imgur.com/nQQlKgb.jpg
做成表格也會是這樣 http://imgur.com/AKj69nQ

08/27 22:52, , 3F
應該先問你檔案內的文字怎麼分割的。
08/27 22:52, 3F

08/27 22:53, , 4F
用空白分割就,scan(file, sep=" ")
08/27 22:53, 4F
原始是每篇文章斷詞後寫出成一個txt空白切割 使用Dirsource讀進來(我猜)應該是用readLines,因為是一個很長的charactor 但不能切割完後再放進去tm包內的Corpus是我頭痛的地方Orz 就算事後再切一刀變成這樣 http://imgur.com/nQQlKgb.jpg
跑出來的表格也不會照我想得跑 ※ 編輯: samex4x4 (36.224.2.140), 08/27/2016 23:10:05

08/28 08:23, , 5F
so the problem is TermDocumentMatrix, not "strsplit"?
08/28 08:23, 5F

08/28 08:25, , 6F
try ..(..,control = list(wordLengths = c(1, Inf)))?
08/28 08:25, 6F
找到tm包裡有個方法是stripWhitespace 解決了!!!!!!! ※ 編輯: samex4x4 (36.224.2.140), 08/28/2016 16:38:13
文章代碼(AID): #1NmNoHXR (R_Language)
文章代碼(AID): #1NmNoHXR (R_Language)