[問題] tm包中Corpus的空白清除
[問題類型]:
程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來)
[軟體熟悉度]:
新手(沒寫過程式,R 是我的第一次)
[問題敘述]:
我有30個用結巴斷詞後的txt檔,想要使用tm包做文字探勘
問題在我沒有辦法讓讀進來的檔案斷開成一個一個乾淨的詞
都會變成以下情況
http://imgur.com/fsHDCJY.jpg

輸入到tm包裡的Corpus之後無法清除空白
嘗試用過Rwordseg包裡的segmentCN和strsplit都不行
[程式範例]:
http://ideone.com/imbirW
[環境敘述]:
R version 3.3.1 (2016-06-21)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows >= 8 x64 (build 9200)
[關鍵字]:
文字探勘 tm
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 60.245.65.177
※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1472298129.A.85B.html
※ 編輯: samex4x4 (60.245.65.177), 08/27/2016 19:43:05
推
08/27 20:44, , 1F
08/27 20:44, 1F
c大我不是要讓空白消失,而是要使用空白做分割
原始讀進來的檔案長這樣
http://imgur.com/bEECSUA.jpg

※ 編輯: samex4x4 (36.224.2.140), 08/27/2016 22:16:35
→
08/27 22:22, , 2F
08/27 22:22, 2F
推
08/27 22:52, , 3F
08/27 22:52, 3F
→
08/27 22:53, , 4F
08/27 22:53, 4F
原始是每篇文章斷詞後寫出成一個txt空白切割
使用Dirsource讀進來(我猜)應該是用readLines,因為是一個很長的charactor
但不能切割完後再放進去tm包內的Corpus是我頭痛的地方Orz
就算事後再切一刀變成這樣
http://imgur.com/nQQlKgb.jpg

跑出來的表格也不會照我想得跑
※ 編輯: samex4x4 (36.224.2.140), 08/27/2016 23:10:05
推
08/28 08:23, , 5F
08/28 08:23, 5F
→
08/28 08:25, , 6F
08/28 08:25, 6F
找到tm包裡有個方法是stripWhitespace
解決了!!!!!!!
※ 編輯: samex4x4 (36.224.2.140), 08/28/2016 16:38:13
R_Language 近期熱門文章
PTT數位生活區 即時熱門文章

