[問題] 建立TDM做文檔矩陣時出現亂碼
[問題類型]: 建立TermDocumentMatrix作文檔矩陣時出現亂碼
程式諮詢
[軟體熟悉度]:
新手(沒寫過程式,R 是我的第一次)
[問題敘述]:
R 3.3.3 (32-bit)
我正在做ptt網路爬蟲的文本探勘, 參考 陳嘉葳用R進行中文 text Mining,前面
都很順利直到在建立 TermDocumentMatrix作文檔矩陣時,就出現錯誤了,
inspect(tdm[1:10, 1:2])
#############
Error in nchar(Terms(x), type = "chars") :
invalid multibyte string, element 1
##############
於是檢查了一下文檔,執行查看停用字head(myStopWords,20)出現是正確的文字(非
亂碼),所以應該不是編碼問題,在findFreqTerms看關鍵字時文字就變亂碼了。麻
煩各位幫我解惑一下怎麼排解文檔矩陣出現亂碼的問題。
Environment
https://goo.gl/zlJTQb
指令
https://goo.gl/zKDl5j
[環境敘述]:
R 3.3.3 (32-bit)
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.173.141.139
※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1491023327.A.366.html
※ 編輯: saladang (1.173.141.139), 04/01/2017 13:10:32
推
04/02 18:09, , 1F
04/02 18:09, 1F
→
04/03 18:18, , 2F
04/03 18:18, 2F
→
04/03 19:11, , 3F
04/03 19:11, 3F
推
04/03 20:04, , 4F
04/03 20:04, 4F
→
04/03 20:05, , 5F
04/03 20:05, 5F

→
04/03 20:05, , 6F
04/03 20:05, 6F
→
04/03 20:27, , 7F
04/03 20:27, 7F

已經將部分指令以圖片方式放上,請各位幫忙
※ 編輯: saladang (36.236.90.159), 04/03/2017 23:23:08
※ 編輯: saladang (36.236.90.159), 04/03/2017 23:42:12
推
04/06 07:48, , 8F
04/06 07:48, 8F
→
04/06 07:48, , 9F
04/06 07:48, 9F
→
04/06 07:50, , 10F
04/06 07:50, 10F
→
04/06 07:51, , 11F
04/06 07:51, 11F
→
04/06 17:26, , 12F
04/06 17:26, 12F
推
04/10 23:21, , 13F
04/10 23:21, 13F
→
04/10 23:21, , 14F
04/10 23:21, 14F
推
04/10 23:28, , 15F
04/10 23:28, 15F
推
04/16 00:44, , 16F
04/16 00:44, 16F
推
05/01 15:49, , 17F
05/01 15:49, 17F
→
05/01 15:49, , 18F
05/01 15:49, 18F
R_Language 近期熱門文章
PTT數位生活區 即時熱門文章