[問題] 建立TDM做文檔矩陣時出現亂碼

看板R_Language作者 (沙拉蛋的阿哥哥)時間8年前 (2017/04/01 13:08), 8年前編輯推噓7(7011)
留言18則, 6人參與, 最新討論串1/1
[問題類型]: 建立TermDocumentMatrix作文檔矩陣時出現亂碼 程式諮詢 [軟體熟悉度]: 新手(沒寫過程式,R 是我的第一次) [問題敘述]: R 3.3.3 (32-bit) 我正在做ptt網路爬蟲的文本探勘, 參考 陳嘉葳用R進行中文 text Mining,前面 都很順利直到在建立 TermDocumentMatrix作文檔矩陣時,就出現錯誤了, inspect(tdm[1:10, 1:2]) ############# Error in nchar(Terms(x), type = "chars") : invalid multibyte string, element 1 ############## 於是檢查了一下文檔,執行查看停用字head(myStopWords,20)出現是正確的文字(非 亂碼),所以應該不是編碼問題,在findFreqTerms看關鍵字時文字就變亂碼了。麻 煩各位幫我解惑一下怎麼排解文檔矩陣出現亂碼的問題。 Environment https://goo.gl/zlJTQb 指令 https://goo.gl/zKDl5j [環境敘述]: R 3.3.3 (32-bit) -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.173.141.139 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1491023327.A.366.html ※ 編輯: saladang (1.173.141.139), 04/01/2017 13:10:32

04/02 18:09, , 1F
http://goo.gl/KtBzF0 這是我之前寫的,你試試看吧
04/02 18:09, 1F

04/03 18:18, , 2F
謝謝w大,試過您的,結果還是沒有成功解決問題。
04/03 18:18, 2F

04/03 19:11, , 3F
你要不要把code放上來,我有空幫你看一下
04/03 19:11, 3F

04/03 20:04, , 4F
剛剛無聊把 "陳嘉葳用R進行中文 text Mining" 跑了一
04/03 20:04, 4F

04/03 20:05, , 5F
沒出問題
04/03 20:05, 5F

04/03 20:05, , 6F
不過我用的是 R-3.3.2 on Slackware linux
04/03 20:05, 6F

04/03 20:27, , 7F
已經將部分指令以圖片方式放上,請各位幫忙 ※ 編輯: saladang (36.236.90.159), 04/03/2017 23:23:08 ※ 編輯: saladang (36.236.90.159), 04/03/2017 23:42:12

04/06 07:48, , 8F
不知道你問題解決了沒,我在想你的語言編碼是用utf8
04/06 07:48, 8F

04/06 07:48, , 9F
還是用big5 ?
04/06 07:48, 9F

04/06 07:50, , 10F
你用陳嘉葳text Mining的script方法,裡面有用到中國
04/06 07:50, 10F

04/06 07:51, , 11F
簡體 GB2312 的東西,會不會是這個問題?
04/06 07:51, 11F

04/06 17:26, , 12F
問題還沒解決,我的是utf8
04/06 17:26, 12F

04/10 23:21, , 13F
google 到的 跑TDM前 多跑一行
04/10 23:21, 13F

04/10 23:21, , 14F
1Sys.setlocale(category='LC_ALL', locale='C')
04/10 23:21, 14F

04/10 23:28, , 15F
更正 "Sys.setlocale(category='LC_ALL', locale='C')"
04/10 23:28, 15F

04/16 00:44, , 16F
遇到同樣的問題耶 求解TT
04/16 00:44, 16F

05/01 15:49, , 17F
用Sys.setlocal語系設為C,還是沒用...
05/01 15:49, 17F

05/01 15:49, , 18F
請問有其它解法嗎?
05/01 15:49, 18F
文章代碼(AID): #1OtpNVDc (R_Language)
文章代碼(AID): #1OtpNVDc (R_Language)