[問題] 關於Text mining tm包的問題

看板R_Language作者 (巴克球)時間9年前 (2016/02/17 09:40), 9年前編輯推噓1(101)
留言2則, 2人參與, 最新討論串1/1
[問題類型]:程式諮詢 關於tm包 [問題敘述]:最近在作文本分析,其中tm的使用方式有一些問題 1.無法用inspect()這函數將我要的內容展現出來 2.想要用segmentCN這函數取"名詞"做分析 但是抽取出來失敗 g2=function(data) { w=segmentCN(data,nature = TRUE) w[names(w) == "n"]} [程式範例]: 以下是我的code: rm(list=ls()) library("rJava") library("Rwordseg") library("tm") library("tmcn") library("wordcloud") g2=function(data) { w=segmentCN(data,nature = TRUE) w[names(w) == "n"]} d.corpus=Corpus(DirSource("D:\\bigdata\\testR\\word\\三國 ",encoding="UTF-8"),list(language=NA)) #讀目錄 d.corpus=tm_map(d.corpus,removeNumbers) #刪數字 d.corpus=tm_map(d.corpus,removePunctuation) #刪空白 d.corpus=tm_map(d.corpus, content_transformer(function(word) {gsub("[A-Za-z0-9]", "", word)})) #整理 segment.options(isNameRecognition = F) d.corpus=tm_map(d.corpus[1:120],content_transformer(g2),nature=T) #斷辭 d.corpus=tm_map(d.corpus, removeWords, stopwordsCN()) #去掉沒用的字 d.corpus=Corpus(VectorSource(d.corpus)) #儲存 inspect(d.corpus) 主要是問題二,一直失敗 .... [關鍵字]:tm 、text mining -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.26.81.29 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1455673214.A.354.html ※ 編輯: jackhzt (223.26.81.29), 02/17/2016 09:46:34

02/28 20:22, , 1F
因為segmentCN出來是list
02/28 20:22, 1F

02/29 19:33, , 2F
所以我應該用unlist的方式嗎? 不太了解
02/29 19:33, 2F
文章代碼(AID): #1Mmyz-DK (R_Language)
文章代碼(AID): #1Mmyz-DK (R_Language)