Re: [問題] 製作dummy variable矩陣效能問題

看板R_Language作者 (拒看低質媒體)時間7年前 (2017/12/30 21:20), 編輯推噓3(306)
留言9則, 4人參與, 8年前最新討論串4/5 (看更多)
你的問題,剛好等價於在文字探勘中建立document term matrix ps. 給一段文字(一個字串),用空格或其他符號切割後建立矩陣 感謝前面幾位板友的分享,不過我從這個角度切入問題後, 可以站在巨人的肩膀來解問題(也就是以下的程式跑得比較快,是因為套件作者寫的好) 目前我覺得R 裡面做這件事情比較好的套件是text2vec, 另一個小要點是輸出的矩陣,最好是sparse,因為你的資料大部分都是0,用sparse matrix可以大幅度的加速與節省記憶體。 而且當你的球員名單越多人,加速的效果越明顯。 這是我用text2vec去處理你給的範例資料: it <- itoken(data[[1]], tokenizer = word_tokenizer, progressbar = FALSE, n_chunks = 10) it2 <- itoken(data[[2]], tokenizer = word_tokenizer, progressbar = FALSE, n_chunks = 10) vocab <- create_vocabulary(player) vectorizer <- vocab_vectorizer(vocab) m1 <- create_dtm(it, vectorizer) m2 <- create_dtm(it2, vectorizer) m2@x[] <- -1 cbind(m1, m2) 這是與其他板友的方法的比較結果: http://rpubs.com/wush978/345283 andrew43 大大的版本效能比較好 但是text2vec在打開平行處理之後,在我的電腦上可以比andrew43的方法再快一點 ※ 引述《mowgur (PINNNNN)》之銘言: : *[m- 問題: 當你想要問問題時,請使用這個類別。 : 建議先到 http://tinyurl.com/mnerchs 搜尋本板舊文。 : [問題類型]: : 效能諮詢(我想讓R 跑更快) : [軟體熟悉度]: : 使用者(已經有用R 做過不少作品) : [問題敘述]: : 大家好 我的資料是紀錄籃球比賽每個play是哪5個進攻及防守球員在場上 : 想做的事情是: 假設總共有500位球員 做出一個n(750000) x p(1000)的矩陣 : 前500欄為進攻 後500欄為防守 : 矩陣內的元素為1代表球員在場上進攻(防守為-1) 不在場上為0 : 所以每列會有5個1及5個-1還有很多個0 : 資料大概長這樣 : data$p.combination data$p.com.allowed : 1 A, B, C, D, E J, K, L, M, N : 2 A, C, F, H, I K, L, M, N, O : 3 C, D, X, Y, Z K, M, O, Q, R : ... ... ... : 人名之間是用逗號和一個空格分開 : 用我自己寫的已經跑了快12小時還沒跑完 : 想請教版上各位大大有沒有更好的寫法 : [程式範例]: : https://ideone.com/PaBtM4 : library(magrittr) : p.combination = character(1000) : for(i in 1:length(p.combination)){ : p.combination[i] = LETTERS[sample(1:26,5)] %>% paste0(collapse = ", ") : } : p.com.allowed = character(1000) : for(i in 1:length(p.com.allowed)){ : p.com.allowed[i] = LETTERS[sample(1:26,5)] %>% paste0(collapse = ", ") : } : data = data.frame(p.combination = p.combination, : p.com.allowed = p.com.allowed) : player = LETTERS[1:26] : input.matrix0 = function(data, player, off){ : X = matrix(ncol = length(player), nrow = dim(data)[1]) : for(i in 1:dim(data)[1]){ : if(off) { : colnames(X) = paste0("O_",player) : coding = 1 : pp = data$p.combination : } else { : colnames(X) = paste0("D_",player) : coding = -1 : pp = data$p.com.allowed : } : player.temp = pp[i] %>% gsub(", ", "|",.) : index = grep(player.temp, player) : X[i,index] = coding : X[i,-index] = 0 : } : return(X) : } : input.matrix = function(data, player){ : X.off = input.matrix0(data, player, T) : X.def = input.matrix0(data, player, F) : return(cbind(X.off, X.def)) : } : out = input.matrix(data,player) -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.163.182.29 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1514640039.A.C6E.html

12/30 21:50, 7年前 , 1F
多謝你也幫我寫成function了
12/30 21:50, 1F

12/31 11:11, 7年前 , 2F
又學到東西了 感謝分享:)
12/31 11:11, 2F

01/01 23:44, 8年前 , 3F
推,text2vec非常實用~ 感謝分享~~
01/01 23:44, 3F

01/02 20:38, 8年前 , 4F
推推推 謝謝大家的回復!!!! 我最後使用的方法是andrew大的
01/02 20:38, 4F

01/02 20:39, 8年前 , 5F
實際資料下去跑只花了80秒~~
01/02 20:39, 5F

01/02 20:41, 8年前 , 6F
t大的方法時間滿長的 有警告訊息 可能是我的資料沒清乾淨
01/02 20:41, 6F

01/02 20:42, 8年前 , 7F
用text2vec會做出全0的矩陣 猜測是建立vocab或vectorizer
01/02 20:42, 7F

01/02 20:43, 8年前 , 8F
的地方有問題 但我來不及仔細研究
01/02 20:43, 8F

01/02 20:44, 8年前 , 9F
最後再感謝大家拯救研究生嗚嗚嗚 R板好溫暖RRRR
01/02 20:44, 9F
文章代碼(AID): #1QHvAdnk (R_Language)
文章代碼(AID): #1QHvAdnk (R_Language)