Re: [討論] for loop與*apply function請益

看板R_Language作者 (Logit(odds))時間9年前 (2015/05/22 14:33), 9年前編輯推噓0(0029)
留言29則, 3人參與, 最新討論串3/4 (看更多)
assign.group <- function(value){ if(value < 0.25){return_value <- "group1"} else if(value < 0.5){return_value <- "group2" } else if(value < 0.75){return_value <- "group3" } else return_value <- "group4" return_value } ## 新增欄位並填入值 add.col.group <- function(data){ data$group <- 0 data$group <- sapply(data$avg, assign_group) ##avg即為第八個欄位的名稱 data } ----------------------------------------------------- 當你餵進去的變數是單純的 numeric 是最快的 但是看起來你餵進去的是 factor 而非 numeric ----------------------------------------------------- 首先看看你的 data 變數, 看起來應該是 class::dataframe 然後你使用了 data$avg, 這邊應該預設是 class::factor (你 avg 本來應該是用做 numeric 而非 factor) 這代表當你用 sapply() 放進 20000 筆資料, 每個 factor 又會產生 20000 筆 level 這時你就使用了 20000*20000 的記憶體容量 你可以試試把 data$avg 事先拉出來 宣告為 numeric 原則上 factor 只用在統計的線性模型, 有很多預設的性質, 不利簡單計算與資料處理 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.32.201.238 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1432276402.A.8BC.html ※ 編輯: gsuper (114.32.201.238), 05/22/2015 14:37:56 ※ 編輯: gsuper (114.32.201.238), 05/22/2015 16:17:52

05/22 19:35, , 1F
如果用factor,還能產生出正常結果嗎?
05/22 19:35, 1F

05/22 23:51, , 2F
有時候可以 但容易出bug 所以我一像都會避開這種格式
05/22 23:51, 2F

05/22 23:53, , 3F
恩恩,我只是想說factor通常被當成1,2,3,...
05/22 23:53, 3F

05/22 23:53, , 4F
不確定double變成factor是否可以一樣的數值運算
05/22 23:53, 4F

05/22 23:54, , 5F
我自己run是會出現錯誤In Ops.factor(a, 0.25) :
05/22 23:54, 5F

05/22 23:55, , 6F
‘>’ not meaningful for factors
05/22 23:55, 6F

05/22 23:55, , 7F
as.numeric(as.matrix(factor)) 我都是這樣宣告的
05/22 23:55, 7F

05/22 23:56, , 8F
不用去管float, double, numeric, integer 等細節
05/22 23:56, 8F

05/22 23:56, , 9F
R應該不會自動把double轉成factor才是。
05/22 23:56, 9F

05/22 23:56, , 10F
因為 read.table 會預設是dataframe
05/22 23:56, 10F

05/22 23:57, , 11F
然後dataframe$vector 好像大部分是預設 factor
05/22 23:57, 11F

05/22 23:57, , 12F
但是細節我也不清楚 所以讀取檔案以後 一定會這樣寫
05/22 23:57, 12F

05/22 23:58, , 13F
這個你應該誤會了吧
05/22 23:58, 13F

05/22 23:58, , 14F
gsub("^ *| *$","",as.matrix(read.table("檔案")))
05/22 23:58, 14F

05/22 23:58, , 15F
R只會自動轉換文字到factor,整數還是維持整數
05/22 23:58, 15F

05/22 23:59, , 16F
那我之後測試看看... factor的屬性我不是很熟
05/22 23:59, 16F

05/23 00:00, , 17F
我自己測試是只有character會自動轉換
05/23 00:00, 17F

05/23 00:01, , 18F
read.table有一個option是as.is 可以設定是否要轉
05/23 00:01, 18F

05/23 00:03, , 19F
不過我覺得原po 的問題主因可能還是餵 factor 給 sapply()
05/23 00:03, 19F

05/23 00:03, , 20F
因為這狀況我碰過很多次
05/23 00:03, 20F

05/23 00:04, , 21F
data$avg預設是factor,我覺得怪怪,可以再討論
05/23 00:04, 21F

05/23 00:04, , 22F
給他測試看看囉...原po試試 class(data$avg)
05/23 00:04, 22F

05/23 00:05, , 23F
告訴我們結果是什麼
05/23 00:05, 23F

05/23 00:05, , 24F
不過至少,沒有轉換過的factor,'>'是不能用
05/23 00:05, 24F

05/23 00:16, , 25F
抱歉這麼晚回,因為今天我比較晚回來,明天又要早起,所以
05/23 00:16, 25F

05/23 00:16, , 26F
暫時無法測試…各位大大的回饋我都會一一測試消化,不過我
05/23 00:16, 26F

05/23 00:16, , 27F
這裡可以先跟g大補充一下,如果我沒記錯的話,我data$avg
05/23 00:16, 27F

05/23 00:16, , 28F
的資料是有前處理轉成numeric的 所以應該不是餵factor的問
05/23 00:16, 28F

05/23 00:16, , 29F
題?
05/23 00:16, 29F
文章代碼(AID): #1LNisoYy (R_Language)
文章代碼(AID): #1LNisoYy (R_Language)