[問題] 平均分布分割測試與訓練資料
[問題類型]:
程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來)
[軟體熟悉度]:
入門(寫過其他程式,只是對語法不熟悉)
[問題敘述]:
透過logit model,用各個商品的屬性及是否閱讀商品評論,預測消費者會購買哪種商品
為了實作predit()要分割資料集
已知caret package的createDataPartition能將訓練與測試集的商品依比例平均分布
但資料集為long format,每四列為一個單位(一個受測者產生四列資料,為四個商品)
使用createDataPartition後,資料被打散了,不再是每四列為一單位
該如何保持資料每四列一個單位,但訓練與測試集中的商品還是可以按比例分布呢?
ps被購買的商品比例本來就不平均,但希望訓練集與測試集的比例相同,例如10:5:2:1
[程式範例]:
共有432名受測者,1728列資料,long format資料集如圖 http://imgur.com/pWhvNCF

各商品被購買的比例大約為
HighJ HighU LowJ LowU
272 80 60 20
library(caret)
Train <- createDataPartition(mydata$purchase, p=0.6, list=FALSE)
training <- mydata[ Train, ]
testing <- mydata[ -Train, ]
照上述程式碼跑無錯誤訊息,但是資料被打散
推測可能是用來取index的mydate$purchase有問題,不知道該怎麼改才好@@
[環境敘述]:
R version: 3.2.3 (2015-12-10)
Platform: x86_64-w64-mingw32
Running under: Windows >= 10
[關鍵字]:
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.240.104.195
※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1498038223.A.AC3.html
推
06/21 18:06, , 1F
06/21 18:06, 1F
推
06/21 18:08, , 2F
06/21 18:08, 2F
→
06/21 18:09, , 3F
06/21 18:09, 3F
推
06/21 18:11, , 4F
06/21 18:11, 4F
感謝回覆!我試做之後好像有點錯誤,可以指正一下嗎>"<
# 解讀為從1728筆中,取出260個數字當作train_id
sample(nrow(mydata)/4, 260)
newdata <- mydata[ "subject_id" %in% "train_id" ]
不太確定%in%的用法,google一直忽略%所以查不到......
所以第二行還不太理解,直接照打後發現如果不加 " " 會出現下述錯誤
Error in match(x, table, nomatch = 0L) : object 'subject_id' not found
沒有error順利跑完後,newdata有1728obs. of 0 variables
請問有哪裡做錯了嗎QAQ
※ 編輯: shirley7483 (111.240.104.195), 06/21/2017 18:35:13
→
06/21 18:54, , 5F
06/21 18:54, 5F
→
06/21 18:54, , 6F
06/21 18:54, 6F
→
06/21 18:54, , 7F
06/21 18:54, 7F
→
06/21 18:56, , 8F
06/21 18:56, 8F
→
06/21 18:57, , 9F
06/21 18:57, 9F
→
06/21 18:57, , 10F
06/21 18:57, 10F
→
06/21 18:57, , 11F
06/21 18:57, 11F
→
06/21 18:58, , 12F
06/21 18:58, 12F
抱歉我估狗%in% r,出現一堆XXX in R的資料,原來放前後順序搜尋有差,學到了!
也感謝提醒?`%in%`,原來符號前後面要加`,難怪我一直出現error...
重新理解後做了修正,感覺很接近需求了,只是這次又出現一些問題
train_id <- sample(nrow(mydata)/4,260, replace = FALSE)
length(train_id) #確定真的有取出260個數字做為train_id
mydata$train <- mydata$subject_id %in% train_id #新增欄位放比對後的True/False
traindata <- mydata[mydata$train == TRUE, ] #有train==TRUE那列放到新dataframe
正常來說,traindata應該要有260*4=1040筆
但traindata只有900多筆,而且每次做數量都不同...好困惑啊
再麻煩各位協助了>"<
※ 編輯: shirley7483 (111.240.104.195), 06/21/2017 19:55:27
※ 編輯: shirley7483 (111.240.104.195), 06/21/2017 20:00:48
抱歉!!!
上述程式沒有問題,能夠成功取出1040筆資料
是我原始資料中的編號出錯,改正後已解決
感謝各位的協助,讓我成功可以繼續下一步 m(_ _)m
※ 編輯: shirley7483 (111.240.104.195), 06/21/2017 20:20:07
→
06/21 22:24, , 13F
06/21 22:24, 13F
→
06/21 22:30, , 14F
06/21 22:30, 14F
→
06/22 08:33, , 15F
06/22 08:33, 15F
※ 編輯: shirley7483 (111.240.104.195), 06/22/2017 08:34:06
→
06/22 20:07, , 16F
06/22 20:07, 16F
→
06/22 20:32, , 17F
06/22 20:32, 17F
→
06/22 20:36, , 18F
06/22 20:36, 18F
R_Language 近期熱門文章
PTT數位生活區 即時熱門文章