Re: [問題] dataframe字串切割

看板R_Language作者 (天)時間7年前 (2018/06/05 00:28), 7年前編輯推噓3(307)
留言10則, 5人參與, 7年前最新討論串2/4 (看更多)
※ 引述《wmj10054039 (MJ)》之銘言: : [問題類型]: : 程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來) : [軟體熟悉度]: : 入門(寫過其他程式,只是對語法不熟悉) : [問題敘述]: : 我目前整理了一份學校所有課程的時間表,想知道不同星期,不同地點,各時段的 : 人數統計。dataframe資料範例如下: : 流水號 課程名稱 時間 地點 人數 : 102 A 二3,4四5,7 甲 10 : 248 B 一1,2,3 乙 20 : 314 C 三4五7,8,a 丙 5 : 想請問各位可以用甚麼方法對時間那一欄作字串切割變成以下新的dataframe : 流水號 課程名稱 星期 節次 地點 人數 : 102 A 二 3 甲 10 : 102 A 二 4 甲 10 : 102 A 四 5 甲 10 : 102 A 四 7 甲 10 : 248 B 一 1 乙 20 : 248 B 一 2 乙 20 : . . : . . : . . : 目前想法只有想到for迴圈搭配strspilt,但還是想不到實際寫法,麻煩各位指教了,謝謝 : [環境敘述] : R version 3.4.2 程式: library(data.table) library(pipeR) library(stringr) dataStr <- "流水號 課程名稱 時間 地點 人數 102 A 二3,4四5,7 甲 10 248 B 一1,2,3 乙 20 314 C 三4五7,8,a 丙 5" removeEmptyFunc <- function(x) x[nchar(x) > 0] fread(dataStr) %>>% `[`(j = `:=`(星期 = str_split(時間, "[a-zA-Z0-9,]+") %>>% lapply(removeEmptyFunc), 節次 = str_split(時間, "[^a-zA-Z0-9,]+") %>>% lapply(removeEmptyFunc))) %>>% `[`(j = .(星期 = unlist(星期), 節次 = unlist(節次)), by = .(流水號, 課程名稱, 地點, 人數)) %>>% `[`(j = `:=`(節次 = str_split(節次, ","))) %>>% `[`(j = .(節次 = unlist(節次)), by = .(流水號, 課程名稱, 地點, 人數, 星期)) ## no pipe 程式碼 dataDT <- fread(dataStr) dataDT[ , `:=`(星期 = lapply(str_split(時間, "[a-zA-Z0-9,]+"), removeEmptyFunc), 節次 = lapply(str_split(時間, "[^a-zA-Z0-9,]+"), removeEmptyFunc))] tmpDT <- dataDT[ , .(星期 = unlist(星期), 節次 = unlist(節次)), by = .(流水號, 課程名稱, 地點, 人數)] tmpDT[ , `:=`(節次 = str_split(節次, ","))] tmpDT[ , .(節次 = unlist(節次)), by = .(流水號, 課程名稱, 地點, 人數, 星期)] 結果: # 流水號 課程名稱 地點 人數 星期 節次 # 1: 102 A 甲 10 二 3 # 2: 102 A 甲 10 二 4 # 3: 102 A 甲 10 四 5 # 4: 102 A 甲 10 四 7 # 5: 248 B 乙 20 一 1 # 6: 248 B 乙 20 一 2 # 7: 248 B 乙 20 一 3 # 8: 314 C 丙 5 三 4 # 9: 314 C 丙 5 五 7 # 10: 314 C 丙 5 五 8 # 11: 314 C 丙 5 五 a -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 206.189.81.226 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1528129690.A.7B9.html ※ 編輯: celestialgod (206.189.81.226), 06/05/2018 00:31:28

06/05 08:21, 7年前 , 1F
GOD~~
06/05 08:21, 1F

06/06 01:26, 7年前 , 2F
太強了 跪~ 謝謝c大還特地回文,真的有成功作出來了
06/06 01:26, 2F

06/06 01:26, 7年前 , 3F
。不過小弟還太弱,你程式碼的有些語法我還在研究中.
06/06 01:26, 3F

06/06 01:30, 7年前 , 4F
我想再請教一下c大,如果我今天只想要把節次的頭尾
06/06 01:30, 4F

06/06 01:30, 7年前 , 5F
取出 譬如 “四1,2,3五7,8” 取出變成 時間=c(“
06/06 01:30, 5F

06/06 01:30, 7年前 , 6F
四”, “四”, “五”, “五”) 節次=c(1, 3, 7, 8)
06/06 01:30, 6F

06/06 01:31, 7年前 , 7F
這樣的話 有什麼方向可以指點一下嗎 非常感謝
06/06 01:31, 7F

06/06 08:08, 7年前 , 8F
沒看懂問題,可以再說詳細一點嗎?
06/06 08:08, 8F

06/06 10:23, 7年前 , 9F
他應該是指連續超過二小時的課指取出頭和尾
06/06 10:23, 9F

06/06 13:09, 7年前 , 10F
切好之後針對相同的四、五的數字用diff切斷點後再抓
06/06 13:09, 10F
文章代碼(AID): #1R5MYQUv (R_Language)
討論串 (同標題文章)
文章代碼(AID): #1R5MYQUv (R_Language)