Re: [問題] CSV資料切割

看板R_Language作者 (locka)時間1年前 (2023/02/23 16:02), 編輯推噓1(100)
留言1則, 1人參與, 1年前最新討論串4/4 (看更多)
library(igraph) library(tidyverse) library(readr) # 儲存最終結果的空dataframe result_df <- data.frame() callback_f <- function(x, pos){ # 測試資料裡有variable的變數,須把它拿掉變成square matrix # 才可以做graph.adjacency() x <- x[,-1] # 做你要的計算(graph.adjacency) A <- graph.adjacency(t(x), mode="directed", weighted=T) result_chunk <- cbind(result1=graph.strength(A,mode="in"), result2=graph.strength(A,mode="out")) print(result_chunk) # 印出每個chunk計算的結果,確認答案用,可註解 result_chunk # 回傳結果 } # 將運算結果存到result_df result_df <- read_csv_chunked("demo.csv", DataFrameCallback$new(callback_f),chunk_size=4) result_df 程式碼好讀版 https://i.imgur.com/KYgt8fV.jpg
執行結果 https://i.imgur.com/L9cHuiI.jpg
補充1 個人是建議盡量不要使用把原始資料拆成很多個.csv檔 然後再重新讀進來做運算 因為檔案的讀取跟寫入(I/O)是最花時間的,資料量大的時候更明顯 readr套件提供的read_csv_chunked()即是一次讀一小段資料進來 透過callback_f這個參數,定義資料讀進來後要做的事情再整合在一起 callback function 可以做任何事 可以寫檔(像上次你問的一樣)、也可以做計算 那既然你還要一個一個讀進來計算graph.adjacency,然後還要結果整合成一個df 不如直接寫在callback function 裡面 補充2 下次請在程式碼裡加入載入的套件(除非你都使用原生函數) 不是每個人都知道graph.adjacency()是哪個套件提供的function 直接複製你的程式碼沒辦法執行,還要去查才知道是igraph套件 這樣會降低版友的回答慾望喔~~ 注意小細節,創造對回答者友善的交流環境:) 感謝您! 小小板工下台一鞠躬 ※ 引述《haitairoutzu (海苔肉粽)》之銘言: : ※ 引述《locka (locka)》之銘言: : : library(tidyverse) : : library(readr) : : # 產生測試資料 : : demo <- tibble(variable=1:16, : : id1=rnorm(16), : : id2=rnorm(16), : : id3=rnorm(16), : : id4=rnorm(16)) : : write_csv(demo, "demo.csv") : : # 使用read_csv_chunked() 每4row切割並輸出成一個新的檔案 : : callback_f <- function(x, pos) write_csv(x, paste0("chunk_",pos%/%4,".csv")) : : read_csv_chunked("demo.csv", DataFrameCallback$new(callback_f), chunk_size=4 : ) : : 結果如下: : : 原資料 : : https://i.imgur.com/y3GmbSh.jpg
: : 輸出4個檔案 : : https://i.imgur.com/5b2pzEi.jpg
: ------------------------------------------------------------------- : 謝謝各位的解答,我收益良多 : 如今我有一個衍伸的問題 : 如果我要將這4個分開的矩陣做同樣的運算並且將最終運算結果整理到同一個檔案中的話 : 除了一筆一筆運算外,有沒有比較快的方式? : 我使用的指令如下 : 承續locka的指令 : library(igraph) : #將4個輸出檔案匯入 : data1 <- read.csv("chunk_0.csv", header=T, sep=",",row.names = 1) : data2 <- read.csv("chunk_1.csv", header=T, sep=",",row.names = 1) : data3 <- read.csv("chunk_2.csv", header=T, sep=",",row.names = 1) : data4 <- read.csv("chunk_3.csv", header=T, sep=",",row.names = 1) : #自定義一個運算函數 : test=function(X){ : A=graph.adjacency(t(X), mode="directed",weighted =T) : result=topov=cbind(result1=graph.strength(A, mode = "in"), : result2=graph.strength(A, mode = "out")) : return(list(result=result)) : } : #將4個匯入檔案分別計算 : output1 = test(data1) : output2 = test(data2) : output3 = test(data3) : output4 = test(data4) : #將4個計算結果合併並輸出 : result1_all = as.data.frame(cbind(output1$result[,1],output2$result[,1],output : 3$result[,1],output4$result[,1])) : result2_all = as.data.frame(cbind(output$result[,2],output2$result[,2],output3 : $result[,2],output4$result[,2])) : write_csv(result1_all,"result1_all") : write_csv(result2_all,"result2_all") -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.129.15.178 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1677139357.A.155.html

02/24 13:31, 1年前 , 1F
謝謝版主的建議及提醒,我之後會留意 謝謝
02/24 13:31, 1F
文章代碼(AID): #1ZznsT5L (R_Language)
討論串 (同標題文章)
文章代碼(AID): #1ZznsT5L (R_Language)