Re: [問題] dataframe運作embed及修正timedelay首欄
library(dplyr)
tao_b %>%
select(鄉鎮市區, 交易標的, 建物型態, 交易日期, 單價元平方公尺) %>%
arrange(鄉鎮市區, 交易標的, 建物型態, 交易日期, 單價元平方公尺) %>%
#先把同性質同日期資料分組, 價格以中位數表達, 並將重複樣本刪除
group_by(鄉鎮市區, 交易標的, 建物型態, 交易日期) %>%
mutate(單價元平方公尺 = median(單價元平方公尺)) %>%
filter(row_number()==1) %>%
#再次將同性質的資料分組處理, 將各組每筆記錄比對上一次交易日之價格
#此時各組第一個的timedelay是NA
group_by(鄉鎮市區, 交易標的, 建物型態) %>%
mutate(timedelay = lag(單價元平方公尺, n = 2)) %>%
ungroup() %>%
#將所有資料的timedelay之NA轉為0, 非NA則保留原值
#計算後兩項相減
mutate(timedelay = ifelse(is.na(timedelay), 0, timedelay),
價格差異 = 單價元平方公尺 - timedelay
)
交流整理資料的做法...
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.121.136.7
※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1553571498.A.20C.html
推
03/27 14:33,
6年前
, 1F
03/27 14:33, 1F
討論串 (同標題文章)
完整討論串 (本文為第 2 之 2 篇):
R_Language 近期熱門文章
PTT數位生活區 即時熱門文章