[分享] R資料比賽
運氣很好,在碩班最後一年還有機會參加到R的資料比賽
感謝主辦單位 中華R軟體研發暨應用協會 以及 中國醫藥大學
比賽網址如下:
http://www.carra.org.tw/dm/
比賽方式很簡單,跟我們統計諮詢課很類似
給我們一筆資料,我們自己找到想要研究的對象進行分析
我個人猜測資料是出自政府所推出的 不動產實價登錄系統
但是我們沒有實際去下載資料,不過網路上已經有人取得並公布我們手上的資料
我們今天查的結果是直到今日可供下載的資料筆數為76萬筆
我們手上拿到的資料為68萬筆,著實為不小的數目了
(更新:查詢之後,確實為政府實價登錄的公開資料 連結如下:
http://plvr.land.moi.gov.tw/DownloadOpenData )
簡單介紹一下資料,資料為22個縣市不動產價格買賣紀錄,
不動產項目主要為五種,土地、建物、房地(土地+建物)、車位以及
房地(土地+建物)+車位,
每一筆資料基本上都有紀錄這筆資料共交易了幾筆土地、幾筆建物以及幾筆車位,
還有總售價、移轉總面積、土地總面積等28個變數(顯示欄位個數)。
簡單給大家看一下北市的資料:
http://ppt.cc/PrKY
可以看到其實各個欄位還有missing、人為錯誤或是不同房地產有不同的變數等情形
我認為很幸運的是這筆資料只有28個變數,我們選一個目標變數後
從27個變數中選擇可解釋的變數即可。
但是如前所述,這筆資料存在很多問題,
非常考驗每一個參賽隊伍對於資料的前處理功夫。
我們這組自信沒辦法對全部的不動產做Modeling,
我們果斷只選擇有含蓋建物的不動產資料做分析,
並且經過前處理資料得到下面18個變數,
變數名稱 說明
單價(元/平方公尺) 原附載資料 (為我們的目標變數)
縣市 每個縣市做一個indicator
土地移轉總面積(平方公尺) 原附載資料
使用分區或編定 原附載資料
交易年月 轉換為以民國1年1月為基準的計月資料
總層數 原附載資料
建物型態 原附載資料
主要建材 轉為是否為鋼筋混凝土造
建物移轉總面積(平方公尺) 原附載資料
建物現況格局-房 原附載資料
建物現況格局-廳 原附載資料
建物現況格局-衛 原附載資料
建物現況格局-格局 原附載資料
有無管理組織 原附載資料
車位移轉總面積(平方公尺) 原附載資料
土地數目 切割「交易筆棟數」的欄位
建物數目 切割「交易筆棟數」的欄位
車位數目 切割「交易筆棟數」的欄位
經過處理之後,我們不考慮有遺失值的資料(共刪除六千筆左右含有遺失值的資料)
剩下資料為47萬筆左右,我們對這47萬筆資料做log-linear model
估計方法有兩種,一為OLS,另一為group lasso,
而我們兩個模型最後的prediction error都介於0.19到0.22之間,
而且OLS的判定係數為61%左右,我個人以為我們這組做得還算不錯。
只可惜時間真的很短很短,從上午九點開始到下午四點,
我們瀏覽資料、討論、資料前處理以及決定目標變數之後,
就已經下午兩點半了,我們只利用一個小時做建模,真的非常趕....
我們R code利用K & R style,資料前處理大概花了兩頁半,
資料瀏覽(繪圖)花了一頁,最後建模用了一頁半。
最後,我想說的是big data遠不止如此,未來挑戰一定更多(嘆氣...
大家加油!!!! XD
結果討論:
我們還刪掉了近三分之一的資料,然後直接忽視遺失值,
直接考慮只有建物價格的模型,我個人覺得非常大膽,
如果有時間,其實可以再針對土地、車位做另一個模型做評估。
還請各位先進指教。
最後謝謝輔大提供如此優良的比賽場所,
還有我優秀的隊友們!!!!
希望可以去拿獎金回來XDD
[關鍵字]: R資料比賽
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 218.164.188.9
※ 文章網址: http://www.ptt.cc/bbs/R_Language/M.1405184762.A.1C5.html
※ 編輯: celestialgod (218.164.188.9), 07/13/2014 01:28:26
※ 編輯: celestialgod (218.164.188.9), 07/13/2014 02:17:11
推
07/13 08:55, , 1F
07/13 08:55, 1F
推
07/22 00:42, , 2F
07/22 00:42, 2F
R_Language 近期熱門文章
PTT數位生活區 即時熱門文章