[分享] R資料比賽

看板R_Language作者 (攸藍)時間10年前 (2014/07/13 01:06), 10年前編輯推噓2(200)
留言2則, 2人參與, 最新討論串1/1
運氣很好,在碩班最後一年還有機會參加到R的資料比賽 感謝主辦單位 中華R軟體研發暨應用協會 以及 中國醫藥大學 比賽網址如下: http://www.carra.org.tw/dm/ 比賽方式很簡單,跟我們統計諮詢課很類似 給我們一筆資料,我們自己找到想要研究的對象進行分析 我個人猜測資料是出自政府所推出的 不動產實價登錄系統 但是我們沒有實際去下載資料,不過網路上已經有人取得並公布我們手上的資料 我們今天查的結果是直到今日可供下載的資料筆數為76萬筆 我們手上拿到的資料為68萬筆,著實為不小的數目了 (更新:查詢之後,確實為政府實價登錄的公開資料 連結如下: http://plvr.land.moi.gov.tw/DownloadOpenData ) 簡單介紹一下資料,資料為22個縣市不動產價格買賣紀錄, 不動產項目主要為五種,土地、建物、房地(土地+建物)、車位以及 房地(土地+建物)+車位, 每一筆資料基本上都有紀錄這筆資料共交易了幾筆土地、幾筆建物以及幾筆車位, 還有總售價、移轉總面積、土地總面積等28個變數(顯示欄位個數)。 簡單給大家看一下北市的資料: http://ppt.cc/PrKY 可以看到其實各個欄位還有missing、人為錯誤或是不同房地產有不同的變數等情形 我認為很幸運的是這筆資料只有28個變數,我們選一個目標變數後 從27個變數中選擇可解釋的變數即可。 但是如前所述,這筆資料存在很多問題, 非常考驗每一個參賽隊伍對於資料的前處理功夫。 我們這組自信沒辦法對全部的不動產做Modeling, 我們果斷只選擇有含蓋建物的不動產資料做分析, 並且經過前處理資料得到下面18個變數, 變數名稱 說明 單價(元/平方公尺) 原附載資料 (為我們的目標變數) 縣市 每個縣市做一個indicator 土地移轉總面積(平方公尺) 原附載資料 使用分區或編定 原附載資料 交易年月 轉換為以民國1年1月為基準的計月資料 總層數 原附載資料 建物型態 原附載資料 主要建材 轉為是否為鋼筋混凝土造 建物移轉總面積(平方公尺) 原附載資料 建物現況格局-房 原附載資料 建物現況格局-廳 原附載資料 建物現況格局-衛 原附載資料 建物現況格局-格局 原附載資料 有無管理組織 原附載資料 車位移轉總面積(平方公尺) 原附載資料 土地數目 切割「交易筆棟數」的欄位 建物數目 切割「交易筆棟數」的欄位 車位數目 切割「交易筆棟數」的欄位 經過處理之後,我們不考慮有遺失值的資料(共刪除六千筆左右含有遺失值的資料) 剩下資料為47萬筆左右,我們對這47萬筆資料做log-linear model 估計方法有兩種,一為OLS,另一為group lasso, 而我們兩個模型最後的prediction error都介於0.19到0.22之間, 而且OLS的判定係數為61%左右,我個人以為我們這組做得還算不錯。 只可惜時間真的很短很短,從上午九點開始到下午四點, 我們瀏覽資料、討論、資料前處理以及決定目標變數之後, 就已經下午兩點半了,我們只利用一個小時做建模,真的非常趕.... 我們R code利用K & R style,資料前處理大概花了兩頁半, 資料瀏覽(繪圖)花了一頁,最後建模用了一頁半。 最後,我想說的是big data遠不止如此,未來挑戰一定更多(嘆氣... 大家加油!!!! XD 結果討論: 我們還刪掉了近三分之一的資料,然後直接忽視遺失值, 直接考慮只有建物價格的模型,我個人覺得非常大膽, 如果有時間,其實可以再針對土地、車位做另一個模型做評估。 還請各位先進指教。 最後謝謝輔大提供如此優良的比賽場所, 還有我優秀的隊友們!!!! 希望可以去拿獎金回來XDD [關鍵字]: R資料比賽 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 218.164.188.9 ※ 文章網址: http://www.ptt.cc/bbs/R_Language/M.1405184762.A.1C5.html ※ 編輯: celestialgod (218.164.188.9), 07/13/2014 01:28:26 ※ 編輯: celestialgod (218.164.188.9), 07/13/2014 02:17:11

07/13 08:55, , 1F
謝謝分享
07/13 08:55, 1F

07/22 00:42, , 2F
感覺比賽關鍵會是在遺失值的處理,謝謝分享給推
07/22 00:42, 2F
文章代碼(AID): #1JmMhw75 (R_Language)
文章代碼(AID): #1JmMhw75 (R_Language)