[問題] 處理categorical資料及missing values方
我在練習使用sklearn套件來進行機器學習
目前使用的資料是一個3萬多筆的資料(14 features)
而14個特徵裡面有8個categorical的欄位
像是性別、婚姻狀況等等,都是字串的形式
我目前是使用pd.read_csv(),再用a = a.values把型態轉成array
(因為我發現使用genfromtxt的話所有字串都會變Nan)
可是在用imputer處理missing value時,會出現錯誤:could not convert string to
floa
使用imputer的程式碼: imp = imputer(), data = imp.fit(data)
至於處理categorical資料的方法,我查到的是:
enc = preprocessing.OneHotEncoder()
enc.fit(data)
但是因為在imputer時就先卡住了,所以還不知道這個方法對不對
(有missing value的話就無法使用enc)
請問大家:
1.我的imputer哪裡寫錯了呢?
2.匯入資料後的第一個步驟都是去除missing value對嗎?
3.我查到的處理categorical的方法是對的嗎?
4.資料的第一行column名有需要刪除嗎?例如: age,income等
謝謝大家耐心看完,麻煩各位了!
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.116.222.230
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1488187948.A.3A3.html
Python 近期熱門文章
PTT數位生活區 即時熱門文章