[問題] 處理categorical資料及missing values方

看板Python作者 (bokxko1023)時間8年前 (2017/02/27 17:32), 編輯推噓0(000)
留言0則, 0人參與, 最新討論串1/1
我在練習使用sklearn套件來進行機器學習 目前使用的資料是一個3萬多筆的資料(14 features) 而14個特徵裡面有8個categorical的欄位 像是性別、婚姻狀況等等,都是字串的形式 我目前是使用pd.read_csv(),再用a = a.values把型態轉成array (因為我發現使用genfromtxt的話所有字串都會變Nan) 可是在用imputer處理missing value時,會出現錯誤:could not convert string to floa 使用imputer的程式碼: imp = imputer(), data = imp.fit(data) 至於處理categorical資料的方法,我查到的是: enc = preprocessing.OneHotEncoder() enc.fit(data) 但是因為在imputer時就先卡住了,所以還不知道這個方法對不對 (有missing value的話就無法使用enc) 請問大家: 1.我的imputer哪裡寫錯了呢? 2.匯入資料後的第一個步驟都是去除missing value對嗎? 3.我查到的處理categorical的方法是對的嗎? 4.資料的第一行column名有需要刪除嗎?例如: age,income等 謝謝大家耐心看完,麻煩各位了! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.116.222.230 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1488187948.A.3A3.html
文章代碼(AID): #1Oi_8iEZ (Python)
文章代碼(AID): #1Oi_8iEZ (Python)