[問題] 用R分析健保資料

看板R_Language作者 (愛咳死在西)時間10年前 (2014/03/05 20:17), 編輯推噓5(5013)
留言18則, 9人參與, 最新討論串1/1
[問題類型]: 程式諮詢 我想用R 分析健保資料,但是連要怎麼用R 讀資料都寫不出來 [軟體熟悉度]: 入門(寫過其他程式,只是對語法不熟悉) [問題敘述]: 老師丟了一筆健保教我用R試著分析 (老師自己是用SAS) 但我之前修過的課都沒有教得太難 大部分是社區型的小資料 健保資料是很大的一筆 .DAT檔案 內容超過 65萬筆資料,約 40個變項 目前上網找過,也看過一兩本R的書 但都沒有寫的很詳細 目前知道read.delim()可以讀進檔案,但是根本亂碼 XD 需要的幫助是希望高手們可以教教我怎麼可以讀這檔案 或是有沒有程式套件可用~ 以上,希望各位幫幫小妹了 [關鍵字]: 健保資料 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 123.192.51.110

03/05 20:39, , 1F
big5 utf8? 資料的分隔符號是? 關鍵字XD
03/05 20:39, 1F

03/05 21:03, , 2F
請問資料的分隔符號要從哪裡可以知道呢?
03/05 21:03, 2F

03/05 21:04, , 3F
你的問題應該不是R , 是要先找軟體把 .dat 檔換成 .txt檔
03/05 21:04, 3F

03/05 21:34, , 4F
http://ppt.cc/~3aa (資料用筆記本打開是長這樣的@@
03/05 21:34, 4F

03/05 21:36, , 5F
所以我需要的是宣告第幾個字元是哪個變數嗎??
03/05 21:36, 5F

03/05 22:19, , 6F
你要先知道每個位置代表啥意思 去找資料的codebook吧
03/05 22:19, 6F

03/06 09:24, , 7F
何不直接請老師給你CSV檔?
03/06 09:24, 7F

03/06 11:37, , 8F
03/06 11:37, 8F

03/06 19:13, , 9F
請安裝RStudio,點右上角的import dataset...
03/06 19:13, 9F

03/06 19:51, , 10F
這樣的資料型態我比較喜歡用stata來弄XD
03/06 19:51, 10F

03/06 23:15, , 11F
看不出來資料長怎樣
03/06 23:15, 11F

03/07 17:28, , 12F
跟老師要codebook裡面有資料格式(健保資料是固定長度
03/07 17:28, 12F

03/07 17:29, , 13F
而不是用分隔符號這點比較麻煩,有codebook才作得動
03/07 17:29, 13F

03/07 17:30, , 14F
基本上一行(row)就是一個觀察值 然後用長度去切欄位
03/07 17:30, 14F

03/07 17:33, , 15F
或者懶人解法就是跟老師要已經讀好的 SAS dataset xD
03/07 17:33, 15F

03/11 15:34, , 16F
substr()
03/11 15:34, 16F
各位好 我有譯碼簿了,這個健保資料是沒有分隔符號的 所以基本上應該是照SU大說的要用長度去分割它 所以我發現我的問題應該是不知道怎麼去分割,而且也不知道 read.delim()讀檔案是不是對的 >_< (老師的意思好像要我直接跑,而不是用轉其他格式的檔案跑) ※ 編輯: ecstasym 來自: 123.192.51.110 (03/22 17:09)

03/23 00:37, , 17F
#1HLjk2HI 參考一下我這篇筆記文 花個10天學一下資料處理
03/23 00:37, 17F

03/23 00:38, , 18F
資料處理本來就是分析中相當耗時的部分 不太可能一鍵解決
03/23 00:38, 18F
文章代碼(AID): #1J5nNTKl (R_Language)
文章代碼(AID): #1J5nNTKl (R_Language)