[問題] 讀入"鴴" "鸊鷉" 等怪字

看板R_Language作者 (@_2;)時間9年前 (2015/07/04 00:04), 9年前編輯推噓1(106)
留言7則, 3人參與, 最新討論串1/6 (看更多)
[軟體熟悉度]: 新手+入門 [問題敘述]: 如標題,因為再分析鳥類的資料,所以會遇到鴴、鸊、鷉這種某些系統無法顯示的字 和程式語言不太熟,好像是BIG5的編碼比較少,所以遇到這些怪字會崩潰, 轉到UTF8就會恢復正常? 問題是目前手邊的名錄都是放在Excel當中, 這些怪字在Excel當中活得很好,但一輸出成CSV等純文字文件就會變成亂碼。 我再去Notepad++等軟體轉換編碼也沒有用。 [程式範例]: 鳥類名錄資料在下面: https://dl.dropboxusercontent.com/u/18689552/birdnames.xls 另外我在NotePad++自己打了一個用UTF-8編碼的檔案如下: https://dl.dropboxusercontent.com/u/18689552/birdnametest.txt 裡面只有兩行字: 173,反嘴鴴,長腳鷸科 174,水雉,水雉科 直接用read.table,產生怪字,而且還只讀一行 data<-read.table("birdnametest.txt"); data V1 1 174,瘞湧\x9b\x89,瘞湧\x9b樯\xa7\x91\n 加上eocoding="UTF-8"之後怪字不見了,難字(鴴)沒出來,但一樣只有一行 有需要的話是可以在Notepad++硬做一個UTF-8的檔案出來啦, 名錄最多也不超過700種可以用工人智慧來完成, 但也要R能夠讀入並顯示呀Orz 系統資訊: 不太會查,寫一下知道的: Windows 7 RStudio Version 0.99447 R x64 3.2.1 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.138.77.47 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1435939492.A.3BC.html ※ 編輯: helixc (223.138.77.47), 07/04/2015 00:07:14

07/04 01:01, , 1F
你可以讀入用是utf8 做為encoding 或是乾脆用讀xls
07/04 01:01, 1F

07/04 01:01, , 2F
他的編碼也是預設為utf8... (讀取xls的套件之前有
07/04 01:01, 2F

07/04 01:01, , 3F
文章討論)
07/04 01:01, 3F

07/04 01:03, , 4F
明天實測看看...
07/04 01:03, 4F

07/04 06:31, , 5F
無解windows裡的終端機沒utf8
07/04 06:31, 5F

07/04 09:14, , 6F
換Mac/Linux就有解嗎?
07/04 09:14, 6F

07/04 11:03, , 7F
不會遇到這問題吧
07/04 11:03, 7F
文章代碼(AID): #1LbhAaEy (R_Language)
文章代碼(AID): #1LbhAaEy (R_Language)