[分享] R & Encoding
[關鍵字]: R, utf-8, big5, 中文, encoding
# 一個朋友最近問我的問題
> 這幾天都在用R做text mining
> 我能請問一下簡單的問題就是
> 用R匯入含有unicode中文的csv 或excel檔
> 怎麼樣匯入才能正確呢?
> 我試了 odbc, iconv, 或者是在read.csv內用encoding=‘UTF-8’
> 都無法解決
# 我個人對這類問題的建議
根據 http://cran.r-project.org/doc/manuals/r-release/R-data.html#Encodings ,
我建議你先安裝Rtools後在讀取資料之前先使用file以及其他轉碼的命令列程式處理後,
再從R中嘗試匯入。由於我機器不是Windows,我不清楚Rtools內有沒有iconv這個命令列
程式就是了。這你可能要先自行google,或是採用下面範例的方式:
```r
temp <- readLines(url(MOPS_URL.TWSE_ALL), encoding="big5")
temp <- iconv(temp, "big5", "utf8")
temp.file <- tempfile()
write(temp, temp.file)
```
# 他後來找到的解決辦法
excel另存csv後 在csv用文字編輯另存成Utf-8
然後匯入read.csv內 encoding="utf-8" 就能正確讀入了
--
歡迎到ptt R_Language版分享R 的相關知識
歡迎加入 Taiwan R User Group : http://www.facebook.com/Tw.R.User
聚會報名 http://www.meetup.com/Taiwan-R/
聚會影片 https://www.youtube.com/user/TWuseRGroup
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 61.224.201.62
討論串 (同標題文章)
以下文章回應了本文:
完整討論串 (本文為第 1 之 2 篇):
R_Language 近期熱門文章
PTT數位生活區 即時熱門文章