Re: [問題] R中文編碼(MS950)問題

看板R_Language作者 (天)時間10年前 (2015/12/30 14:25), 10年前編輯推噓1(100)
留言1則, 1人參與, 最新討論串2/3 (看更多)
※ 引述《AmuroRai (SIEG ZEON!!!!!!)》之銘言: : [問題類型]: : 程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來) : [軟體熟悉度]: : 入門(寫過其他程式,只是對語法不熟悉) : [問題敘述]: : 最近開始在學用R寫爬蟲,而今天下午試著要爬證交所的股票代碼列表時發現他們似乎 : 是使用MS950編碼,但是這個編碼R卻無法認得。(參見程式碼部分) : 後來還有試過用utf-8和big5硬推,也試著用tmcn去轉碼,但是中文部分還是只得到亂碼。 : 因此想請問是否有什麼方法可以繞過這個問題? : (把原網頁資料抓下來存成csv轉碼後再丟給R不在考慮之列) : [程式範例]: : 只附上一開始用MS950的程式碼,big5和utf-8的結果大同小異。 : 另外最後res和ress的output不知道為什麼無法完整貼上,但總之遇到中文都是亂碼就是了 library(RCurl) library(stringi) urlToGet = "http://isin.twse.com.tw/isin/C_public.jsp?strMode=2" htmlFile = getURLContent(urlToGet) htmlFileEncodingUTF8 = stri_encode(html_file, attr(html_file, "Content-Type")[2], "utf8") Encoding(htmlFileEncodingUTF8) # [1] "UTF-8" -- R資料整理套件系列文: magrittr #1LhSWhpH (R_Language) http://tinyurl.com/1LhSWhpH data.table #1LhW7Tvj (R_Language) http://tinyurl.com/1LhW7Tvj dplyr(上) #1LhpJCfB (R_Language) http://tinyurl.com/1LhpJCfB dplyr(下) #1Lhw8b-s (R_Language) tidyr #1Liqls1R (R_Language) http://tinyurl.com/1Liqls1R -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.109.74.87 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1451456729.A.D7F.html

12/30 15:51, , 1F
謝謝c大,晚點再來用curl試試
12/30 15:51, 1F
不過那張表格的寫法有問題,xml是無法parse的 例如: align=center xmlParse不會過 都會出現 AttValue: " or ' expected ※ 編輯: celestialgod (140.109.74.87), 12/30/2015 16:00:05
文章代碼(AID): #1MWtZPr_ (R_Language)
討論串 (同標題文章)
文章代碼(AID): #1MWtZPr_ (R_Language)