Re: [請益] curl抓回來的亂碼問題

看板PHP作者 (某人睡醒就發文)時間11年前 (2014/11/18 11:06), 編輯推噓3(304)
留言7則, 2人參與, 最新討論串2/2 (看更多)
※ 引述《crossdunk (魯來又魯去)》之銘言: : 是這樣的 : 小弟最近在學curl,現在有個問題是 : 抓回來的東西出現確是亂碼 : 我試過用別的編碼方式,卻都還是亂碼 : 大概是像下面這樣 : <a href="" rel="nofollow">http://www.8591.com.tw/user-login.html">å·2 è2 ·åˆ°ç?</a> : <a href="" rel="nofollow">http://www.8591.com.tw/user-login.html">å·2 è3 £出ç</a> : <a href="" rel="nofollow">http://www.8591.com.tw/user-login.html">é2 è3 £å鄊: 我是以8591網站來做測試的 : 請問要如何知道他的編碼是什麼來做轉換呢? : 我看他的表頭是用UTF-8 : 我顯示的方式也用UTF-8,卻還是亂碼 : 請各位先進給小弟一點指導 : 謝謝! <?php function utf8tobig5($str){ return mb_convert_encoding($str, 'BIG5', 'UTF-8'); } $data = file_get_contents("http://www.8591.com.tw/wareList-sellList-22.html?searchServer=2031&searchType"); $data = utf8tobig5($data); file_put_contents("a.txt",$data); ?> 產出來的a.txt在windows裡用記事本看似乎ok~ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.134.48.253 ※ 文章網址: http://www.ptt.cc/bbs/PHP/M.1416279998.A.BE1.html

11/18 11:29, , 1F
感謝您,測試後,存在txt是正常的(big5)
11/18 11:29, 1F

11/18 11:29, , 2F
如果存在html就會是亂碼,不論是big5或是utf8的編碼
11/18 11:29, 2F

11/18 11:37, , 3F
然後如果用phpquery 來抓我要的東西,存進txt後還是
11/18 11:37, 3F

11/18 11:37, , 4F
亂碼QQ
11/18 11:37, 4F

11/20 20:36, , 5F
樓上 怎摩會呢???? 存進txt正常不是很OK嗎@@
11/20 20:36, 5F

11/20 20:37, , 6F
不然你寫一個display.html 讀讀看那個big的txt就好了
11/20 20:37, 6F

11/20 20:37, , 7F
再把他轉成utf8看看 哈哈 雖然我覺得應該不必要
11/20 20:37, 7F
文章代碼(AID): #1KQhU-lX (PHP)
文章代碼(AID): #1KQhU-lX (PHP)