[問題] Python Selenium抓國旅卡網站資訊亂碼
有關Selenium抓取網頁資料變亂碼問題請教:
最近想寫一個抓取國旅卡所有店家資料
從官方網站http://travel.nccc.com.tw用Selenium及BS4抓取頁面資料
一開始先在Windows下編寫測試,可以正常抓取到資料顯示也正常
就把程式丟到Linux的機器執行
跑出來店家資料print出來卻顯示亂碼
程式執行畫面如下:
windows下執行顯示正常
https://i.imgur.com/oMu41oF.jpg

Linux下執行print變亂碼
https://imgur.com/kqiFtDR.jpg

看起來像是編碼問題(utf8 big5?)
查看Google後 試著用加上encode=big5 及encode=utf8
結果顯示的結果還是一樣亂碼無法正常秀出中文內容
嘗試用BS4把頁面整個抓取下來後寫到檔案
結果檔案內容: 前面網頁訊息中文正常, 後面店家資訊就顯示亂碼
畫面如下:
前面網頁訊息: https://imgur.com/c3ruZC5.jpg

後面店家資訊: https://i.imgur.com/IkP8GuW.jpg

想請教是否有版友遇過類似問題,想請教應如何解決此類問題
感謝指點~
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 49.213.204.25
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1548582294.A.347.html
→
01/27 19:02,
6年前
, 1F
01/27 19:02, 1F
推
01/27 19:05,
6年前
, 2F
01/27 19:05, 2F
推
01/27 19:27,
6年前
, 3F
01/27 19:27, 3F
→
01/27 20:07,
6年前
, 4F
01/27 20:07, 4F
→
01/27 20:28,
6年前
, 5F
01/27 20:28, 5F
→
01/27 20:56,
6年前
, 6F
01/27 20:56, 6F
→
01/27 23:11,
6年前
, 7F
01/27 23:11, 7F
→
01/27 23:13,
6年前
, 8F
01/27 23:13, 8F
→
01/27 23:14,
6年前
, 9F
01/27 23:14, 9F
→
01/27 23:15,
6年前
, 10F
01/27 23:15, 10F
→
01/29 17:15,
6年前
, 11F
01/29 17:15, 11F
→
01/29 17:16,
6年前
, 12F
01/29 17:16, 12F
Python 近期熱門文章
PTT數位生活區 即時熱門文章