Re: [問題] 關於擷取所有原始碼
※ 引述《qweqweqweqwe (啪)》之銘言:
: 有辦法可以順利的擷取所有網頁的原始碼嗎
: 因為每個網頁的Encode都不盡相同..
: 怎樣知道被擷取原始碼網頁的編碼呢..?
'
有時候很難判斷...
Response 的 Header 可能會有 charset 資訊
Content-Type: text/html; charset=big5
(ex. http://tw.news.yahoo.com 就沒有)
HTML 內容中 meta 資訊也會有 charset 資訊
<meta http-equiv="Content-Type" content="text/html; charset=big5" />
但是有時候也會沒有寫 meta 的時候
如果上都沒有寫只好把內容抓成 byte[]...從 BOM 去判斷
還是不行就想想吧...XD
--
http://blog.roodo.com/chhuang
--
※ 發信站: 批踢踢實業坊(ptt.cc)
※ 編輯: chhuang 來自: 61.62.84.89 (09/25 22:48)
討論串 (同標題文章)
C_Sharp 近期熱門文章
PTT數位生活區 即時熱門文章