[請益] 如何抓取網頁"純"原始碼?
※ [本文轉錄自 Web_Design 看板 #1Cy-kcgX ]
作者: grassboy2 (活力花俏草兒仔政﹞O花俏) 看板: Web_Design
標題: [請益] 如何抓取網頁"純"原始碼?
時間: Tue Nov 30 02:06:27 2010
如標題…
以下是測試的url
http://grassboy.tw/webDev/test.php
他的原始碼很簡單,只有一行
<img src=test.png /><b>哈囉!
沒錯!很醜的code~
圖片src沒有雙括號,粗體沒結尾~
但進去網頁後…
我在網址列下了 javascript:alert(document.body.innerHTML)
結果…我測了firefox chrome ie8三種瀏覽器…
大多都是回我
<img src="test.png"><b>哈囉!
</b>
也就是說…瀏覽器會自動將這種不正確的網頁結構進行修改,
並反映到innerHTML上…
那麼…有沒有辦法透過javascript取得 <img src=test.png><b>哈囉! 呢?
當然…這要求還滿奇怪的…
不過如果今天某個網站(ex: plurk)透過header("text/html")的介面
回傳一個json物件到browser時…
我要抓json物件的值…似乎應該要抓未經瀏覽器處理過的html降子…
原本的 {"msg_html":"hihi <img src=\"xx.jpg\" />"}
會被處理成 {"msg_html":"hihi <img src="\"xx.jpg\"">"}
有點讓人傷腦筯的說 >"<
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.113.87.174
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.113.87.174
→
11/30 11:31, , 1F
11/30 11:31, 1F
→
11/30 11:32, , 2F
11/30 11:32, 2F
→
11/30 14:59, , 3F
11/30 14:59, 3F
→
11/30 15:00, , 4F
11/30 15:00, 4F
→
11/30 15:00, , 5F
11/30 15:00, 5F
→
11/30 15:01, , 6F
11/30 15:01, 6F
→
12/06 21:27, , 7F
12/06 21:27, 7F
Ajax 近期熱門文章
PTT數位生活區 即時熱門文章