[請益] 如何抓取網頁"純"原始碼?

看板Ajax作者 (活力花俏草兒仔政﹞O花俏)時間15年前 (2010/11/30 02:07), 編輯推噓0(007)
留言7則, 3人參與, 最新討論串1/1
※ [本文轉錄自 Web_Design 看板 #1Cy-kcgX ] 作者: grassboy2 (活力花俏草兒仔政﹞O花俏) 看板: Web_Design 標題: [請益] 如何抓取網頁"純"原始碼? 時間: Tue Nov 30 02:06:27 2010 如標題… 以下是測試的url http://grassboy.tw/webDev/test.php 他的原始碼很簡單,只有一行 <img src=test.png /><b>哈囉! 沒錯!很醜的code~ 圖片src沒有雙括號,粗體沒結尾~ 但進去網頁後… 我在網址列下了 javascript:alert(document.body.innerHTML) 結果…我測了firefox chrome ie8三種瀏覽器… 大多都是回我 <img src="test.png"><b>哈囉! </b> 也就是說…瀏覽器會自動將這種不正確的網頁結構進行修改, 並反映到innerHTML上… 那麼…有沒有辦法透過javascript取得 <img src=test.png><b>哈囉! 呢? 當然…這要求還滿奇怪的… 不過如果今天某個網站(ex: plurk)透過header("text/html")的介面 回傳一個json物件到browser時… 我要抓json物件的值…似乎應該要抓未經瀏覽器處理過的html降子… 原本的 {"msg_html":"hihi <img src=\"xx.jpg\" />"} 會被處理成 {"msg_html":"hihi <img src="\"xx.jpg\"">"} 有點讓人傷腦筯的說 >"< -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.113.87.174 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.113.87.174

11/30 11:31, , 1F
手動把 " 濾掉就好了
11/30 11:31, 1F

11/30 11:32, , 2F
不過你的問題感覺不是你描述的這麼單純
11/30 11:32, 2F

11/30 14:59, , 3F
嗯嗯…怎樣的狀況下要濾、怎樣的狀況下不濾…感覺要查到
11/30 14:59, 3F

11/30 15:00, , 4F
瀏覽器所有"修正"的原則後才能進行處理>"<
11/30 15:00, 4F

11/30 15:00, , 5F
目前的想法是…乖乖在同個domain用ajax的方式直接抓網站
11/30 15:00, 5F

11/30 15:01, , 6F
吐給我的plain text…這樣就不會經過瀏覽器修正了…
11/30 15:01, 6F

12/06 21:27, , 7F
json response 簡易編碼一下到script端再解碼..
12/06 21:27, 7F
文章代碼(AID): #1Cy-lZuZ (Ajax)
文章代碼(AID): #1Cy-lZuZ (Ajax)