Re: [已解決] 網路爬蟲 抓不到標籤<img>的src屬性
借你的標題說明一下網頁是怎麼生成的。
先不管ssl簽章什麼的,瀏覽器顯示網頁是用下面的步驟:
client(瀏覽器) server(網頁伺服器)
瀏覽器傳header --------->
包括前一頁網址(referer)
post表單內容、cookies、
agent string等
伺服器收到header,
並根據header給內容,
如果有php的話是在這裡執行。
<-------- 伺服器回傳網頁
瀏覽器收到網頁
下載並執行網頁裡的javascript
javascript通常會修改網頁內容,
或是產生圖片網址之類的
顯示網頁
當然javascript不見得只執行一次,
在使用者點擊、網頁載入完畢,或是定時執行都有可能
(通稱為事件 event)
在8comic.com的例子,圖片的網址就是javascript產生的,
所以要圖片網址有幾個方法:
1. 執行javascript
以前還會用seamonkey、v8之類,從瀏覽獨立出來的js引擎做,
目前大家都用Node.js跑,前面eight0推文就有個神器了,建議照這位大大的方法做。
2. headless瀏覽器
就是一般瀏覽器拿掉介面,我只知道python Selenium+PhantomJS,
但速度很慢就是了。
3. 自己解javascript
建議不要,除了自己要懂javascript以外,每次解都只能針一個網站,
成果無法累積到下個網站,而且也有很多技術專門用於混淆javascript程式碼,
吃力不討好。
※ 引述《bugbug777 (sil)》之銘言:
: 大家好,小魯是個網路爬蟲新手
: 最近想來寫一個下載圖片的網路爬蟲
: 這裡附上簡短的程式碼
: <img border="0" id="TheImg" name="TheImg"/>
: 似乎抓不到src的這個屬性,請問這是為什麼?
: 圖示8comic的海賊王924話圖片
: https://imgur.com/ccnRjKr

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.229.117.89
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1542028866.A.C5A.html
→
11/12 22:32,
6年前
, 1F
11/12 22:32, 1F
推
11/12 22:58,
6年前
, 2F
11/12 22:58, 2F
→
11/13 00:27,
6年前
, 3F
11/13 00:27, 3F
→
11/13 00:27,
6年前
, 4F
11/13 00:27, 4F
推
11/13 01:02,
6年前
, 5F
11/13 01:02, 5F
→
11/13 01:04,
6年前
, 6F
11/13 01:04, 6F
→
11/13 01:04,
6年前
, 7F
11/13 01:04, 7F
→
11/13 20:24,
6年前
, 8F
11/13 20:24, 8F
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 2 之 2 篇):
Python 近期熱門文章
PTT數位生活區 即時熱門文章