Re: [已解決] 網路爬蟲 抓不到標籤<img>的src屬性

看板Python作者 (Anemos)時間6年前 (2018/11/12 21:21), 編輯推噓2(206)
留言8則, 5人參與, 6年前最新討論串2/2 (看更多)
借你的標題說明一下網頁是怎麼生成的。 先不管ssl簽章什麼的,瀏覽器顯示網頁是用下面的步驟: client(瀏覽器) server(網頁伺服器) 瀏覽器傳header ---------> 包括前一頁網址(referer) post表單內容、cookies、 agent string等 伺服器收到header, 並根據header給內容, 如果有php的話是在這裡執行。 <-------- 伺服器回傳網頁 瀏覽器收到網頁 下載並執行網頁裡的javascript javascript通常會修改網頁內容, 或是產生圖片網址之類的 顯示網頁 當然javascript不見得只執行一次, 在使用者點擊、網頁載入完畢,或是定時執行都有可能 (通稱為事件 event) 在8comic.com的例子,圖片的網址就是javascript產生的, 所以要圖片網址有幾個方法: 1. 執行javascript 以前還會用seamonkey、v8之類,從瀏覽獨立出來的js引擎做, 目前大家都用Node.js跑,前面eight0推文就有個神器了,建議照這位大大的方法做。 2. headless瀏覽器 就是一般瀏覽器拿掉介面,我只知道python Selenium+PhantomJS, 但速度很慢就是了。 3. 自己解javascript 建議不要,除了自己要懂javascript以外,每次解都只能針一個網站, 成果無法累積到下個網站,而且也有很多技術專門用於混淆javascript程式碼, 吃力不討好。 ※ 引述《bugbug777 (sil)》之銘言: : 大家好,小魯是個網路爬蟲新手 : 最近想來寫一個下載圖片的網路爬蟲 : 這裡附上簡短的程式碼 : <img border="0" id="TheImg" name="TheImg"/> : 似乎抓不到src的這個屬性,請問這是為什麼? : 圖示8comic的海賊王924話圖片 : https://imgur.com/ccnRjKr
-- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.229.117.89 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1542028866.A.C5A.html

11/12 22:32, 6年前 , 1F
(2)chrome已經支援囉
11/12 22:32, 1F

11/12 22:58, 6年前 , 2F
PhantomJS 目前開發停滯中,最好先試其他的方案
11/12 22:58, 2F

11/13 00:27, 6年前 , 3F
chrome 要加起動一些參數
11/13 00:27, 3F

11/13 00:27, 6年前 , 4F
   要加一些啟動參數
11/13 00:27, 4F

11/13 01:02, 6年前 , 5F
(2)firefox也支援了 stack overflow 有人有解說
11/13 01:02, 5F

11/13 01:04, 6年前 , 6F
(3)我有點好奇 如果真的要解 有什麼文章可以參考嘛?
11/13 01:04, 6F

11/13 01:04, 6年前 , 7F
剛好最近都有碰一點QQ
11/13 01:04, 7F

11/13 20:24, 6年前 , 8F
就是看懂它,找出必要的部分,自己作同樣的處理。
11/13 20:24, 8F
文章代碼(AID): #1RwNv2nQ (Python)
文章代碼(AID): #1RwNv2nQ (Python)