PTT數位生活區 / Python

Re: [已解決] 網路爬蟲抓不到標籤<img>的src屬性

看板Python作者blc (Anemos)時間7年前 (2018/11/12 21:21)推噓2(2推 0噓 6→)

留言8則, 5人參與討論串2/2 (看更多)

借你的標題說明一下網頁是怎麼生成的。先不管ssl簽章什麼的，瀏覽器顯示網頁是用下面的步驟： client(瀏覽器) server(網頁伺服器) 瀏覽器傳header ---------> 包括前一頁網址(referer) post表單內容、cookies、 agent string等伺服器收到header，並根據header給內容，如果有php的話是在這裡執行。 <-------- 伺服器回傳網頁瀏覽器收到網頁下載並執行網頁裡的javascript javascript通常會修改網頁內容，或是產生圖片網址之類的顯示網頁當然javascript不見得只執行一次，在使用者點擊、網頁載入完畢，或是定時執行都有可能 (通稱為事件 event) 在8comic.com的例子，圖片的網址就是javascript產生的，所以要圖片網址有幾個方法： 1. 執行javascript 以前還會用seamonkey、v8之類，從瀏覽獨立出來的js引擎做，目前大家都用Node.js跑，前面eight0推文就有個神器了，建議照這位大大的方法做。 2. headless瀏覽器就是一般瀏覽器拿掉介面，我只知道python Selenium+PhantomJS，但速度很慢就是了。 3. 自己解javascript 建議不要，除了自己要懂javascript以外，每次解都只能針一個網站，成果無法累積到下個網站，而且也有很多技術專門用於混淆javascript程式碼，吃力不討好。 ※ 引述《bugbug777 (sil)》之銘言： : 大家好，小魯是個網路爬蟲新手 : 最近想來寫一個下載圖片的網路爬蟲 : 這裡附上簡短的程式碼 : <img border="0" id="TheImg" name="TheImg"/> : 似乎抓不到src的這個屬性，請問這是為什麼？ : 圖示8comic的海賊王924話圖片 : https://imgur.com/ccnRjKr

-- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.229.117.89 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1542028866.A.C5A.html

→

11/12 22:32, 7年前 , 1^F

11/12 22:32, 1^F

推

11/12 22:58, 7年前 , 2^F

11/12 22:58, 2^F

→

11/13 00:27, 7年前 , 3^F

11/13 00:27, 3^F

→

11/13 00:27, 7年前 , 4^F

11/13 00:27, 4^F

推

11/13 01:02, 7年前 , 5^F

11/13 01:02, 5^F

→

11/13 01:04, 7年前 , 6^F

11/13 01:04, 6^F

→

11/13 01:04, 7年前 , 7^F

11/13 01:04, 7^F

→

11/13 20:24, 7年前 , 8^F

11/13 20:24, 8^F

‣ 返回看板[ Python ] 程設

‣ 更多 blc 的文章

文章代碼(AID): #1RwNv2nQ (Python)

討論串 (同標題文章)

本文引述了以下文章的的內容：

3

19

[已解決] 網路爬蟲抓不到標籤<img>的src屬性

7年前, 11/11

完整討論串 (本文為第 2 之 2 篇)：

排序：最新先 | 最舊先 | 留言數

2

8

Re: [已解決] 網路爬蟲抓不到標籤<img>的src屬性

7年前, 11/12

3

19

[已解決] 網路爬蟲抓不到標籤<img>的src屬性

7年前, 11/11

在新視窗開啟完整討論串 (共2篇)

Python 近期熱門文章

2

11

[問題] openpyxl到底能不能調整全局Font？

1月前, 05/07

7

21

[問題] super() 與MRO 鏈斷裂問題

3月前, 02/24

3

13

[問題] vscode的debug模式不用考慮中文路徑

4月前, 02/01

1

15

[問題] skimage.io.imread()讀圖檔底色是黃色？

5月前, 12/28

2

4

[閒聊] 有人要合購股票pythony資料庫finlab嗎?

5月前, 12/23

1

1

[問題] python 3.14 free thread build

7月前, 10/29

1

13

[問題] 關於正規表示法的r'\1'?

7月前, 10/22

6

9

[問題] 請問有人用過OMIA PLUS影音平台自學嗎?

8月前, 10/09

更多近期熱門文章 >>

PTT數位生活區即時熱門文章

1

12

[討論] 我這樣聽覺是正常的嗎?

2小時前, 06/15

7

17

[購機] 12K左右輕巧手機

2小時前, 06/15

3

8

[賣/台中/面交] 華碩TUF 5070TI顯卡已刪文

[ HardwareSale ]

3小時前, 06/15

-2

12

[問題] 請問我的SSD是intel 660P還是760P？

[ Storage_Zone ]

5小時前, 06/15

10

14

[心得] [心得]SONY XPERIA 1 VIII 簡短拍照感受

5小時前, 06/15

14

70

[討論] 哪個廠牌型號會自動下載APP？

5小時前, 06/15

5

25

[問題] 推薦&詢問 Qi2 無線充電器

5小時前, 06/15

26

75

Re: [閒聊] NordVPN軟體bug導致SSD壽命歸零

[ PC_Shopping ]

6小時前, 06/15

更多即時熱門文章 >>

‣ 返回看板[ Python ] 程設

‣ 更多 blc 的文章

文章代碼(AID): #1RwNv2nQ (Python)