PTT數位生活區 / Python

Re: [問題] Scrapy 蜘蛛程式無法爬超過3個網頁

看板Python作者ug945 (ug945)時間11年前 (2014/12/13 02:50)推噓3(3推 0噓 3→)

留言6則, 2人參與討論串2/2 (看更多)

※ 引述《allen511081 (藍)》之銘言： : 小弟是python 新手，最近想要抓一個鳥會的DataBase，但這個DataBase的頁面沒有其他 : 連結，於是自己以程式產出連結，並丟給爬蟲程式去爬， : 程式可以正常執行，無奈程式只要爬超過三個網頁， : 抓下來的資料順序就會出錯，請教各位大大，我該如何解決?? : 下面附上程式碼 : import scrapy : import string : from scrapy.http import Request : from Birdtest.items import BirdItem : class BirdSpider(scrapy.Spider): : name = "bird" : allowed_domains = ["webdata.bird.org.tw"] : start_urls = ["http://webdata.bird.org.tw/contents.php?key=000001"] : def parse(self, response): : for sel in response.xpath('//tr/td[@colspan]'): : item = BirdItem() : item['desc'] = sel.xpath('text()').extract() : yield item : for i in xrange(2,5,1): : url="http://webdata.bird.org.tw/contents.php?key=" + str(i) : yield Request(url,self.parse) 1.在start_request()中產生連結或是直接寫死在start_urls中 2.xpath要限定範圍或數量 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.162.69.5 ※ 文章網址: http://www.ptt.cc/bbs/Python/M.1418410257.A.B54.html

推

12/16 11:21, , 1^F

12/16 11:21, 1^F

→

12/16 19:13, , 2^F

12/16 19:13, 2^F

推

12/17 18:12, , 3^F

12/17 18:12, 3^F

→

12/18 02:00, , 4^F

12/18 02:00, 4^F

→

12/18 02:02, , 5^F

12/18 02:02, 5^F

推

12/18 16:52, , 6^F

12/18 16:52, 6^F

‣ 返回看板[ Python ] 程設

‣ 更多 ug945 的文章

文章代碼(AID): #1KYpaHjK (Python)

討論串 (同標題文章)

本文引述了以下文章的的內容：

1

5

[問題] Scrapy 蜘蛛程式無法爬超過3個網頁

11年前, 12/04

完整討論串 (本文為第 2 之 2 篇)：

排序：最新先 | 最舊先 | 留言數

3

6

Re: [問題] Scrapy 蜘蛛程式無法爬超過3個網頁

11年前, 12/13

1

5

[問題] Scrapy 蜘蛛程式無法爬超過3個網頁

11年前, 12/04

在新視窗開啟完整討論串 (共2篇)

Python 近期熱門文章

1

1

[問題] python 3.14 free thread build

2周前, 10/29

1

13

[問題] 關於正規表示法的r'\1'?

3周前, 10/22

4

7

[問題] 請問有人用過OMIA PLUS影音平台自學嗎?

1月前, 10/09

4

21

[閒聊] Python 3.13 版本是不是很爛啊！？

3月前, 07/19

14

22

[閒聊] 各位現在用os.path 還是用pathlib.Path

3月前, 07/17

5

10

[閒聊] 2024年的自我python學習

3月前, 07/17

1

2

[問題] 用Whisper AI幫我下載字幕（有酬）

7月前, 04/01

1

3

[問題] selenium 有辦法做檔案上傳嗎?

9月前, 02/03

更多近期熱門文章 >>

PTT數位生活區即時熱門文章

5

29

Re: [情報] Valve推出Steam Machine

[ PC_Shopping ]

1小時前, 11/13

4

8

[討論] 有人用過Q哥的超薄行動電源嗎？

2小時前, 11/13

19

37

NZXT更換代理

[ PC_Shopping ]

3小時前, 11/13

3

8

Re: [情報] Zen 6 EPYC將會使用台積電N2製程

[ PC_Shopping ]

3小時前, 11/13

6

22

[討論] 電費人工漲中華電信eps怎還這麼穩？

4小時前, 11/13

8

15

[情報] AMD 確認 Zen 6 架構 2026 年發表，更首

[ PC_Shopping ]

4小時前, 11/13

4

10

[問題] DAC的選擇?

4小時前, 11/13

8

31

[問題] 新手第一台相機該選擇S9嗎

4小時前, 11/13

更多即時熱門文章 >>

‣ 返回看板[ Python ] 程設

‣ 更多 ug945 的文章

文章代碼(AID): #1KYpaHjK (Python)