[問題] 網路爬蟲

看板Python作者 (pica)時間15年前 (2010/08/03 21:38), 編輯推噓2(205)
留言7則, 5人參與, 最新討論串1/1
hay, 我最近試著想寫一個爬蟲, 能抓下面網站的所有資料 http://mops.twse.com.tw/mops/web/index --------------------------------------- 我先把問題簡化成抓某一個特定網頁, 如下 http://mops.twse.com.tw/mops/web/t05st31 我發現一些問題, 我在 [公司代號或簡稱] 輸入不同的數字, 例如 : 2041 或是 2043, 在按搜尋, 並檢視其網頁原始檔, 找不到相對應的資料出現. 這是為什麼阿?? p.s 我略懂python, 但網頁技術, 還未熟悉, 問太蠢的話請見諒. p.p.s 我打算用 Scrapy, 來寫爬蟲, 請前輩給一些建議. -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 122.121.205.2

08/04 09:41, , 1F
因為是 ajax 吧
08/04 09:41, 1F

08/04 17:59, , 2F
推薦你用 Firefox + LiveHTTPHeader 去看 request
08/04 17:59, 2F

08/04 19:51, , 3F
感謝樓上 提點, 在下會google一下其關鍵字
08/04 19:51, 3F

08/04 22:45, , 4F
用wireshark看封包XD
08/04 22:45, 4F

08/07 23:52, , 5F
通常是用wireshark抓封包來看它實際到哪裡抓資料
08/07 23:52, 5F

08/07 23:52, , 6F
一定有規則就可以用力抓了
08/07 23:52, 6F

08/07 23:52, , 7F
我有cronjob每天自己會去抓期交所和證交所的一些資料
08/07 23:52, 7F
文章代碼(AID): #1CM1lMMa (Python)
文章代碼(AID): #1CM1lMMa (Python)