[問題] 網頁爬蟲

看板Web_Design作者 (渾沌與秩序)時間9年前 (2016/05/03 22:02), 編輯推噓2(209)
留言11則, 5人參與, 最新討論串1/1
大家好,最近遇到一個很困擾的問題 一般爬蟲爬靜態網頁沒甚麼問題 某些動態網頁我也可以去觀察他的Post或是get去截他資料 但我現在遇到一種網頁是ajax data 綁進tab元件內 data部分有加密 他的tab內容需要點擊去動態產生內容 跟bootstrap的tap相同 http://www.w3schools.com/bootstrap/bootstrap_ref_js_tab.asp 像這樣的動態網頁有建議的爬蟲方法嘛 好煩惱阿@@.... 看來看去就是找不到方法破解 謝謝大家 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.231.19.63 ※ 文章網址: https://www.ptt.cc/bbs/Web_Design/M.1462284158.A.2B3.html

05/03 22:27, , 1F
Watir
05/03 22:27, 1F

05/03 22:39, , 2F
我用python+scrapy寫的,watir看起來好像用不上@@
05/03 22:39, 2F

05/05 13:31, , 3F
.
05/05 13:31, 3F

05/05 13:32, , 4F
ppt.cc/S6LY7 JPTT網址推不出去==
05/05 13:32, 4F

05/05 18:01, , 5F
因為ppt.cc早就被全站封鎖了,你為啥不改用其他好一點
05/05 18:01, 5F

05/05 18:01, , 6F
的轉址?像是 goo.gl 之類的
05/05 18:01, 6F

05/05 18:03, , 7F
就是 ma19.moe 都比 ppt.cc 好太多
05/05 18:03, 7F

05/06 10:45, , 8F
我後來放棄了,去研究他ajax的資料作破解
05/06 10:45, 8F

05/07 07:03, , 9F
感謝mmis,我沒有注意到這件事~
05/07 07:03, 9F

05/15 23:29, , 10F
可以研究看看 PhantomJS 之前
05/15 23:29, 10F

05/15 23:30, , 11F
用他來爬過 agoda,他們也有類似的保護機制
05/15 23:30, 11F
文章代碼(AID): #1NAAz-Ap (Web_Design)
文章代碼(AID): #1NAAz-Ap (Web_Design)