[問題] parse雅虎拍賣查詢結果parse不到

看板java作者 (夢遺大師)時間11年前 (2014/08/18 10:26), 編輯推噓3(3017)
留言20則, 5人參與, 最新討論串1/1
請問 最近在練習網路爬蟲,在爬網站資訊 我是使用了一個jsoup library在爬 一般網頁都可以正常爬到htm內容 可是像雅虎拍賣這種為何都爬不到結果??? 是因為ajax的關係嗎? 還請指導與指點一下 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.124.124.7 ※ 文章網址: http://www.ptt.cc/bbs/java/M.1408328767.A.20F.html

08/18 11:31, , 1F
javascript???
08/18 11:31, 1F

08/19 07:36, , 2F
Y 拍有擋爬蟲,看一下你 parse 的東西如果是首頁,那就
08/19 07:36, 2F

08/19 07:36, , 3F
是被擋掉了,記得要偽裝
08/19 07:36, 3F

08/19 11:28, , 4F
沒UA或者UA太老實(?)
08/19 11:28, 4F

08/19 11:28, , 5F
你要記得塞UA下去
08/19 11:28, 5F

08/19 11:31, , 6F
不過普通來講 潛規則是如果他不願意被你爬 他就會放
08/19 11:31, 6F

08/19 11:31, , 7F
robots.txt或者check UA, 當然,這很好騙,只是這是一
08/19 11:31, 7F

08/19 11:31, , 8F
個共通的潛規則 儘量不要大量deploy破壞規則的crawler
08/19 11:31, 8F

08/19 17:51, , 9F
爬蟲跟DDOS沒甚麼兩樣~網站管理員很討厭的~
08/19 17:51, 9F

08/20 00:00, , 10F
新手小問..UA是什麼?GOOGLE關鍵字可以下什麼來學...
08/20 00:00, 10F

08/20 08:06, , 11F
User-Agent,是 HTTP 的 Header,給網站判別連進來的是
08/20 08:06, 11F

08/20 08:06, , 12F
哪種 browser
08/20 08:06, 12F

08/20 13:01, , 13F
我記得Y爬太快也會被擋~~要記得不要爬太快
08/20 13:01, 13F

08/21 14:36, , 14F
像是google的crawler的UA就很老實的說Googlebot XD
08/21 14:36, 14F

08/21 14:38, , 15F
也有的是會塞session到cookie的網頁 至種普通crawler
08/21 14:38, 15F

08/21 14:39, , 16F
也沒辦法爬太深 多半只能爬到地一層...我說土炮的bot
08/21 14:39, 16F

08/21 14:39, , 17F
很多open source的crawler會處理cookie-session
08/21 14:39, 17F

08/21 14:40, , 18F
不過這是技術問題, 道德問題還是要注意一下 :P
08/21 14:40, 18F

08/21 14:42, , 19F
另外一個比較有可能出包的的就是檢查referer
08/21 14:42, 19F

08/21 14:42, , 20F
這也是大多數crawler會幫你處理的技術問題就是
08/21 14:42, 20F
文章代碼(AID): #1JyMG_8F (java)
文章代碼(AID): #1JyMG_8F (java)