[問題] ig爬蟲問題

看板Python作者 (yoooooz)時間5年前 (2020/06/05 23:43), 編輯推噓5(5019)
留言24則, 5人參與, 5年前最新討論串1/1
請問一下 爬了好幾頁都正常,但在請求時突然會蹦出這個錯誤(正確的話是會回傳一大串 jasn 的格式) js_data : {'message': 'rate limited', 'status': 'fail'} 但是我把網址貼到瀏覽器上面是正常的,程式裡執行卻讀不出來 請問該如何是好? 困擾我好久了 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 49.213.197.216 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1591371824.A.1FE.html

06/06 00:24, 5年前 , 1F
你有加header嗎? 可能會擋爬蟲
06/06 00:24, 1F

06/06 01:20, 5年前 , 2F
建議用API。facebook的或舊的instgramAPI。但舊的很快就
06/06 01:20, 2F

06/06 01:20, 5年前 , 3F
不能用了
06/06 01:20, 3F

06/06 02:31, 5年前 , 4F

06/06 07:38, 5年前 , 5F
message都說rate limited了啊,你爬的速度太快了,他限制
06/06 07:38, 5F

06/06 07:39, 5年前 , 6F
你不可以爬那麼快,遇到這種情況就是sleep一段時間繼續
06/06 07:39, 6F

06/06 07:43, 5年前 , 7F
sleep要多久就看它的限制,或記錄一下次數時間來估計一下
06/06 07:43, 7F

06/06 07:44, 5年前 , 8F
他的速限來加以調整
06/06 07:44, 8F

06/06 09:59, 5年前 , 9F
06/06 09:59, 9F

06/06 20:13, 5年前 , 10F
我有加 header,加了會被擋住???
06/06 20:13, 10F

06/06 20:14, 5年前 , 11F
我是沒用 API 啦,自己寫出來,用 API 會比較好嗎?
06/06 20:14, 11F

06/06 20:14, 5年前 , 12F
sleep 我會再去看一下~
06/06 20:14, 12F

06/07 00:50, 5年前 , 13F
原Po,反正就是速限問題,不管你用哪個方法,看起來基本上
06/07 00:50, 13F

06/07 00:50, 5年前 , 14F
就是你同一個來源衝太快它就是會擋你
06/07 00:50, 14F

06/07 00:51, 5年前 , 15F
sleep就只是休息一段時間不抓而已,沒啥特別的
06/07 00:51, 15F

06/07 00:53, 5年前 , 16F
就上面連結來看,你一小時只能call 200次,所以如果你call
06/07 00:53, 16F

06/07 00:54, 5年前 , 17F
200次只花了5分鐘,接下來你就得sleep(3300)把剩下的55分
06/07 00:54, 17F

06/07 00:55, 5年前 , 18F
鐘休息掉,不然同一個程式來源怎麼試都是被擋
06/07 00:55, 18F

06/07 00:56, 5年前 , 19F
實作上也不用算這麼精確,反正抓到message跟你說上限到了
06/07 00:56, 19F

06/07 00:58, 5年前 , 20F
,程式就sleep個10分鐘再起來重抓,還是限就再sleep,以上
06/07 00:58, 20F

06/07 00:58, 5年前 , 21F
loop就可以自動搞定了
06/07 00:58, 21F

06/07 16:26, 5年前 , 22F
你可以測他是怎麼擋的 想辦法繞過
06/07 16:26, 22F

06/08 01:02, 5年前 , 23F
好的 感謝各位 我後來用 sleep 的方式
06/08 01:02, 23F

06/08 01:03, 5年前 , 24F
繞過的話可能還要在去研究遺下
06/08 01:03, 24F
文章代碼(AID): #1UscWm7- (Python)
文章代碼(AID): #1UscWm7- (Python)