[問題] 抓資料被檔@@
之前寫了個抓yahoo搜尋出來的東西的程式
今天心血來潮開出來看,發現才抓第一頁就被擋了@@
以下是我的程式碼:
# -*- coding: utf-8 -*-
import urllib
import re
query = u'123'
d_query = urllib.quote(query.encode('utf8')) #把query編碼
top_result = 100 #抓前top_result個result
url='http://tw.knowledge.yahoo.com/search/search_result?cp=1&p='+d_query+'&tab=3&n='+str(top_result)
data = urllib.urlopen(url).read()
print data
之前抓google的資料的時候
好像有聽說可以在程式碼寫上什麼代理伺服器的名字就可以騙過去
或是不知道有無其他抓網頁的指令可以不在抓第一頁被檔的呢?
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.116.142.78
※ 編輯: hazton 來自: 140.116.142.78 (09/26 00:28)
推
09/26 00:38, , 1F
09/26 00:38, 1F
→
09/26 00:38, , 2F
09/26 00:38, 2F
→
09/26 00:38, , 3F
09/26 00:38, 3F
→
09/26 00:39, , 4F
09/26 00:39, 4F
→
09/26 00:51, , 5F
09/26 00:51, 5F
討論串 (同標題文章)
Python 近期熱門文章
PTT數位生活區 即時熱門文章