看板 [ Python ]
討論串[問題] 抓 google 網頁的搜尋回傳結果
共 6 篇文章
首頁
上一頁
1
2
下一頁
尾頁

推噓2(2推 0噓 3→)留言5則,0人參與, 6年前最新作者purplvampire (阿修雷)時間6年前 (2019/06/10 23:34), 6年前編輯資訊
0
1
1
內容預覽:
小弟也有類似的問題想請教前輩們,是針對搜尋結果的前幾個網站連結做抓取,. 試過書上用bs4的選擇器soup.select('.r a')抓不到連結,上網查最新的選擇器. soup.select(div.g > h3.r > a[href^="/url"])也是抓不到網站連結. http://bit.
(還有129個字)

推噓0(0推 0噓 0→)留言0則,0人參與, 最新作者yoco315 (眠月)時間17年前 (2007/12/16 04:03), 編輯資訊
0
0
2
內容預覽:
其實你上面已經抓到了啊. t = opener.open('http://www.google.com.tw/...........'). print t. 就可以看到結果了. 我把你的碼複製 try 過了沒問題... 很確實的抓到了網頁.... 只是 parse 還要點力氣.... --. To

推噓0(0推 0噓 0→)留言0則,0人參與, 最新作者plom (plom)時間17年前 (2007/12/15 22:44), 編輯資訊
0
0
1
內容預覽:
剛又試了一下. import httplib. httplib.HTTPConnection.debuglevel = 1. import urllib2. opener = urllib2.build_opener(). opener.addheaders = [('User-agent', 'M
(還有250個字)

推噓1(1推 0噓 0→)留言1則,0人參與, 最新作者plom (plom)時間17年前 (2007/12/15 20:17), 編輯資訊
0
0
0
內容預覽:
那請問有人知道如何改寫嗎?只有 python 不能抓, 實在太不公平了 ><. --. 發信站: 批踢踢實業坊(ptt.cc). ◆ From: 123.192.149.53.

推噓0(0推 0噓 0→)留言0則,0人參與, 最新作者StubbornLin (Victor)時間17年前 (2007/12/15 18:39), 編輯資訊
0
0
1
內容預覽:
嗯~ 經過剛才討論一下. 還有我的實驗. 發現問題出在Google疑似會擋urllib的User-Agent header. 以上. --. VICTOR工作室 | PTT遊戲設計版隆重開幕!. | 不管是新手老手,程式美工音樂企劃..... URL : http://www.kinmen.info
首頁
上一頁
1
2
下一頁
尾頁