[問題] 爬蟲爬不到資料(BLOOMBERG)

看板Python作者 (sun)時間6年前 (2019/05/03 17:30), 編輯推噓0(002)
留言2則, 1人參與, 6年前最新討論串1/1
我寫了一小段程式碼如下, 分別想抓兩個財金網站的資料: from bs4 import BeautifulSoup from urllib.request import urlopen html11=urlopen('https://www.bloomberg.com/quote/INDU:IND') soup=BeautifulSoup(html11,'html.parser') print(soup.find_all('div')) html22=urlopen('https://www.cnbc.com/quotes/?symbol=AAPL&qsearchterm=aapl') soup=BeautifulSoup(html22,'html.parser') print(soup.find_all('div')) htm111 是bloomberg的報價網站,很怪的事我在chrome裡面看原始碼明明就有很多'div' 的標籤, 但是實作跑完只有如下: [<div id="px-captcha"></div>, <div id="block_uuid">Block reference ID: </div>] html22是cnbc的報價網站, 就沒有這個問題, 稍微過濾一下就找到我要的資料了. 想要向各位前輩請教解決這個小問題.... 非常感謝! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.116.111.116 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1556875821.A.C08.html

05/03 18:03, 6年前 , 1F
Bloomberg 很早開始就擋爬蟲了。Header request 要多
05/03 18:03, 1F

05/03 18:03, 6年前 , 2F
試幾個參數
05/03 18:03, 2F
文章代碼(AID): #1Sp0ejm8 (Python)
文章代碼(AID): #1Sp0ejm8 (Python)