[問題] BeautifulSoup 新手問題
各位前輩好,小弟
剛開始接觸Python,最近剛學到BeautifulSoup做爬蟲
於是就想要試著實做看看,但是看了老半天還是不是很了解
soup.get_text、soup.content等差別
還有bs4.element.Tag到底有那些指令是可以用的
目前小弟用yahoo的電影排行做練習,程式碼如下:
-----
url='https://movies.yahoo.com.tw/chart.html'
TAG='div'
TAGClass='tr'
geturl = requests.get(url)
soup = BeautifulSoup(geturl.text, 'lxml')
articles=soup(TAG, TAGClass)
for article in articles:
Rank=article.find('div','td').contents
Title=article.find('div','rank_txt')
print(Rank,Title)
print(type(article),type(Rank),type(Title))
----
本來是想做出列出排名、電影名稱等資訊
但不知為何Title這邊不能用.contents來抓出裡面的電影名稱(但是Rank卻可以)
也不能用get_Text(說不支援)
網頁查了老半天還是找不到方法@@
因此來此請較各位前輩,看小弟到底是哪些觀念有問題
(另外想確認一下,一般是在尋找資料時
是會從要抓的資料上一層的Tag跟tag class來往下用for迴圈這樣尋找嗎?
還是其實有比較簡單的做法呢?)
先謝謝各位前輩了
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.136.13.206
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1520999764.A.395.html
推
03/14 16:00,
7年前
, 1F
03/14 16:00, 1F
推
03/14 16:02,
7年前
, 2F
03/14 16:02, 2F
→
03/14 16:13,
7年前
, 3F
03/14 16:13, 3F
→
03/14 16:13,
7年前
, 4F
03/14 16:13, 4F
→
03/14 16:14,
7年前
, 5F
03/14 16:14, 5F
→
03/14 16:15,
7年前
, 6F
03/14 16:15, 6F
推
03/14 16:33,
7年前
, 7F
03/14 16:33, 7F
→
03/14 16:34,
7年前
, 8F
03/14 16:34, 8F
→
03/14 16:35,
7年前
, 9F
03/14 16:35, 9F
→
03/14 16:36,
7年前
, 10F
03/14 16:36, 10F
→
03/14 16:58,
7年前
, 11F
03/14 16:58, 11F
→
03/14 16:58,
7年前
, 12F
03/14 16:58, 12F
→
03/14 16:59,
7年前
, 13F
03/14 16:59, 13F
→
03/14 17:04,
7年前
, 14F
03/14 17:04, 14F
→
03/14 17:04,
7年前
, 15F
03/14 17:04, 15F
→
03/14 17:04,
7年前
, 16F
03/14 17:04, 16F
→
03/14 17:04,
7年前
, 17F
03/14 17:04, 17F
推
03/14 17:10,
7年前
, 18F
03/14 17:10, 18F
→
03/15 04:51,
7年前
, 19F
03/15 04:51, 19F
Python 近期熱門文章
PTT數位生活區 即時熱門文章