PTT數位生活區 / Python

[問題] 電影排行爬蟲

看板Python作者lhsilyvm (此一時也彼一時)時間4年前 (2022/05/10 23:47)推噓0(0推 0噓 3→)

留言3則, 2人參與討論串1/1

目前正在學習使用requests模組爬蟲，以奇摩電影的排行榜當作練習，網址如下: https://movies.yahoo.com.tw/chart.html?cate=year 網頁右邊有一側邊欄台北票房、全美票房、預告片的排行榜，擷取網頁內排行資訊的部分語法如下: <div class="num">2</div> <span>媽的多重宇宙</span> </li> 不管是哪種排行榜都是這種結構，但是以下列的函數去操作時，都只找到台北票房的部分，跑完十個項目就結束了，想請教有沒有漏掉什麼地方，謝謝以下是爬蟲的函數: def get_webpage(self, url): html = requests.get(url=url,headers=self.headers).content.decode('utf-8') # 利用正規表示法搜尋 pattern = '<div class="num">(.*?)</div>.*?<span>(.*?)</span>.*?</li>' regex = re.compile(pattern, re.S) movie_list = regex.findall(html) self.save_webpage(movie_list) def save_webpage(self, movie_list): movie_dict = {} for movie in movie_list: movie_dict['rank'] = movie[0].strip() movie_dict['name'] = movie[1].strip() print(movie_dict) time.sleep(random.uniform(0, 2)) -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.133.252.234 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1652197662.A.D70.html

→

05/11 00:05, 4年前 , 1^F

05/11 00:05, 1^F

→

05/11 00:09, 4年前 , 2^F

05/11 00:09, 2^F

→

05/16 11:34, , 3^F

05/16 11:34, 3^F

‣ 返回看板[ Python ] 程設

‣ 更多 lhsilyvm 的文章

文章代碼(AID): #1YUeaUrm (Python)

Python 近期熱門文章

2

12

[問題] 公司電腦無法透過python讀取usb攝像頭

2周前, 07/08

2

11

[問題] openpyxl到底能不能調整全局Font？

2月前, 05/07

7

21

[問題] super() 與MRO 鏈斷裂問題

4月前, 02/24

3

13

[問題] vscode的debug模式不用考慮中文路徑

5月前, 02/01

1

15

[問題] skimage.io.imread()讀圖檔底色是黃色？

6月前, 12/28

2

4

[閒聊] 有人要合購股票pythony資料庫finlab嗎?

7月前, 12/23

1

1

[問題] python 3.14 free thread build

8月前, 10/29

1

13

[問題] 關於正規表示法的r'\1'?

9月前, 10/22

更多近期熱門文章 >>

PTT數位生活區即時熱門文章

7

20

Re: [閒聊] NV調漲GDDR7與GDDR6顯卡出貨價格

[ PC_Shopping ]

2小時前, 07/24

19

34

Re: [情報] RTX3060 12GB 顯示卡重新開賣

[ PC_Shopping ]

4小時前, 07/23

23

62

[閒聊] NV調漲GDDR7與GDDR6顯卡出貨價格

[ PC_Shopping ]

5小時前, 07/23

24

49

[閒聊] 傳聞下周N卡漲20% 8月其他零件跟上

[ PC_Shopping ]

5小時前, 07/23

3

20

[請益] 3070ti搭配請益

[ PC_Shopping ]

6小時前, 07/23

6

7

[心得] TCL維修心得

7小時前, 07/23

13

33

Re: [閒聊] 5800X3D今晚9點上架

[ PC_Shopping ]

7小時前, 07/23

4

27

Re: [問題] 三星悠遊卡

9小時前, 07/23

更多即時熱門文章 >>

‣ 返回看板[ Python ] 程設

‣ 更多 lhsilyvm 的文章

文章代碼(AID): #1YUeaUrm (Python)