[問題] google search 爬蟲

看板Python作者 (痛苦)時間10月前 (2024/02/03 06:58), 10月前編輯推噓2(203)
留言5則, 4人參與, 10月前最新討論串1/1
我只想在對google search 爬取文章 例如 icecream@gmail.com 有多少業者 https://imgur.com/a/kLSId6D 會對結果收集並存放到excel 一筆資料會有五個欄位 1.網域 2.完整網域 3.主標題 4.內文 5.圖片網址 對我發現一個問題 每個物件用BS4的class都是隨機亂碼, 造成不保證後續都可以用同個class去抓 我自己用了幾次 目前都是同個物件class(亂碼)沒變 但我覺得可能過幾天就會更換 Q1.請問google search 結果的html class似乎都是亂碼取名該怎應對? Q2.class=VwiC3b yXK7lf lVm3ye r025kc hJNv6b Hdw6tb 這怎class該怎抓阿 名稱太長且中間有空格,一直抓失敗.. -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 218.172.36.32 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1706914727.A.11D.html ※ 編輯: jackjenny (218.172.36.32 臺灣), 02/03/2024 08:44:03

02/03 14:17, 10月前 , 1F
我是沒有仔細受研究 但你可以用XPath抓抓看 我也不確定可不
02/03 14:17, 1F

02/03 14:17, 10月前 , 2F
可以
02/03 14:17, 2F

02/04 02:02, 10月前 , 3F
往下找有個 var m = {} 有存那些資訊 可以看看
02/04 02:02, 3F

02/04 03:45, 10月前 , 4F
J大 不懂意思 找不到耶
02/04 03:45, 4F

02/10 21:52, 10月前 , 5F
你乖乖付錢就有api可以用, 你這樣爬很快會被擋
02/10 21:52, 5F
文章代碼(AID): #1blNEd4T (Python)
文章代碼(AID): #1blNEd4T (Python)