[問題] Google Play 內容隨機變動問題

看板Python作者 (ChaN)時間7年前 (2018/03/20 14:39), 編輯推噓0(002)
留言2則, 1人參與, 7年前最新討論串1/1
各位好,小弟要抓取分析 Google Play 頁面的星星數做分析 https://play.google.com/store/apps/details?id=jp.naver.line.android 以上面那個例子為例,要抓取如下方圖示的位置 https://i.imgur.com/1dqIYT1.png
HTML 會像是 <span class="bar-number" aria-label="評分次數:30,554">30,554</span> 所以我是取 .bar-number 的部份,後來發現一個大問題 就是 Google 會隨機的變更內容,會變成類似 <span class="UfW5d" aria-label="6,397,222 則評分">6,397,222</span> 用網頁刷也是同樣的情況,而用無痕就可以固定顯示正確的 class 已經使用過無痕的 request header 也無效,不知道怎樣讓爬蟲正確的抓到內容 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.124.224.43 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1521527948.A.F24.html

03/22 02:27, 7年前 , 1F
樹狀結構是穩定的,你找固定的文字作定位 xpath 相對路徑
03/22 02:27, 1F

03/22 02:28, 7年前 , 2F
打個比方 <h2 class="Rm6Gwb">評論</h2>
03/22 02:28, 2F
文章代碼(AID): #1QiAoCya (Python)
文章代碼(AID): #1QiAoCya (Python)