[問題] Google play 評論所有爬蟲(Crawler)

看板R_Language作者 (你好)時間8年前 (2017/11/23 00:32), 編輯推噓0(003)
留言3則, 2人參與, 8年前最新討論串1/1
- 問題: 各位大神前輩大大們好, 問題如下: Google play '所有'評論抓取疑問, 想爬取如下圖之'所有'評論 https://imgur.com/a/zpxnf [問題敘述]: Google play 中用戶對於 APP 的評論, Google限制只能抓取前40筆, 參照 stack overflow 的 script後, 卻不能如期抓取任何內容. 另外, 發現 Google 找尋其他方法時, Python的大多解法, 最多可以抓取500評論, 但依循其想法, 在 R 的 script 中, Request refer 卻怪怪的, 故特此懇求版上的大大能指點迷津! [程式範例]: library(httr) library(stringr) baseUrl <- 'https://play.google.com/store/getreviews?authuser=0' urls <- 'https://play.google.com/store/apps/details?id=com.gravity.ro.and&hl=zh-TW' dataJson <- GET(baseUrl, add_headers(Referer = urls, 'accept' = '*/*', 'accept-encoding' = 'gzip, deflate, br', 'accept-language' = 'en-US,en;q=0.9,zh-TW;q=0.8,zh;q=0.7', 'content-type' = 'application/x-www-form-urlencoded;charset=UTF-8', 'user-agent' = 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36')) %>% content %>% as.character ## 發現 https://play.google.com/store/getreviews?authuser=0' 並無此網址 dataJson [關鍵字]: Google play, Crawler, 爬蟲 非常感謝各位大大! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.160.202.129 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1511368335.A.95B.html

11/26 19:26, 8年前 , 1F

11/26 19:29, 8年前 , 2F
把id換成你要擷取的com.gravity.ro.and就可以
11/26 19:29, 2F

11/28 14:31, 8年前 , 3F
超感謝S大!!!!!!!!
11/28 14:31, 3F
文章代碼(AID): #1Q5QQFbR (R_Language)
文章代碼(AID): #1Q5QQFbR (R_Language)