[問題] Google play 評論所有爬蟲(Crawler)
- 問題:
各位大神前輩大大們好, 問題如下:
Google play '所有'評論抓取疑問,
想爬取如下圖之'所有'評論
https://imgur.com/a/zpxnf
[問題敘述]:
Google play 中用戶對於 APP 的評論,
Google限制只能抓取前40筆,
參照 stack overflow 的 script後,
卻不能如期抓取任何內容.
另外, 發現 Google 找尋其他方法時,
Python的大多解法, 最多可以抓取500評論,
但依循其想法, 在 R 的 script 中,
Request refer 卻怪怪的,
故特此懇求版上的大大能指點迷津!
[程式範例]:
library(httr)
library(stringr)
baseUrl <- 'https://play.google.com/store/getreviews?authuser=0'
urls <-
'https://play.google.com/store/apps/details?id=com.gravity.ro.and&hl=zh-TW'
dataJson <- GET(baseUrl, add_headers(Referer = urls, 'accept' = '*/*',
'accept-encoding' = 'gzip, deflate, br',
'accept-language' = 'en-US,en;q=0.9,zh-TW;q=0.8,zh;q=0.7',
'content-type' = 'application/x-www-form-urlencoded;charset=UTF-8',
'user-agent' = 'Mozilla/5.0 (Windows NT 6.3; Win64; x64)
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36')) %>%
content %>% as.character
## 發現 https://play.google.com/store/getreviews?authuser=0' 並無此網址
dataJson
[關鍵字]:
Google play, Crawler, 爬蟲
非常感謝各位大大!
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.160.202.129
※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1511368335.A.95B.html
→
11/26 19:26,
8年前
, 1F
11/26 19:26, 1F
→
11/26 19:29,
8年前
, 2F
11/26 19:29, 2F
→
11/28 14:31,
8年前
, 3F
11/28 14:31, 3F
R_Language 近期熱門文章
PTT數位生活區 即時熱門文章