[問題] 網頁爬蟲xpath設定問題
程式諮詢:我想用R來網頁爬蟲,將購物網站的商品和價格給下載下來。
但是,以下這個網站的結構對新手的我來說怎麼try都失敗,想請教各位~
謝謝!
[軟體熟悉度]:
入門(寫過其他程式,只是對語法不熟悉)
[問題敘述]:
指定xpath收集商品的名稱及價格,但是筆者的能力無法正確指定xpath的路徑
[程式範例]:
#Target webpage
base_url <- "https://www.zalora.com.tw"
url <- "https://www.zalora.com.tw/women/shoes/?category_id=4&Page="
ix <- seq(1,5,1)
df.product.info <- data.frame()
for (i in ix) {
t_url <- paste0(url, i)
doc <- read_html(t_url, encoding = "UTF-8")
xpath <- '//div[@class="b-catalogList__itm js-catalogList__itm hasOverlay
unit size1of3"]'
product.brand <- xml_text(xml_find_all(doc, xpath))
......}
測試結果:0 obs of 1 variable.
[環境敘述]:
請提供 sessionInfo() 的輸出結果,
macOS 10.12.4、R3.3.2
[關鍵字]:xpath
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.26.45.116
※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1491591771.A.C81.html
推
04/08 10:06, , 1F
04/08 10:06, 1F
→
04/08 10:07, , 2F
04/08 10:07, 2F
→
04/08 10:08, , 3F
04/08 10:08, 3F
→
04/08 10:11, , 4F
04/08 10:11, 4F
→
04/08 10:12, , 5F
04/08 10:12, 5F
討論串 (同標題文章)
以下文章回應了本文:
完整討論串 (本文為第 1 之 2 篇):
R_Language 近期熱門文章
PTT數位生活區 即時熱門文章