[問題] 網頁爬蟲xpath設定問題

看板R_Language作者 (越前)時間8年前 (2017/04/08 03:02), 編輯推噓1(104)
留言5則, 1人參與, 最新討論串1/2 (看更多)
程式諮詢:我想用R來網頁爬蟲,將購物網站的商品和價格給下載下來。 但是,以下這個網站的結構對新手的我來說怎麼try都失敗,想請教各位~ 謝謝! [軟體熟悉度]: 入門(寫過其他程式,只是對語法不熟悉) [問題敘述]: 指定xpath收集商品的名稱及價格,但是筆者的能力無法正確指定xpath的路徑 [程式範例]: #Target webpage base_url <- "https://www.zalora.com.tw" url <- "https://www.zalora.com.tw/women/shoes/?category_id=4&Page=" ix <- seq(1,5,1) df.product.info <- data.frame() for (i in ix) { t_url <- paste0(url, i) doc <- read_html(t_url, encoding = "UTF-8") xpath <- '//div[@class="b-catalogList__itm js-catalogList__itm hasOverlay unit size1of3"]' product.brand <- xml_text(xml_find_all(doc, xpath)) ......} 測試結果:0 obs of 1 variable. [環境敘述]: 請提供 sessionInfo() 的輸出結果, macOS 10.12.4、R3.3.2 [關鍵字]:xpath -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.26.45.116 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1491591771.A.C81.html

04/08 10:06, , 1F
如果你有開browser的檢視元素看,你要抓的是傳回來的
04/08 10:06, 1F

04/08 10:07, , 2F
json格式資料
04/08 10:07, 2F

04/08 10:08, , 3F
要抓的 url 也不是你貼的網址
04/08 10:08, 3F

04/08 10:11, , 4F
04/08 10:11, 4F

04/08 10:12, , 5F
你開browser檢視元素就知道了
04/08 10:12, 5F
文章代碼(AID): #1Ov-9Ro1 (R_Language)
文章代碼(AID): #1Ov-9Ro1 (R_Language)