[問題] 有關網路爬蟲"網址(url)"的問題

看板R_Language作者 (principal component QQ)時間9年前 (2016/08/08 15:05), 編輯推噓0(005)
留言5則, 1人參與, 最新討論串1/1
問題: 有關於網頁的"url"問題 程度: 新手 敘述: 我想對一個網站(某個租屋網)進行資料收集, 該網站將屋子訊息每20筆放在一個分頁, 但是當我點入第二個分頁時, 網址在後面只多了"#list", 當我點入第三個分頁時,仍就是如此,找不到網頁的網址。 想請問有沒有類似的關鍵字可以讓我搜尋相關的問題。 謝謝。 程式: require("XML") require("httr") .get <- GET("https://rent.591.com.tw/") .content <- content(.get,"text") .htmlParse <- htmlParse(.content) .web <- xpathSApply(.htmlParse,"//div[@class='left']/a[@href]", xmlAttrs) ## The first 20 data information in the page-1. .web[1,] 環境: Windows R-3.2.5 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 58.114.225.29 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1470639907.A.EA9.html

08/08 22:59, , 1F
它是靠cookie來決定顯示內容的。找 urlJumpIpByTxt 和
08/08 22:59, 1F

08/08 23:01, , 2F
urlJumpIp 的值,會決定哪個縣市。
08/08 23:01, 2F

08/08 23:07, , 3F
至於第幾頁,是由jsPage()的javascript來達成的。
08/08 23:07, 3F

08/08 23:08, , 4F
總之,你眼睛看到的URL其實對你沒有用處。了解其js的細
08/08 23:08, 4F

08/08 23:09, , 5F
節才可能了解怎麼控制顯示內容再控制R去讀取。
08/08 23:09, 5F
文章代碼(AID): #1Ng2yZwf (R_Language)
文章代碼(AID): #1Ng2yZwf (R_Language)