[問題] R爬蟲抓html的問題

看板R_Language作者grimmq427532 (Legend)時間9年前 (2016/07/13 10:28)推噓2(2推 0噓 2→)

留言4則, 1人參與討論串1/1

[問題類型]: 程式諮詢 [軟體熟悉度]: 使用者(已經有用R 做過不少作品) [問題敘述]: 昨天開始研究使用R爬蟲，從 celestialgod 大大的code開始起頭範例中大大抓的是BG版的文章內容，而我是想要抓八卦版的文章標題就好但發現paste完網址、read_html抓code之後再使用xml_find_all去抓title會有問題，其值為空 ( 顯示{xml_nodeset(0)} ) 往回追read_html，懷疑是不是html碼抓漏了，並沒有抓到title等項因為開原網站的html來看，在body的部分似乎和抓到的有出入不知道是不是這樣？還是其他地方有問題？因為對html不熟悉，如果理解有誤請見諒 [程式範例] 為了研究先只抓15220這一頁 paste(15220, '.html', sep='') %>% paste('https://www.ptt.cc/bbs/Gossiping/index', ., sep='') %>% xml2::read_html() %>% xml2::xml_find_all("//div[@class='title']/a[@href]") [環境敘述]: R version : 3.3.1 [關鍵字]: crawl xml2 read_html -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.240.101.43 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1468376923.A.D0A.html ※ 編輯: grimmq427532 (123.240.101.43), 07/13/2016 12:00:13

推

clansoda

07/13 13:39, , 1^F

07/13 13:39, 1^F

→

clansoda

07/13 13:40, , 2^F

07/13 13:40, 2^F

有看過這個部分，但現在輸入網址透過瀏覽器好像不會做18檢驗，而使用read_html要嗎？先研究看看，感謝！

推

clansoda

07/13 14:35, , 3^F

07/13 14:35, 3^F

→

clansoda

07/13 14:35, , 4^F

07/13 14:35, 4^F

已經解決，感謝！瀏覽器不會出現是因為cookie記錄下來了，我太蠢了... 開無痕式就會出現over18的驗證所以透過rvest紀錄cookie就OK了，參考 https://github.com/dspim/R_Crawler_HTTP/blob/master/http_request.Rmd ※ 編輯: grimmq427532 (123.240.101.43), 07/13/2016 15:14:35

‣ 返回看板[ R_Language ] 程式

‣ 更多 grimmq427532 的文章

文章代碼(AID): #1NXQTRqA (R_Language)