[問題] R爬蟲抓html的問題

看板R_Language作者 (Legend)時間9年前 (2016/07/13 10:28), 9年前編輯推噓2(202)
留言4則, 1人參與, 最新討論串1/1
[問題類型]: 程式諮詢 [軟體熟悉度]: 使用者(已經有用R 做過不少作品) [問題敘述]: 昨天開始研究使用R爬蟲,從 celestialgod 大大的code開始起頭 範例中大大抓的是BG版的文章內容,而我是想要抓八卦版的文章標題就好 但發現paste完網址、read_html抓code之後 再使用xml_find_all去抓title會有問題,其值為空 ( 顯示{xml_nodeset(0)} ) 往回追read_html,懷疑是不是html碼抓漏了,並沒有抓到title等項 因為開原網站的html來看,在body的部分似乎和抓到的有出入 不知道是不是這樣?還是其他地方有問題? 因為對html不熟悉,如果理解有誤請見諒 [程式範例] 為了研究先只抓15220這一頁 paste(15220, '.html', sep='') %>% paste('https://www.ptt.cc/bbs/Gossiping/index', ., sep='') %>% xml2::read_html() %>% xml2::xml_find_all("//div[@class='title']/a[@href]") [環境敘述]: R version : 3.3.1 [關鍵字]: crawl xml2 read_html -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.240.101.43 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1468376923.A.D0A.html ※ 編輯: grimmq427532 (123.240.101.43), 07/13/2016 12:00:13

07/13 13:39, , 1F
你沒有通過18檢驗那一關
07/13 13:39, 1F

07/13 13:40, , 2F
版上搜尋批踢踢可以找到解決方法
07/13 13:40, 2F
有看過這個部分,但現在輸入網址透過瀏覽器好像不會做18檢驗, 而使用read_html要嗎? 先研究看看,感謝!

07/13 14:35, , 3F
我輸入的時候要,你這個問題我也碰過把cookie那邊
07/13 14:35, 3F

07/13 14:35, , 4F
加上一點代碼就可以過關了。
07/13 14:35, 4F
已經解決,感謝! 瀏覽器不會出現是因為cookie記錄下來了,我太蠢了... 開無痕式就會出現over18的驗證 所以透過rvest紀錄cookie就OK了,參考 https://github.com/dspim/R_Crawler_HTTP/blob/master/http_request.Rmd ※ 編輯: grimmq427532 (123.240.101.43), 07/13/2016 15:14:35
文章代碼(AID): #1NXQTRqA (R_Language)
文章代碼(AID): #1NXQTRqA (R_Language)