[問題] R爬蟲抓html的問題
[問題類型]:
程式諮詢
[軟體熟悉度]:
使用者(已經有用R 做過不少作品)
[問題敘述]:
昨天開始研究使用R爬蟲,從 celestialgod 大大的code開始起頭
範例中大大抓的是BG版的文章內容,而我是想要抓八卦版的文章標題就好
但發現paste完網址、read_html抓code之後
再使用xml_find_all去抓title會有問題,其值為空 ( 顯示{xml_nodeset(0)} )
往回追read_html,懷疑是不是html碼抓漏了,並沒有抓到title等項
因為開原網站的html來看,在body的部分似乎和抓到的有出入
不知道是不是這樣?還是其他地方有問題?
因為對html不熟悉,如果理解有誤請見諒
[程式範例]
為了研究先只抓15220這一頁
paste(15220, '.html', sep='') %>%
paste('https://www.ptt.cc/bbs/Gossiping/index', ., sep='') %>%
xml2::read_html() %>%
xml2::xml_find_all("//div[@class='title']/a[@href]")
[環境敘述]:
R version : 3.3.1
[關鍵字]:
crawl
xml2
read_html
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.240.101.43
※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1468376923.A.D0A.html
※ 編輯: grimmq427532 (123.240.101.43), 07/13/2016 12:00:13
推
07/13 13:39, , 1F
07/13 13:39, 1F
→
07/13 13:40, , 2F
07/13 13:40, 2F
有看過這個部分,但現在輸入網址透過瀏覽器好像不會做18檢驗,
而使用read_html要嗎?
先研究看看,感謝!
推
07/13 14:35, , 3F
07/13 14:35, 3F
→
07/13 14:35, , 4F
07/13 14:35, 4F
已經解決,感謝!
瀏覽器不會出現是因為cookie記錄下來了,我太蠢了...
開無痕式就會出現over18的驗證
所以透過rvest紀錄cookie就OK了,參考
https://github.com/dspim/R_Crawler_HTTP/blob/master/http_request.Rmd
※ 編輯: grimmq427532 (123.240.101.43), 07/13/2016 15:14:35
R_Language 近期熱門文章
PTT數位生活區 即時熱門文章