[問題] 新手R爬蟲問題

看板R_Language作者 (xyz6206a)時間8年前 (2016/03/16 21:15), 編輯推噓3(306)
留言9則, 5人參與, 最新討論串1/1
各位R前輩大家好! 我最近開始練習用R寫爬蟲(也是第一次寫爬蟲) 因為本身經驗不足一直卡卡的~~ 我想要爬以下這個網站 https://global.factiva.com/np/default.aspx?NAPC=P&inpt=Factiva 我想要爬裡面的新聞資料,但我不清楚開怎麼設XPATH 網站新聞圖給各位做參考 http://imgur.com/L3Yg4Xe
所以我試著用/html/body 結果爬不出東西。 我再附上我自己寫的一小段給大家點評,希望大家 能指出我有什麼地方錯誤,謝謝。 library(XML) > res=GET(url="https://global.factiva.com/ha/default.aspx?ftx=died#./!?&_suid=1458132523982001469636911677985") > xml=htmlParse(res,encoding="UTF-8") > xpath="/html/body" > text=xml[xpath] > print(text) [[1]] <body class=""> <script type="text/javascript"> <![CDATA[ <!-- document.location = '//global.factiva.com/'; // --> ]]> </script> </body> attr(,"class") [1] "XMLNodeSet" 結果爬不出東西來~~~~ 第一次在這邊發文,請大家多多指教! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.4.209 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1458134116.A.6B0.html

03/16 23:08, , 1F
用chrome嗎 ?infoLite跟selectorGadget都可以拿xpath
03/16 23:08, 1F

03/17 08:40, , 2F
rvest 包
03/17 08:40, 2F

03/17 22:50, , 3F
目前還遇到一個困難 那個資料庫竟然要登入QQ
03/17 22:50, 3F

03/18 00:16, , 4F
google: session 然後開始查cookie資訊
03/18 00:16, 4F

03/18 00:17, , 5F
如果要抓的資料不介意速度的話可以改用python的模擬
03/18 00:17, 5F

03/18 00:18, , 6F
selenium, R有沒有類似套件我還不確定
03/18 00:18, 6F

03/18 00:41, , 7F
r有rSelenium
03/18 00:41, 7F

03/18 00:41, , 8F
RSelenium
03/18 00:41, 8F

03/19 13:18, , 9F
透過RSelenium可以解決登入問題
03/19 13:18, 9F
文章代碼(AID): #1MwLnaQm (R_Language)
文章代碼(AID): #1MwLnaQm (R_Language)