[問題] 新手R爬蟲問題
各位R前輩大家好! 我最近開始練習用R寫爬蟲(也是第一次寫爬蟲)
因為本身經驗不足一直卡卡的~~
我想要爬以下這個網站
https://global.factiva.com/np/default.aspx?NAPC=P&inpt=Factiva
我想要爬裡面的新聞資料,但我不清楚開怎麼設XPATH
網站新聞圖給各位做參考
http://imgur.com/L3Yg4Xe
所以我試著用/html/body
結果爬不出東西。
我再附上我自己寫的一小段給大家點評,希望大家
能指出我有什麼地方錯誤,謝謝。
library(XML)
>
res=GET(url="https://global.factiva.com/ha/default.aspx?ftx=died#./!?&_suid=1458132523982001469636911677985")
> xml=htmlParse(res,encoding="UTF-8")
> xpath="/html/body"
> text=xml[xpath]
> print(text)
[[1]]
<body class="">
<script type="text/javascript">
<![CDATA[
<!--
document.location = '//global.factiva.com/';
// -->
]]>
</script>
</body>
attr(,"class")
[1] "XMLNodeSet"
結果爬不出東西來~~~~
第一次在這邊發文,請大家多多指教!
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.4.209
※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1458134116.A.6B0.html
推
03/16 23:08, , 1F
03/16 23:08, 1F
推
03/17 08:40, , 2F
03/17 08:40, 2F
→
03/17 22:50, , 3F
03/17 22:50, 3F
推
03/18 00:16, , 4F
03/18 00:16, 4F
→
03/18 00:17, , 5F
03/18 00:17, 5F
→
03/18 00:18, , 6F
03/18 00:18, 6F
→
03/18 00:41, , 7F
03/18 00:41, 7F
→
03/18 00:41, , 8F
03/18 00:41, 8F
→
03/19 13:18, , 9F
03/19 13:18, 9F
R_Language 近期熱門文章
PTT數位生活區 即時熱門文章