[問題] 丟入htmlParse的東西

看板R_Language作者 (舊舅舅)時間9年前 (2015/01/30 21:39), 編輯推噓1(106)
留言7則, 5人參與, 最新討論串1/2 (看更多)
[問題類型]: 程式諮詢 [軟體熟悉度]: 使用者 [問題敘述]: 最近在學習網路爬蟲,看到網路上餵給htmlParse的內容的寫法不太一樣, 本人對於HTTP的基礎薄弱,有點不得其門而入的感覺, 想請教以下寫法的異同與使用時機的差別,謝謝! 1. url<-"http://xxx.html" content<-htmlParse(url) 2.(有時候1.不順利的時候帶2.的式子就成功了不知道為何) url<-getURL("http://xxx.html") content<-htmlParse(url) 3.(個人猜測以下這種寫法只能存取本地file?) url<-"http://xxx.html" f<-file(url) f_size<-file.info(url)$size content<-readChar(f,f_size) close(f) -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 112.105.245.56 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1422625148.A.FB7.html

01/30 22:24, , 1F
我沒有特別研究過curl這類網路工具。如果你可以提供網址
01/30 22:24, 1F

01/30 22:25, , 2F
我可能比較容易了解。(目前我是猜可能和http 轉址有關)
01/30 22:25, 2F

01/31 02:04, , 3F
沒用過第一種寫法@@
01/31 02:04, 3F

01/31 03:45, , 4F
我都直接 strsplit(x,'<tr>') 硬幹
01/31 03:45, 4F

01/31 12:58, , 5F
雖然可能跟內文沒什麼關係;不過推薦一下rvest這個套
01/31 12:58, 5F

01/31 12:58, , 6F
01/31 12:58, 6F

01/31 13:48, , 7F
謝謝各位大大!
01/31 13:48, 7F
文章代碼(AID): #1Kouby-t (R_Language)
文章代碼(AID): #1Kouby-t (R_Language)