[問題] 網路爬蟲抓資料問題

看板R_Language作者 (工人)時間7年前 (2018/01/15 08:38), 7年前編輯推噓2(203)
留言5則, 2人參與, 7年前最新討論串1/1
[問題類型]: 程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來) [軟體熟悉度]: 入門(寫過其他程式,只是對語法不熟悉) [問題敘述]: http://jsjustweb.jihsun.com.tw/z/zc/zcj/zcj_4960.djhtm 我想抓"所屬產業" 這四個字 因為我用utf-8的網頁練習都沒問題 但這個big5 的 執行出來都是空的 想請問是有什麼問題在裡面嗎 [程式範例]: library(plyr) library(dplyr) library(data.table) library(stringi) base_url <- "http://jsjustweb.jihsun.com.tw" url <- "http://jsjustweb.jihsun.com.tw/z/zc/zcj/zcj_" t_url <- paste0(url, i="4960.djhtm") doc1 <- read_html(t_url, encoding = "big5") xpath <- '//div[@id="SysJustIFRAMDIV"]/a' title <- xml_text(xml_find_all(doc1, xpath)) [關鍵字]: 網路爬蟲 很感謝回復 ※ 編輯: jasonfghx (180.217.127.44), 01/15/2018 16:21:59 ※ 編輯: jasonfghx (180.217.127.44), 01/15/2018 16:22:20

01/15 18:07, 7年前 , 1F
主要的原因是左上的目錄內容是javascript產生的。
01/15 18:07, 1F

01/15 18:44, 7年前 , 2F
所以說遇到這種網站是撈不到資料?
01/15 18:44, 2F

01/15 20:12, 7年前 , 3F
我不在行,但Google R fetch HTML generated by JavaSc
01/15 20:12, 3F

01/15 20:12, 7年前 , 4F
ript 有看到不少解法。
01/15 20:12, 4F

01/15 21:05, 7年前 , 5F
謝謝
01/15 21:05, 5F
文章代碼(AID): #1QM_VyT0 (R_Language)
文章代碼(AID): #1QM_VyT0 (R_Language)