Re: [問題] 爬蟲爬取聯合財經新聞

看板R_Language作者jojojen (JJJ)時間9年前 (2016/11/25 23:08)推噓2(2推 0噓 5→)

留言7則, 2人參與討論串3/3 (看更多)

※ 引述《celestialgod (天)》之銘言： : ※ 引述《jojojen (JJJ)》之銘言： : : [問題類型]: : : 程式諮詢 : : [軟體熟悉度]: : : 入門(寫過其他程式，只是對語法不熟悉) : : [問題敘述]: : : 各位大大好，小弟算是爬蟲初學者，最近在練習爬取聯合新聞的即時新聞列表， : : 在抓出版時間時碰到一點問題，雖然硬是寫了出來， : : 但還是想請教一下有沒有更好的寫法 : : 麻煩各位了！！ : : [程式範例]: : : # install pack : : list.of.packages <- c("rvest", "RCurl", "stringi", "XML", "stringr") : : new.packages <- list.of.packages[!(list.of.packages %in% : : installed.packages()[,"Package"])] : : if(length(new.packages)) install.packages(new.packages) : : # 撈取財經新聞 : : surl = "http://money.udn.com/money/breaknews" : : udn = read_html(surl,encoding="UTF-8") : : ranking_table = udn %>% html_nodes('.area_body') %>% html_nodes(xpath = : : "//table") : : title = ranking_table %>% html_nodes('a') %>% html_text %>% iconv(from = : : 'UTF-8', to = 'UTF-8') : : url = ranking_table %>% html_nodes('a') %>% html_attr('href') : : ## 抓取時間的時候，因為類別跟出版時間都被放在only_web class裡 : : ## 我分不開只好都先抓下來，再砍掉不符合的欄位 : : pattern = '^[0-9]{2}' : : t = ranking_table %>% html_nodes('.only_web') %>% html_text %>% as.data.frame : : colnames(t) = c("data") : : time = subset(t, grepl(pattern, t$data)) : : [環境敘述]: : : R version 3.3.1 (2016-06-21) : : Platform: x86_64-w64-mingw32/x64 (64-bit) : : Running under: Windows 7 x64 (build 7600) : : [關鍵字]: : : 網路爬蟲, RVEST : 下面是我的作法，windows用rvest會遇到encoding問題 : 但是windows中文版也不能正常顯示UTF8字元，所以要經過一點轉換 : # require pkgs and install it if it is not installed : if (!"installr" %in% installed.packages()) install.packages("installr") : library(installr) : require2(rvest) : require2(stringi) : require2(data.table) # 轉不轉data.table無所謂 : require2(pipeR) : if (is.windows()) { : original_locale <- Sys.getlocale("LC_COLLATE") : Sys.setlocale("LC_ALL", 'C') : } : surl <- "http://money.udn.com/money/breaknews" : outTbl <- read_html(surl, encoding="UTF-8") %>>% : html_node("#ranking_table") %>>% html_table : if (is.windows()) { : outTblTrans <- lapply(outTbl, function(v){ : if (class(v) == "character") { : return(stri_conv(v, to = "big5")) # 字串都轉成big5 : } else { : return(v) : } : }) %>>% `names<-`(NULL) %>>% as.data.table %>>% # names一定要先清空不然會錯 : setnames(stri_conv(names(outTbl), to = "big5")) : Sys.setlocale(locale = original_locale) : } : # 標題類別出版時間瀏覽數分享數 : # 1: 共享單車成都投放1周亂停放被城管沒收即時 11/25 21:21 0 NA : # 2: 緬甸洛興雅遭迫害翁山蘇姬成眾矢之的即時 11/25 21:21 0 NA : # 3: 馬英九：我還沒上任就被批評會帶來大災難即時 11/25 21:02 11 NA : # 4: 控緬甸種族淨化洛興雅人亞洲爆示威即時 11/25 20:54 8 NA : 上面那段也可以換成下面這個做法，不過是data.table only (但是資料量大會快一點) : if (is.windows()) { : outTblTrans <- outTbl[ , lapply(.SD, stri_conv, to = "big5")] %>>% : setnames(stri_conv(names(outTbl), to = "big5")) : Encoding(names(outTblTrans)) <- "big5" : Sys.setlocale(locale = original_locale) : } 以下是根據celestialgod大的教學完成的爬蟲，萬分感謝celestialgod大的協助!!! # require pkgs and install it if it is not installed if (!"installr" %in% installed.packages()) install.packages("installr") library(installr) require2(rvest) # to get web content require2(stringr) # to collapse a list of characters into a single string require2(pipeR) # 載入爬取新聞本文func getUdnNewsCont <- function(url) { udn = read_html(url,encoding="UTF-8") artic = udn %>% html_nodes('p') %>% html_text() %>% iconv(from = 'UTF-8', to = 'UTF-8') %>% str_c(collapse='.') return(artic) } # 撈取財經新聞 pb_news <- txtProgressBar(1, 60, style=3) # 進度條 ## get news list if (is.windows()) { original_locale <- Sys.getlocale("LC_COLLATE") Sys.setlocale("LC_ALL", 'C') } surl <- "http://money.udn.com/money/breaknews" outTbl <- read_html(surl, encoding="UTF-8") %>>% html_node("#ranking_table") %>>% html_table ranking_table = read_html(surl, encoding="UTF-8") %>>% html_node("#ranking_table") if (is.windows()) { outTblTrans <- lapply(outTbl, function(v){ if (class(v) == "character") { return(stri_conv(v, to = "big5")) # 字串都轉成big5 } else { return(v) } }) %>>% `names<-`(NULL) %>>% as.data.table %>>% # names一定要先清空不然會錯 setnames(stri_conv(names(outTbl), to = "big5")) Sys.setlocale(locale = original_locale) } ## get news content domain = "http://money.udn.com/" url = ranking_table %>% html_nodes('a') %>% html_attr('href') %>% paste0(domain, .) content <- character(60) for (i in c(1:length(url))) { content[i] <- getUdnNewsCont(url[i]) setTxtProgressBar(pb_news, i) } news <- data.frame(outTbl, url=url, content=content) news <- data.frame(lapply(news, as.character), stringsAsFactors=FALSE) ## clean table View(news) -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 175.98.68.200 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1480086515.A.57C.html