[問題] 爬蟲初試

看板R_Language作者 (asdfrtg)時間4年前 (2020/07/20 22:26), 4年前編輯推噓6(6014)
留言20則, 3人參與, 4年前最新討論串1/1
[問題類型]: 效能諮詢(我想讓R 跑更快 [軟體熟悉度]: 使用者(已經有用R 做過不少作品) [問題敘述]: 想試圖用XML裡的套件readHTMLTable()爬https://reurl.cc/arOM1D的表格 當作練習 卻沒反應 按照https://reurl.cc/Wd68Gx也沒辦法整理 所以小弟本人決定用硬a的方式.... 想請問有什麼方法可以直接爬蟲下來並且整理好成表格的@@ [程式範例]: setwd("D:\\") d1<-read.csv("行政院環境保護署標案.csv",header=F) a1<-data.frame(t(d1[1:6,])) a2<-data.frame(t(d1[7:12,])) a3<- data.frame(t(d1[13:18,])) a4<- data.frame(t(d1[19:24,])) a5<- data.frame(t(d1[25:30,])) a6<- data.frame(t(d1[31:36,])) a7<- data.frame(t(d1[37:42,])) a8<- data.frame(t(d1[43:48,])) a9<- data.frame(t(d1[49:54,])) a10<- data.frame(t(d1[55:60,])) a11<- data.frame(t(d1[61:66,])) a12<- data.frame(t(d1[67:72,])) . . . . . result<-rbind(a1,a2,a3,a4,a5,a6,a7,a8,a9,a10,a11,a12,........) [環境敘述]: R4.02 [關鍵字]: 爬蟲、rvest、XML、XML2 -- -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 49.216.124.179 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1595255214.A.9BD.html

07/20 23:22, 4年前 , 1F
你的程式碼跟rvest沒關係啊…沒反應的話至少也貼上你的程式
07/20 23:22, 1F

07/20 23:22, 4年前 , 2F
碼讓大家知道你卡在哪裡…
07/20 23:22, 2F

07/20 23:25, 4年前 , 3F
有的時候爬不下來可能因為表格內容是動態產生的,如果對於h
07/20 23:25, 3F

07/20 23:25, 4年前 , 4F
tml觀念不熟的話,或許可以使用rselenium套件試看看
07/20 23:25, 4F

07/21 00:09, 4年前 , 5F
感謝l大提點
07/21 00:09, 5F

07/21 00:11, 4年前 , 6F
不過是想讓這段程式碼可以變成爬蟲到表格一條龍能夠解決.
07/21 00:11, 6F

07/21 00:11, 4年前 , 7F
..所以才提出效能諮詢@@
07/21 00:11, 7F

07/21 00:29, 4年前 , 8F
我剛剛試了一下你貼的網址,的確沒有那麼好爬,我再研究一
07/21 00:29, 8F

07/21 00:29, 4年前 , 9F
下。是說你的d1長什麼樣子啊?看起來你現在是貼到csv然後再
07/21 00:29, 9F

07/21 00:29, 4年前 , 10F
讀取,既然要這樣為什麼不貼上的時候就整理好?
07/21 00:29, 10F
回l大就是會變成整個是一欄 但必須要做成六欄多列 做到有些崩潰就上來板上想請教有沒有更加快速的方法...

07/21 00:51, 4年前 , 11F
有點偷雞的方法:https://ideone.com/CO8og9
07/21 00:51, 11F

07/21 00:56, 4年前 , 12F
其實只是抓每個cell再排到matrix裡而已
07/21 00:56, 12F
感謝a大的幫忙...orz, 另外想請問兩位大大 若爬蟲的話 通常會使用哪個套件那個函數 ※ 編輯: asdfrtg (49.216.124.179 臺灣), 07/21/2020 01:22:50

07/21 13:20, 4年前 , 13F
其實爬蟲就是把網頁上你按右鍵查看原始碼的東西抓下來,所
07/21 13:20, 13F

07/21 13:20, 4年前 , 14F
以read_html()會需要,然後重點是要會解析標籤,我個人常用
07/21 13:20, 14F

07/21 13:20, 4年前 , 15F
xml_find_all()取出想要的內容,以上都是rvest/xml2套件
07/21 13:20, 15F
是用selectogadget嗎? ※ 編輯: asdfrtg (49.216.124.179 臺灣), 07/21/2020 13:55:32

07/21 14:19, 4年前 , 16F
看了一下,selecttogadget是幫助你解析網頁元素的xpath,這
07/21 14:19, 16F

07/21 14:19, 4年前 , 17F
部分相同功能的東西chrome擴充應用程式商店很多,挑習慣的
07/21 14:19, 17F

07/21 14:19, 4年前 , 18F
用就好。
07/21 14:19, 18F

07/21 14:25, 4年前 , 19F
更正:SelectorGadget
07/21 14:25, 19F

07/21 15:23, 4年前 , 20F
推locka,最常用就是rvest或xml2。
07/21 15:23, 20F
文章代碼(AID): #1V5Qckcz (R_Language)
文章代碼(AID): #1V5Qckcz (R_Language)