PTT數位生活區 / R_Language

Re: [問題] 用data.frame中的某個column擷取網頁資料

看板R_Language作者andrew43 (apan)時間11年前 (2014/02/04 05:32)推噓8(8推 0噓 17→)

留言25則, 6人參與討論串2/2 (看更多)

假設你有一個 data frame 叫 x，其中有一個欄叫 id。因此， myURL <- paste("http://www.ncbi.nlm.nih.gov/gene/", x$id, sep="") 就是所有要去拿取的完整網址。以下一個為你設計的 function 先餵 R 吃下去。它可以一次拿取一個網頁裡你要的資料。 myfunc <- function(myURL){ con <- url(myURL) txt <- scan(con, what="character") close(con) txt1 <- paste(txt, sep="", collapse=" ") pattern <- "<dt>Summary</dt> <dd>[[:print:]]+</dd>" re <- regexpr(pattern, txt1) start <- re[1] end <- start[1] + attr(regexpr(pattern, txt1),"match.length") - 1 return(substr(txt1, start + 22, end - 5)) } 再試試看 myfunc("http://www.ncbi.nlm.nih.gov/gene/2597") 的結果是不是你要的。有需要的話自己修一下。可以的話，就用迴圈把 myURL 一個一個丟給 myfunc() results <- list() for(i in 1:length(myURL)){ results[[i]] <- myfunc(myURL[i]) } 這樣應該就好了。 : 各位好 : 我需要下載數百個基因的資料 : 網址的格式是: : http://www.ncbi.nlm.nih.gov/gene/XXXX : 其中XXXX是這些基因的ID(可能是四個數字或更多) : 比如GAPDH ID是2597 : 那連結就是：http://www.ncbi.nlm.nih.gov/gene/2597 : 如果我的data frame中有一個column是這些IDs : 我應該如何寫出簡單的R scripts來擷取這些網頁中的"Summary"中的敘述 : 並加到原本data.frame中相對應rows 形成一個新的column (不包括"Summary"這字本身) : 例如對GAPDH而言就是 : "This gene encodes ... variants. [provided by RefSeq, Jan 2014]" : 我想應該是用Rcurl跟grep : 但因為完全外行 : 不知道如何逐個ID數值加到Rcurl網址的最後 : 再將下載的網頁以grep搜尋到的strings加到對應的rows裡 : 這樣的問題很不專業 : 如果有任何的提示都歡迎 : 謝謝各位專家 : [程式範例]: : [關鍵字]: R 網頁下載部分擷取 -- http://apansharing.blogspot.com/ -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 122.117.37.172

推

02/04 12:28, , 1^F

02/04 12:28, 1^F

→

02/04 12:28, , 2^F

02/04 12:28, 2^F

推

02/04 12:44, , 3^F

02/04 12:44, 3^F

推

02/04 12:47, , 4^F

02/04 12:47, 4^F

→

02/04 12:47, , 5^F

02/04 12:47, 5^F

推

02/04 14:21, , 6^F

02/04 14:21, 6^F

推

02/04 15:02, , 7^F

02/04 15:02, 7^F

→

02/04 20:40, , 8^F

02/04 20:40, 8^F

→

02/04 20:41, , 9^F

02/04 20:41, 9^F

→

02/04 20:41, , 10^F

02/04 20:41, 10^F

→

02/04 20:42, , 11^F

02/04 20:42, 11^F

→

02/04 20:43, , 12^F

02/04 20:43, 12^F

※ 編輯: andrew43 來自: 122.117.37.172 (02/04 20:43)

推

02/05 13:20, , 13^F

02/05 13:20, 13^F

→

02/05 13:22, , 14^F

02/05 13:22, 14^F

→

02/05 13:23, , 15^F

02/05 13:23, 15^F

→

02/05 13:25, , 16^F

02/05 13:25, 16^F

推

02/05 13:44, , 17^F

02/05 13:44, 17^F

→

02/05 13:46, , 18^F

02/05 13:46, 18^F

→

02/05 13:53, , 19^F

02/05 13:53, 19^F

→

02/05 13:53, , 20^F

02/05 13:53, 20^F

→

02/05 13:55, , 21^F

02/05 13:55, 21^F

→

02/05 13:55, , 22^F

02/05 13:55, 22^F

推

02/05 14:25, , 23^F

02/05 14:25, 23^F

→

02/05 14:26, , 24^F

02/05 14:26, 24^F

→

02/06 16:34, , 25^F

02/06 16:34, 25^F

‣ 返回看板[ R_Language ] 程式

‣ 更多 andrew43 的文章

文章代碼(AID): #1Iy0hy1L (R_Language)

討論串 (同標題文章)

本文引述了以下文章的的內容：

0

1

[問題] 用data.frame中的某個column擷取網頁資料

11年前, 02/03

完整討論串 (本文為第 2 之 2 篇)：

排序：最新先 | 最舊先 | 留言數

8

25

Re: [問題] 用data.frame中的某個column擷取網頁資料

11年前, 02/04

0

1

[問題] 用data.frame中的某個column擷取網頁資料

11年前, 02/03

在新視窗開啟完整討論串 (共2篇)

R_Language 近期熱門文章

2

2

Re: [問題] geombar分類對齊函數

6月前, 04/24

2

2

[問題] geombar分類對齊函數

6月前, 04/21

1

2

徵求R studio家教

9月前, 01/17

1

7

[問題] 請問如何多次複製1筆資料? (求救)

11月前, 11/10

4

6

[問題] 如何將資料重組 (觀察值轉成變數)？

1年前, 10/28

2

8

[問題] 可否以RODBC去連Oracle??

1年前, 08/21

1

3

[問題] augPred function 出現錯誤訊息?

1年前, 07/27

2

8

[問題] IRT相關問題

1年前, 05/01

更多近期熱門文章 >>

PTT數位生活區即時熱門文章

1

6

[閒聊] 華碩 A23初音聯名機殼默默上架了

[ PC_Shopping ]

1小時前, 10/25

0

14

[賣/台北/皆可] 9.9新華碩5060oc

[ HardwareSale ]

4小時前, 10/25

2

16

[討論] 15 pro max to 17 pro一個月心得

4小時前, 10/25

3

5

[賣//] 9.95新華碩5060oc顯示卡

[ HardwareSale ]

4小時前, 10/25

12

13

[心得] HA200 x SC5 x HE1000se

9小時前, 10/25

9

26

[請益] 找白色、無任何透明側機殼

[ PC_Shopping ]

10小時前, 10/25

9

82

[討論] 爆 Ping 似乎有可能是測試網站問題？

11小時前, 10/25

1

6

[問題] iphone17pro照相鏡頭

12小時前, 10/25

更多即時熱門文章 >>

‣ 返回看板[ R_Language ] 程式

‣ 更多 andrew43 的文章

文章代碼(AID): #1Iy0hy1L (R_Language)