[問題] 用data.frame中的某個column擷取網頁資料
[問題類型]:
程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來)
[軟體熟悉度]:
新手(沒寫過程式,R 是我的第一次)
[問題敘述]:
各位好
我需要下載數百個基因的資料
網址的格式是:
http://www.ncbi.nlm.nih.gov/gene/XXXX
其中XXXX是這些基因的ID(可能是四個數字或更多)
比如GAPDH ID是2597
那連結就是:http://www.ncbi.nlm.nih.gov/gene/2597
如果我的data frame中有一個column是這些IDs
我應該如何寫出簡單的R scripts來擷取這些網頁中的"Summary"中的敘述
並加到原本data.frame中相對應rows 形成一個新的column (不包括"Summary"這字本身)
例如對GAPDH而言就是
"This gene encodes ... variants. [provided by RefSeq, Jan 2014]"
我想應該是用Rcurl跟grep
但因為完全外行
不知道如何逐個ID數值加到Rcurl網址的最後
再將下載的網頁以grep搜尋到的strings加到對應的rows裡
這樣的問題很不專業
如果有任何的提示都歡迎
謝謝各位專家
[程式範例]:
[關鍵字]: R 網頁下載 部分擷取
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.116.26.241
※ 編輯: stinky 來自: 140.116.26.241 (02/03 21:54)
→
02/04 05:34, , 1F
02/04 05:34, 1F
討論串 (同標題文章)
以下文章回應了本文:
完整討論串 (本文為第 1 之 2 篇):
R_Language 近期熱門文章
PTT數位生活區 即時熱門文章