[問題] 用data.frame中的某個column擷取網頁資料

看板R_Language作者 (stinky)時間10年前 (2014/02/03 21:25), 編輯推噓0(001)
留言1則, 1人參與, 最新討論串1/2 (看更多)
[問題類型]: 程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來) [軟體熟悉度]: 新手(沒寫過程式,R 是我的第一次) [問題敘述]: 各位好 我需要下載數百個基因的資料 網址的格式是: http://www.ncbi.nlm.nih.gov/gene/XXXX 其中XXXX是這些基因的ID(可能是四個數字或更多) 比如GAPDH ID是2597 那連結就是:http://www.ncbi.nlm.nih.gov/gene/2597 如果我的data frame中有一個column是這些IDs 我應該如何寫出簡單的R scripts來擷取這些網頁中的"Summary"中的敘述 並加到原本data.frame中相對應rows 形成一個新的column (不包括"Summary"這字本身) 例如對GAPDH而言就是 "This gene encodes ... variants. [provided by RefSeq, Jan 2014]" 我想應該是用Rcurl跟grep 但因為完全外行 不知道如何逐個ID數值加到Rcurl網址的最後 再將下載的網頁以grep搜尋到的strings加到對應的rows裡 這樣的問題很不專業 如果有任何的提示都歡迎 謝謝各位專家 [程式範例]: [關鍵字]: R 網頁下載 部分擷取 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.116.26.241 ※ 編輯: stinky 來自: 140.116.26.241 (02/03 21:54)

02/04 05:34, , 1F
二個關鍵:paste() 和 regexpr(). 請見我的回文.
02/04 05:34, 1F
文章代碼(AID): #1IxvZLlV (R_Language)
文章代碼(AID): #1IxvZLlV (R_Language)