Re: [問題] Rvest 網路爬蟲問題

看板R_Language作者 (123)時間4年前 (2019/12/31 01:26), 編輯推噓0(004)
留言4則, 1人參與, 4年前最新討論串2/2 (看更多)
程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來) [軟體熟悉度]: 新手(沒寫過程式,R 是我的第一次) [問題敘述]: 之前第一次po文是詢問爬單頁 n個商品的名稱, 價格與點擊進去的規格 這次能夠爬多個頁面(例如Page 1~7),把全部的內容都匯進 data frame 但是我覺得我的寫法有點土法煉鋼 所以想請前輩不吝指教,針對我的code給建議 但目前我有碰到以下幾個問題,想請前輩幫忙 Q1: 這個程式碼用了兩次 for loop,效能多少會受到影響。 想請問有另外比較簡潔且效能佳的寫法嗎? ex: lapply? Q2: 我想把 data frame產出 Excel rawdata,把每週爬的新內容接在上周舊內容的 下一行開始,請問要怎麼設定? 謝謝各位 [程式範例]: https://ideone.com/zRJUTp Note:first_page = https://bit.ly/2tfCDuC [環境敘述]: R version 3.6.2 (2019-12-31) Platform: x86_64-w64-mingw32/x64 (64-bit) Running under: Windows 7 x64 (build 7601) Service Pack 1 [關鍵字]: Rvest, for loop -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.141.65.186 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1577726766.A.4CE.html

12/31 11:21, 4年前 , 1F
這二個for loop做不同工作,不知道怎麼影響了效率?
12/31 11:21, 1F

12/31 23:06, 4年前 , 2F
至於持續更新data,更簡單的方法是以純文字方式寫入
12/31 23:06, 2F

12/31 23:08, 4年前 , 3F
相同檔案。或是每次都先讀出舊檔再用rbind()加上新資料
12/31 23:08, 3F

12/31 23:10, 4年前 , 4F
你若使用write.table(),可以先試試它append這個參數。
12/31 23:10, 4F
文章代碼(AID): #1U2ZCkJE (R_Language)
文章代碼(AID): #1U2ZCkJE (R_Language)