PTT數位生活區 / R_Language

[問題] Rvest 網路爬蟲問題

看板R_Language作者iambakr (123)時間6年前 (2019/12/18 01:42)推噓6(6推 0噓 23→)

留言29則, 3人參與討論串1/2 (看更多)

程式諮詢(我想用R 做某件事情，但是我不知道要怎麼用R 寫出來) [軟體熟悉度]: 新手(沒寫過程式，R 是我的第一次) [問題敘述]: 爬網頁上的產品名稱, 價格, 連結，以及每個產品連結網頁裡面的六個規格種類然後合併成一個 13x9 的 data frame 但目前我有碰到以下幾個問題，想請前輩幫忙 Q1: 產品價格可以成功爬到，可是價格中間的空格都無法去掉，只留下數字部分。看了一下網頁原始碼價格有包含 &nbsp這段，想請問要如何單獨提出裡面的數字? Q2: 我用for 迴圈可以爬到13個各別網頁裡面的六個規格，想請問要如何爬出規格然後變成 13x6 的資料然後跟其他爬到的資料合併成一個 data frame? Q3: 承上，我有嘗試抓 html_table的方式，但跑出來就只有list()。請問我的寫法是哪邊出了問題? 謝謝各位 [程式範例]: https://ideone.com/QsX80K [環境敘述]: R version 3.6.2 (2019-12-12) Platform: x86_64-w64-mingw32/x64 (64-bit) Running under: Windows 7 x64 (build 7601) Service Pack 1 [關鍵字]: Rvest, for loop, html_table -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.43.212.12 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1576604534.A.85C.html

推

12/18 03:25, 6年前 , 1^F

12/18 03:25, 1^F

→

12/18 03:26, 6年前 , 2^F

12/18 03:26, 2^F

→

12/18 22:37, 6年前 , 3^F

12/18 22:37, 3^F

→

12/18 22:37, 6年前 , 4^F

12/18 22:37, 4^F

→

12/18 22:38, 6年前 , 5^F

12/18 22:38, 5^F

→

12/18 22:38, 6年前 , 6^F

12/18 22:38, 6^F

→

12/18 22:39, 6年前 , 7^F

12/18 22:39, 7^F

→

12/18 23:11, 6年前 , 8^F

12/18 23:11, 8^F

→

12/18 23:12, 6年前 , 9^F

12/18 23:12, 9^F

→

12/18 23:43, 6年前 , 10^F

12/18 23:43, 10^F

→

12/18 23:51, 6年前 , 11^F

12/18 23:51, 11^F

→

12/18 23:55, 6年前 , 12^F

12/18 23:55, 12^F

→

12/18 23:55, 6年前 , 13^F

12/18 23:55, 13^F

→

12/18 23:56, 6年前 , 14^F

12/18 23:56, 14^F

→

12/18 23:56, 6年前 , 15^F

12/18 23:56, 15^F

→

12/18 23:57, 6年前 , 16^F

12/18 23:57, 16^F

→

12/19 00:05, 6年前 , 17^F

12/19 00:05, 17^F

感謝 Andrew大! 剛剛照著你的code跑了一次，的確就是我想要的結果! 非常感謝! 但是用 \u00A0是 HTML特殊語法的關係嗎? 我看空白處它的寫法是用<U+00A0> 另外 for 迴圈跑出來的幾個變數的值空白處(例如重量, RAM)也是有 <U+00A0> 這樣子也是要等迴圈跑完填入 data frame後，再用gsub取代嗎? 最後一個好奇問題是，你貼上去的分享code連結，為何呈現的網址跟我貼的不一樣? 跑第二次就出現以下問題了 Error in open.connection(x, "rb") : Could not resolve host: w...content-available-to-author-only...t.nu ※ 編輯: iambakr (114.43.208.85 臺灣), 12/19/2019 01:41:18

推

12/19 08:14, 6年前 , 18^F

12/19 08:14, 18^F

→

12/19 08:14, 6年前 , 19^F

12/19 08:14, 19^F

推

12/19 08:16, 6年前 , 20^F

12/19 08:16, 20^F

推

12/19 08:18, 6年前 , 21^F

12/19 08:18, 21^F

→

12/20 00:06, 6年前 , 22^F

12/20 00:06, 22^F

→

12/20 00:06, 6年前 , 23^F

12/20 00:06, 23^F

→

12/20 00:08, 6年前 , 24^F

12/20 00:08, 24^F

→

12/20 00:10, 6年前 , 25^F

12/20 00:10, 25^F

→

12/20 00:10, 6年前 , 26^F

12/20 00:10, 26^F

推

12/20 10:02, 6年前 , 27^F

12/20 10:02, 27^F

推

12/20 10:04, 6年前 , 28^F

12/20 10:04, 28^F

→

12/24 00:45, 6年前 , 29^F

12/24 00:45, 29^F

‣ 返回看板[ R_Language ] 程式

‣ 更多 iambakr 的文章

文章代碼(AID): #1T-HDsXS (R_Language)

討論串 (同標題文章)

完整討論串 (本文為第 1 之 2 篇)：

排序：最新先 | 最舊先 | 留言數

0

4

Re: [問題] Rvest 網路爬蟲問題

6年前, 12/31

6

29

[問題] Rvest 網路爬蟲問題

6年前, 12/18

在新視窗開啟完整討論串 (共2篇)

R_Language 近期熱門文章

2

2

Re: [問題] geombar分類對齊函數

1年前, 04/24

2

2

[問題] geombar分類對齊函數

1年前, 04/21

1

2

徵求R studio家教

1年前, 01/17

1

7

[問題] 請問如何多次複製1筆資料? (求救)

1年前, 11/10

4

6

[問題] 如何將資料重組 (觀察值轉成變數)？

1年前, 10/28

2

8

[問題] 可否以RODBC去連Oracle??

1年前, 08/21

1

3

[問題] augPred function 出現錯誤訊息?

2年前, 07/27

2

8

[問題] IRT相關問題

2年前, 05/01

更多近期熱門文章 >>

PTT數位生活區即時熱門文章

3

6

[情報] iOS 26.6

4小時前, 07/28

9

34

[新聞] 北捷已支援三星/Google錢包交通快速模式

7小時前, 07/27

4

35

Re: [心得] iPhone沒有想像地那麼順暢

8小時前, 07/27

3

5

[賣/台北/皆可] AMD R7 7700 MPK

[ HardwareSale ]

8小時前, 07/27

5

71

[菜單] 80~85K 遊戲機

[ PC_Shopping ]

9小時前, 07/27

4

6

Re: [心得] SanDisk售後服務站產品更換分享

[ PC_Shopping ]

10小時前, 07/27

-4

7

[請益] 螢幕出現白邊

[ PC_Shopping ]

10小時前, 07/27

11

14

[ HardwareSale ]

11小時前, 07/27

更多即時熱門文章 >>

‣ 返回看板[ R_Language ] 程式

‣ 更多 iambakr 的文章

文章代碼(AID): #1T-HDsXS (R_Language)