PTT數位生活區 / Python

[問題] 如何抓取HTML字串

看板Python作者Andy58974 (奧蘭多布魯)時間14年前 (2011/10/02 16:57)推噓0(0推 0噓 23→)

留言23則, 3人參與討論串1/1

小弟第一次使用python抓取網頁資料我的HTML檔是這樣的: {{datas.0}}&nbsp{{datas.1}}&nbsp{{datas.2}}<br> C1I230(0) 你好(1) 0(2) (&nbsp是空白) 466940(0) 我好(1) 0(2) (<br>是換行) 網頁上顯示是: C1I230 你好 0 466940 我好 0 我在python裡面使用: urltmp = urllib.urlopen("http://localhost:8080/test") urluse = urltmp.readlines() for i in urluse: print i 我不知道方法是否正確(Google來的) 我得到的東西是: C1I230&nbsp你好&nbsp0<br> 466940&nbsp我好&nbsp0<br> (都會多一行空白) 我檢查了一下type是string 於是我使用i.split()就發生悲劇了...(split('&nbsp')也是一樣...) ['\xef\xbb\xbfC1I230', '\xe4\xb9\x9d\xe4\xbb\xbd\xe4\', '0<br>\n'] 請問這是編碼的問題嗎??? 中間那行空白也會被影響嗎??? 我要怎麼拿到兩個list---->['C1I230','你好','0'],['466940','我好','0'] 懇請各位大大傳授... -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 114.33.86.65

→

10/02 21:22, , 1^F

10/02 21:22, 1^F

→

10/02 21:23, , 2^F

10/02 21:23, 2^F

→

10/02 21:23, , 3^F

10/02 21:23, 3^F

→

10/02 21:24, , 4^F

10/02 21:24, 4^F

→

10/02 21:24, , 5^F

10/02 21:24, 5^F

→

10/02 21:46, , 6^F

10/02 21:46, 6^F

→

10/02 21:47, , 7^F

10/02 21:47, 7^F

→

10/02 21:56, , 8^F

10/02 21:56, 8^F

→

10/02 21:57, , 9^F

10/02 21:57, 9^F

→

10/02 22:43, , 10^F

10/02 22:43, 10^F

→

10/02 22:43, , 11^F

10/02 22:43, 11^F

→

10/02 22:44, , 12^F

10/02 22:44, 12^F

→

10/02 22:45, , 13^F

10/02 22:45, 13^F

→

10/02 22:45, , 14^F

10/02 22:45, 14^F

→

10/02 22:46, , 15^F

10/02 22:46, 15^F

→

10/02 23:19, , 16^F

10/02 23:19, 16^F

→

10/02 23:43, , 17^F

10/02 23:43, 17^F

→

10/03 11:50, , 18^F

10/03 11:50, 18^F

→

10/03 11:50, , 19^F

10/03 11:50, 19^F

→

10/03 11:50, , 20^F

10/03 11:50, 20^F

→

10/03 11:51, , 21^F

10/03 11:51, 21^F

→

10/03 12:00, , 22^F

10/03 12:00, 22^F

→

10/04 16:25, , 23^F

10/04 16:25, 23^F

‣ 返回看板[ Python ] 程設

‣ 更多 Andy58974 的文章

文章代碼(AID): #1EY2Tjyi (Python)

Python 近期熱門文章

2

11

[問題] openpyxl到底能不能調整全局Font？

1月前, 05/07

7

21

[問題] super() 與MRO 鏈斷裂問題

3月前, 02/24

3

13

[問題] vscode的debug模式不用考慮中文路徑

4月前, 02/01

1

15

[問題] skimage.io.imread()讀圖檔底色是黃色？

5月前, 12/28

2

4

[閒聊] 有人要合購股票pythony資料庫finlab嗎?

5月前, 12/23

1

1

[問題] python 3.14 free thread build

7月前, 10/29

1

13

[問題] 關於正規表示法的r'\1'?

7月前, 10/22

6

9

[問題] 請問有人用過OMIA PLUS影音平台自學嗎?

8月前, 10/09

更多近期熱門文章 >>

PTT數位生活區即時熱門文章

6

14

Re: [情報] Xiaomi 17T 系列首銷購機優惠整理

6小時前, 06/14

9

33

[請益] 請教關於舊電腦顯卡升級

[ PC_Shopping ]

8小時前, 06/13

4

25

[問題] 有人Air4也升級了27 Beta嗎

9小時前, 06/13

1

22

[菜單] 40K模擬器、輕度遊戲機

[ PC_Shopping ]

9小時前, 06/13

-5

48

Re: [新聞] 不演了！極客灣踢爆中國手機全造假中共

9小時前, 06/13

-3

16

[估價] DDR5 6000 CL30 金士頓雙參數16G*2

[ HardwareSale ]

10小時前, 06/13

4

12

[問題] 為什麼屏幕總成買不到120Hz高刷

11小時前, 06/13

10

34

[開箱] 1500元1080P 144Hz螢幕 KVL KV259F

[ PC_Shopping ]

11小時前, 06/13

更多即時熱門文章 >>

‣ 返回看板[ Python ] 程設

‣ 更多 Andy58974 的文章

文章代碼(AID): #1EY2Tjyi (Python)