[問題] 如何抓取網頁原始碼中單引號內的內容
看板RegExp (正規表示式 Regular Expression)作者liataian (T-PANY FOREVER)時間10年前 (2014/12/15 13:56)推噓0(0推 0噓 1→)留言1則, 1人參與討論串1/1
各位好,想請教一下
我想用python3的正則式抓取某個網頁原始碼中的某個單引號中的內容
該內容長度非常長,可能長度大於100000
比起網頁原始碼中其他單引號中的內容還要長很多
我想說先抓取原始碼中的所有單引號中的內容
接著再用長度來判斷長度大於100000的內容才符合條件
想問這樣的正則式應該怎麼下呢?
我目前是寫如下這樣
import urllib.parse,urllib.request
html = urllib.request.urlopen("該網址") #html形態為物件
s_html = html.read().decode('utf-8') #s_html形態為字串
將html物件轉成s_html字串後才可以用正則式去parse
不過這邊我就不知道怎麼寫正則式去抓出s_html裡面的所有單引號中的內容了@@
還請各位指點一下,謝謝!!
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.118.155.39
※ 文章網址: http://www.ptt.cc/bbs/RegExp/M.1418623015.A.3FB.html
※ 編輯: liataian (140.118.155.39), 12/15/2014 14:01:43
→
12/15 14:44, , 1F
12/15 14:44, 1F
RegExp 近期熱門文章
PTT數位生活區 即時熱門文章