PTT數位生活區 / java

[問題] 爬蟲正規表達式的效能

看板java作者vi000246 (Vi)時間9年前 (2016/10/19 09:55)推噓0(0推 0噓 5→)

留言5則, 2人參與討論串1/1

我寫了一支爬蟲用來爬A網址要從A網址回傳的HTML裡濾出圖床網址程式要從圖床網址來取得大圖每個圖床取大圖的邏輯都不一樣我目前寫的邏輯如下 1.先取得A網址的HTML 2.過濾不要的區塊因為圖床網址出現的地方不固定我沒辨法先濾出http://...jpg

的連結再判斷圖床 3.為各網址寫REGEX過濾出網址再執行各自的取大圖邏輯 REGEX語法如下 (?<url>https?:// [\d\w_.]* (?:imgdream|imgblank|img.yt|dimtus|imgstudio|damimage|imgseed|55888|imageteam|imagedecode|hentai|tinypic|pics.dmm) (?:[\d\w-_./]*)[\d\w-_.]*.jpe?g) (?<url>https?://[\d\w-_.]*(?:imgchili)(?:[\d\w-_./]*)[\d\w-_.]*.jpe?g) (?<url>https?://1dl.biz(?:[\d\w-_./\?]*)[\d\w-_.]*) 我覺得這樣做效率滿低的一個頁面要重覆判斷好幾次想問有沒有辨法一次判斷是屬於哪個圖床再執行各自取大圖邏輯? 我怕寫在一起 REGEX會越寫越長很不好維護 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 210.61.240.91 ※ 文章網址: https://www.ptt.cc/bbs/java/M.1476842121.A.BF5.html

→

10/19 13:57, , 1^F

10/19 13:57, 1^F

→

10/19 14:05, , 2^F

10/19 14:05, 2^F

→

10/19 14:05, , 3^F

10/19 14:05, 3^F

→

10/19 17:38, , 4^F

10/19 17:38, 4^F

後來改用函數指標的方式寫了不過這是C# XD var FuncGetBigImage = DicFuncGetbigImage .FirstOrDefault(x => domain.Contains(x.Key)) .Value; //如果有找到dictonary對應的方法就呼叫它並加到BigImageList if (FuncGetBigImage != null) { string bigImageUrl = FuncGetBigImage(url); //必須是圖片才能加到list if (Regex.IsMatch(bigImageUrl, @"(?:\w+):\/\/(?<domain>[\w@][\w.:@]+)\/?[\w\.?=%&=\-@/$,]*.jpe?g")) BigImageList.Add(bigImageUrl); } /// <summary> /// 儲存各圖床需要叫用的方法輸入網址會回傳大圖網址 /// 用法: string newUrl=DicFuncGetbigImage["imgdream"]("your_url"); /// </summary> Dictionary<string, Func<string, string>> DicFuncGetbigImage = new Dictionary<string, Func<string, string>> { { "imgdream", Url_deleteThumb }, }; //移除_thumb private static string Url_deleteThumb(string url) { return url.Replace("_thumb", ""); } ※ 編輯: vi000246 (101.9.85.71), 10/19/2016 21:03:17

→

10/19 21:08, , 5^F

10/19 21:08, 5^F

※ 編輯: vi000246 (49.217.153.116), 10/21/2016 22:24:05

‣ 返回看板[ java ] 程設

‣ 更多 vi000246 的文章

文章代碼(AID): #1O1jA9lr (java)

java 近期熱門文章

4

17

[問題] 被AI當猴子耍

8月前, 11/24

3

10

[問題] 寫一個ssh client 連到ptt.cc

1年前, 02/07

3

6

Re: [問題] c寫socket程式是不是比java麻煩很多

1年前, 11/09

10

23

[問題] 教小孩子用IDE比較好還是editor

1年前, 10/17

14

19

[問題] 大家現在都在寫java哪一版

1年前, 10/08

1

2

Re: [問題] 在Spring,回傳物件給JQuery Ajax回調函數

1年前, 08/14

1

20

[語法] HttpServletResponse物件為何有getWriter

2年前, 12/22

2

3

[語法] 代理人設計模式

2年前, 12/11

更多近期熱門文章 >>

PTT數位生活區即時熱門文章

6

10

Re: [閒聊] 5800X3D今晚9點上架

[ PC_Shopping ]

1小時前, 07/23

4

27

Re: [問題] 三星悠遊卡

3小時前, 07/23

16

30

[閒聊] 又有有趣的東西 CMP 170HX 破解算力+HBM

[ PC_Shopping ]

5小時前, 07/23

14

47

[問題] 可以一鍵下命令的android手機

6小時前, 07/23

11

17

[估價] Ryzen5 7500F 整套白色主機

[ HardwareSale ]

7小時前, 07/23

33

85

[問題] 長輩雙人旅日吃到飽方案？

8小時前, 07/23

6

50

Re: [問題] 家庭劇院規劃

9小時前, 07/23

15

46

[新聞]2026年Q2全球手機銷售調查

10小時前, 07/23

更多即時熱門文章 >>

‣ 返回看板[ java ] 程設

‣ 更多 vi000246 的文章

文章代碼(AID): #1O1jA9lr (java)