[轉錄]regex討論:以<script></script>的拆解r …
看板RegExp (正規表示式 Regular Expression)作者PsMonkey (痞子軍團團長)時間17年前 (2008/03/06 19:54)推噓0(0推 0噓 0→)留言0則, 0人參與討論串1/1
※ [本文轉錄自 java 看板]
作者: TonyQ (骨頭) 看板: java
標題: regex討論:以<script></script>的拆解regex為例
時間: Thu Mar 6 13:11:29 2008
給痞子:
我知道有regex版,不過對我而言regex在程式語言有必要作為介紹,
一昧的把關係給分離,只是造成認知上的隔閡而已。
當然更進階的運用或介紹還是得往regex發展,
不過這種程度的基本介紹,程式語言版還是有必要留著的。
but 如果你覺得不符版旨可以自行處理掉 XD
這就像Web_design要不要把 jsp/asp/asp.net/js的問題切割回專版一樣,
各有優劣啦。:p
本來這篇是回slalala的文,不過既然寫了就貼出來,
看有沒有人迴響一下。XD
本篇適用對象:
了解regex是作什麼用,有一定regex基礎概念的人。
────────────────────────────────
以底下的字串為例
"<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>"
────────────────────────────────
先把握切割的重點
按照解析層級的順序依序
()是區塊 (這個例子沒有)
[] 是字
*?+{} 是次數
\是脫逸 (記得Java要寫成 \\ 脫逸兩次)
[^] 字開頭帶^為反集合
所以可以先這樣切
<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>
轉換為<字1{次數1}script字2{次數2}>字3{次數3}<字4{次數4}脫逸/字5{次數5}
script字六{次數6}>
這樣你應該看得出來哪些是可變動的,哪些是完全比對的(淺藍色字體)。
其中有六個word跟六個次數,基本上都是查表法可以查出來的。
查這個表
http://java.sun.com/j2se/1.5.0/docs/api/java/util/regex/Pattern.html
字1 : [\\s] 根據api
\s A whitespace character: [ \t\n\x0B\f\r]
一個表示為空白的字元 等義於 [ \t\n\x0B\f\r]
字2 : [^>]
^有反集合的意思所以是 非">"以外的字元
字3 : [\\s\\S]
同字1 另外再加上非白的字元,其實也就是所有的字元。
(其實我認為這可以用 . 取代了)
字4、字5、字6 同字1
至於次數 直接丟去查表吧
反正不外乎三種
(零次或1次) ?
(零次或無限多次 ) *
(一次以上) +
還有一種就是指定次數的 { }
這用法可以指定要出現的次數,也可以用來達到上面三個特殊字元的用途。
--
I am a person, and I am always thinking .
Thinking in love , Thinking in life ,
Thinking in why , Thinking in worth.
I can't believe any of what ,
I am just thinking then thinking ,
but worst of all , most of mine is thinking not actioning...
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 59.115.77.239
推
03/06 13:52,
03/06 13:52
推
03/06 14:54,
03/06 14:54
→
03/06 15:01,
03/06 15:01
推
03/06 15:20,
03/06 15:20
推
03/06 15:31,
03/06 15:31
推
03/06 16:52,
03/06 16:52
→
03/06 17:03,
03/06 17:03
--
侃侃長論鮮窒礙 首頁:http://www.psmonkey.idv.tw
眾目睽睽無心顫 Blog:http://ps-think.blogspot.com
煢居少聊常人事
殺頭容易告白難 歡迎參觀 Java 版(@ptt.cc)精華區 \囧/
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 61.228.201.164
RegExp 近期熱門文章
PTT數位生活區 即時熱門文章