[問題] 挑出千分位錯誤的數字

看板RegExp (正規表示式 Regular Expression)作者 (樹枝擺擺)時間4年前 (2020/03/13 19:32), 編輯推噓5(509)
留言14則, 5人參與, 4年前最新討論串1/1
使用語言:Python 3 使用環境:Windows 10 我想製作一個小工具,檢查公司所需的文章,其格式是否存在一致性 其中一個格式是,阿拉伯數字必須要加千分位, 例如:123,000元(正確)、123000元(錯誤) 我知道在這條件下,正確的數字格式應該是:r'\d{1,3}(,\d{3})*(\.\d)?' 可是我現在想要做的是反過來, 就是檢查時,遇到不符合的數字就要標記起來,再以人眼確認 以免誤修到原本就不是用來表示數值的阿拉伯數字,如西元年份 我想到的條件很簡單, 就是只要連續四個以上的阿拉伯數字但中間沒逗號就是有嫌疑,所以寫r'\d{4,}' 我想請教的是,有沒有辦法用一條表達式, 在不根據數字後面的文字是年份或貨幣判斷下, 把至少1900~2099年間的西元年份給排除掉 因為每篇文章要檢查的條件可能高達千種以上,每種都要用一條表達式檢查 數字的千分位格式只是其中一個規定, 所以我希望,不到最後一刻別用if條件判斷式去排除西元年份,以免可讀性變差 才想說看能否整合成一個表達式 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.230.110.216 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/RegExp/M.1584099163.A.D9E.html

03/13 20:12, 4年前 , 1F
先撈出來 再轉成 int 判斷可能比較快
03/13 20:12, 1F

03/17 09:01, 4年前 , 2F
(?!(19[0-9][0-9]|20[0-9][0-9]))\d{4,}
03/17 09:01, 2F

03/17 09:02, 4年前 , 3F
測試資料有 1989、2010、1,358、4052
03/17 09:02, 3F

03/17 09:02, 4年前 , 4F
用這條規則可以篩選出最後的 4052
03/17 09:02, 4F

03/17 09:09, 4年前 , 5F
(?!\d{1,3}(,\d{3})(,\d{3})?(\.\d)?)
03/17 09:09, 5F

03/17 09:09, 4年前 , 6F
(?!((?=19|20)[0-9][0-9]))\d{4,} 加上前面那段就能得到4052
03/17 09:09, 6F

03/17 09:10, 4年前 , 7F
前一條規則是用來排除有千分位的數字,後一條排除西元年份
03/17 09:10, 7F

03/17 09:14, 4年前 , 8F
3(?!((?:19|20)[0-9][0-9]))\d{4,} 改成這樣比較對
03/17 09:14, 8F

03/17 09:14, 4年前 , 9F
(?!((?:19|20)[0-9][0-9]))\d{4,} 改成這樣比較對
03/17 09:14, 9F

03/17 11:35, 4年前 , 10F
(?!(?:(?:19[0-9]|20[0-2])[0-9])) 這樣排除西元感覺更好
03/17 11:35, 10F

03/19 19:39, 4年前 , 11F
謝謝我晚點來試看看,原來還有(?!)(?:)層層套疊的用法
03/19 19:39, 11F

03/26 11:20, 4年前 , 12F
negative look ahead 能做到嗎?你的「連續4數字沒逗
03/26 11:20, 12F

03/26 11:20, 4年前 , 13F
號」會miss掉逗號錯位的case 吧...
03/26 11:20, 13F

04/18 06:10, 4年前 , 14F
\d{5,}|(?:0[0-9]|1[0-8]|2[1-9])\d{2}
04/18 06:10, 14F
文章代碼(AID): #1UQszRsU (RegExp)
文章代碼(AID): #1UQszRsU (RegExp)