Re: [問題] 檢核碼規則 機器學習

看板Python作者 (順風相送)時間2年前 (2022/01/29 18:10), 編輯推噓4(401)
留言5則, 5人參與, 2年前最新討論串2/2 (看更多)
※ 引述《ozone (Life)》之銘言: : 請問檢核碼規則分析 利用machine learning來解是好的方法嗎? : 我有一批資料,由9個數字組成,第10個數字是檢核碼,不知其規則 : 利用keras建模後卻train不起來 : 於是嘗試建立測試資料,檢核碼的規則是前9碼mod 10 : 將9碼input轉成one-hot encoding成 9 x 10 array : 建dense network但仍然train不起來 : code在此: : https://stackoverflow.com/questions/70843702/learn-checksum-rule-with-keras : 不曉得是哪裡弄錯了? 放假就是要玩解謎小遊戲 這是原 PO 貼在 Stack Overflow 的原始資料 https://drive.google.com/file/d/1Q4tk64NOGuyItLULjhth1kgaPU0zpRkI/view 資料是 003000008J 這種格式,九個數字跟著一個英文字母, 看起來英文字母就是檢核碼了,只是還不知道和數字如何對應。 但其實哪一位才是檢核碼、字母如何對應根本不重要, 我們想知道的只有「序號如何判斷是否有效」。總之現在先隨便假設。 ☆ ☆ ☆ 先把每個位數定個名字,X0, X1, X2, X3, X4, X5, X6, X7, X8, 最後的字母叫 S 那我們先從 X8 開始,尋找序號中有沒有除了 S 之外其他數字全部相同只有 X8 不同 的組合,拿來比較 S 相對於 X8 的變化 003003188 ==> A 003004622 ==> B 003007744 ==> C 003003189 ==> B 003004623 ==> C 003007745 ==> D 003021375 ==> D 003004798 ==> E 003042690 ==> F 003021376 ==> E 003004799 ==> F 003042691 ==> G 003018456 ==> G 003040268 ==> H 003040023 ==> I 003018457 ==> H 003040269 ==> I 003040024 ==> J 003049387 ==> J 003049388 ==> A 蠻幸運的,光是數字差 1 的就找到很多,那觀察之後發現只要 X8 的數字 +1, S 的字母就會按照一個固定的規則推移,共有上面列出的十種,還能串成一個環 A > B > C > D > E > F > G > H > I > J > A > B > C > D > ..... 還剛好是十個字母照順序排,那是不是可以假設字母對應 0-9 十個數字呢? 當然我們只是串成環,並不知道從哪開始是 0,但這其實不重要, 反正先隨便假設 A=0, B=1, ..... I=8, J=9 ☆ ☆ ☆ 以此類推,我們可以繼續發掘其他位數的規則 X7 也有類似的環圈規則,但卻有兩組環 A > C > E > G > I > A B > D > F > H > J > B 代換成 X8 假設的英文-數字對應關係: 0 > 2 > 4 > 6 > 8 > 0 1 > 3 > 5 > 7 > 9 > 1 發現了嗎?偶數一組,奇數一組,每次 +2,這是否代表 X7 在檢核規則中被乘以 2? ☆ ☆ ☆ X6: A > D > G > J > C > F > I > B > E > H > A (單環) X5: A > E > I > C > G > A B > F > J > D > H > B 雙環,且每次+4 X4: 這次出現了五環 A <-> F , B <-> G , C <-> H , D <-> I , E <-> J 0 <-> 5 , 1 <-> 6 , 2 <-> 7 , 3 <-> 8 , 4 <-> 9 你想到什麼?這明顯是乘以 5 X3: 又是雙環 A > G > C > I > E > A B > H > D > J > F > B X0, X1, X2 資料不足,前三碼只有 003, 800, 999 三種,但這個可以先不管 到時候隨便亂湊一種自圓其說的規則就好,真的不行就分成三種規則照前三碼分辨 好的現在我們把 X8 的乘數就當作是 1,把假設的數字 0-9 代入英文字母 A-J 就能得出下面的檢核規則: (其中 X0, X1, X2 的係數是隨便猜隨便湊的) (X0*9 + X1*8 + X2*7 + X3*6 + X4*5 + X5*4 + X6*3 + X7*2 + X8) mod 10 = S 而 A=0, B=1, C=2, D=3, E=4, F=5, G=6, H=7, I=8, J=9 再把這個規則套用回已知的序號,發現全部吻合,可以宣布成功了 (撒花) 8361 passed. 0 failed. ☆ ☆ ☆ 那也許會有人說,今天是英文字母照順序排,才被我發現 X8 是乘 1,順利破解, 如果把英文字母打亂呢?如果第一個挑選的是 X6 (百位數) 呢?它也是單環啊? 其實這樣還是可以把規則解出來,只是規則的外觀會變成另一套,但一樣適用。 假設我們把 X6 的單環英文字母當成正確順序,那就會變成這樣: A=0, D=1, G=2, J=3, C=4, F=5, I=6, B=7, E=8, H=9 (我們並不知道哪一個才是0,但到最後發現不合可以再改,或是給公式加個常數項) 套用到其他位數的規則後,會得出新的公式 (X0*3 + X1*6 + X2*9 + X3*2 + X4*5 + X5*8 + X6*1 + X7*4 + X8*7) mod 10 = S 再套用回所有已知序號驗證 8361 passed. 0 failed. 這個規則也是可以用的,神奇吧?所以規則並不是只有一條。 把英文字母打亂也是沒有用的,環圈會告訴我們順序,即使順序不只一種排法。 我們還可以發現一個有趣的事實,X4 有五環,它的係數是 5 不會變 X3, X5, X7 有雙環,它們的係數一定是偶數 (2的倍數) 知道這個特性也可以幫助判斷乘數 但只有偶數和 5 有辦法用環數判斷,因為 2 和 5 是 10 的質因數 3, 7, 9 這三個數和 10 互質,所以用它當乘數只會出現單環 ☆ ☆ ☆ 回到原 PO 的問題,神經網路 (深度學習) 一般不是用來解這個檢核碼規則的, 這屬於密碼學 (Cryptography) 的密碼分析 (Cryptanalysis) 在探討的問題。 但你去看密碼學課本,沒有一本會講到如何破解身分證規則,因為這個太簡單了, 我上面也沒用到任何密碼學工具,只用了四則運算,連 mod 都不算是真正「用到」 ☆ ☆ ☆ 最後附上我用的工具程式 破解的過程,大部份是靠人眼觀察,人工尋找可以用的資料組合, 但身為 Python 的初學者,我還是寫了兩支 Python 程式, 一支幫助過濾出原始資料中 8 個數字相同的組合以便觀察規則 一支用在已經找出規則之後,檢驗有多少筆序號是符合這個規則的 https://ideone.com/24noQ6 讀入 charno.txt 並且輸出 output0.txt ~ output8.txt 找出只有 X0 ~ X8 單一位數字不同的序號組,集中放置方便觀察規律 https://ideone.com/WOms7q 讀入 charno.txt 檢驗每一組序號是否符合我們猜想的檢核碼公式 寫過之後我好像對於 dictionary, list, string 的處理更多了解了一點, 是個不錯的練習,推薦各位試試,但不必把這程式看得太重要,它只是輔助 -- 桃樂絲: 可是, 如果你沒有頭腦, 為什麼會說話? 稻草人: ㄝ, 我也不知... 但是有些人沒有頭腦也能說超~多話呢。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.250.28.159 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1643451010.A.7CA.html

01/29 22:21, 2年前 , 1F
01/29 22:21, 1F

01/29 23:03, 2年前 , 2F
01/29 23:03, 2F

01/30 12:40, 2年前 , 3F
推!謝謝你!
01/30 12:40, 3F

01/30 13:19, 2年前 , 4F
很有趣!
01/30 13:19, 4F

01/31 14:44, 2年前 , 5F
感謝分享
01/31 14:44, 5F
文章代碼(AID): #1XzHA2VA (Python)
討論串 (同標題文章)
文章代碼(AID): #1XzHA2VA (Python)