Re: 請問有關Hash演算法

看板Programming作者 (http://b6s.blogspot.com)時間18年前 (2006/08/11 21:53), 編輯推噓0(000)
留言0則, 0人參與, 最新討論串8/8 (看更多)
※ 引述《Killercat (殺人貓™)》之銘言: : ※ 引述《iroy.bbs@bbs.sa.ncyu.edu.tw (丁香魚)》之銘言: : : 請問各位專家 : : 目前常見的hash方法有 md5 checksum crc ...等等 : : 但是這幾種方法 只要檔案有稍許的不同...所算出來的hash value : : 就會天差地遠.... : : 想請問的就是 有哪個hash方法是 : : 假設影兩個檔案A和B 如果A 和B 的差異只有一點點(可能幾個bit不同) : : 然後有哪個hash方法所算出的hash value也是只有差異一些些!! : 那個不叫hash, 那叫做特徵碼 : 通常使用於病毒的變種防護上. : 這東西很多防毒軟體引擎都或多或少會設計一些這類型的特徵碼 : 不過這基本上跟hash毫無關係, 祇是把一些特徵index起來而已 : 因為病毒體積都不大(總不太可能有500mb的病毒吧? 這應該叫做惡意程式了) : 所以"特徵"也比較少, 特徵碼也不至於長到不能用的地步 : 如果你是拿來做一般檔案編碼的話, 那這個index所需要紀錄的資料 : 遠遠不是hash能比的大小 =) 是的,那確實不是 hash 的用途,因為 hash 的基礎是 pseudo random number。 你需要的是到 Google Scholar 找幾個關鍵字(愈底下的愈粗略): similarity (string or text, PCMan 提到的 edit distance 就是這類) fingerprint (data mining) text clustering (not computer cluster) text classification information extraction information retrieval -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 59.105.131.104
文章代碼(AID): #14t8leZA (Programming)
文章代碼(AID): #14t8leZA (Programming)