Re: 請問有關Hash演算法
看板Programming作者b6s (http://b6s.blogspot.com)時間18年前 (2006/08/11 21:53)推噓0(0推 0噓 0→)留言0則, 0人參與討論串8/8 (看更多)
※ 引述《Killercat (殺人貓™)》之銘言:
: ※ 引述《iroy.bbs@bbs.sa.ncyu.edu.tw (丁香魚)》之銘言:
: : 請問各位專家
: : 目前常見的hash方法有 md5 checksum crc ...等等
: : 但是這幾種方法 只要檔案有稍許的不同...所算出來的hash value
: : 就會天差地遠....
: : 想請問的就是 有哪個hash方法是
: : 假設影兩個檔案A和B 如果A 和B 的差異只有一點點(可能幾個bit不同)
: : 然後有哪個hash方法所算出的hash value也是只有差異一些些!!
: 那個不叫hash, 那叫做特徵碼
: 通常使用於病毒的變種防護上.
: 這東西很多防毒軟體引擎都或多或少會設計一些這類型的特徵碼
: 不過這基本上跟hash毫無關係, 祇是把一些特徵index起來而已
: 因為病毒體積都不大(總不太可能有500mb的病毒吧? 這應該叫做惡意程式了)
: 所以"特徵"也比較少, 特徵碼也不至於長到不能用的地步
: 如果你是拿來做一般檔案編碼的話, 那這個index所需要紀錄的資料
: 遠遠不是hash能比的大小 =)
是的,那確實不是 hash 的用途,因為 hash 的基礎是 pseudo random number。
你需要的是到 Google Scholar 找幾個關鍵字(愈底下的愈粗略):
similarity (string or text, PCMan 提到的 edit distance 就是這類)
fingerprint (data mining)
text clustering (not computer cluster)
text classification
information extraction
information retrieval
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 59.105.131.104
討論串 (同標題文章)
Programming 近期熱門文章
PTT數位生活區 即時熱門文章