[問題] 容錯字串搜索

看板Prob_Solve (計算數學 Problem Solving)作者 (眠月)時間8年前 (2016/11/16 18:08), 編輯推噓6(608)
留言14則, 5人參與, 最新討論串1/2 (看更多)
有問題想要請教資料結構演算法們的大大 <(_ _)> 最近無聊,想要作個 personal project:search engine 我知道怎麼在字串裡面作快速的精準搜索,比方說 KMP、BM、 suffix tree 之類 但我不知道怎麼作快速的模糊搜索 @@ 想請各位前輩給一些資料、方向、關鍵字,感謝萬分。 ps. 如果能順便有如何在硬碟上有效率的保存 index 的相關資料那就更好了 XD -- To iterate is human, to recurse, divine. L. Peter Deutsch 嫩嫩迴圈 大大遞迴 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.243.177.112 ※ 文章網址: https://www.ptt.cc/bbs/Prob_Solve/M.1479290922.A.BE6.html

11/16 22:08, , 1F
你要先定義什麼叫做模糊
11/16 22:08, 1F

11/16 22:10, , 2F
k-mismatch 容許k個字元錯
11/16 22:10, 2F

11/16 22:10, , 3F
k-difference: edit distance 小於 k
11/16 22:10, 3F

11/16 23:53, , 4F
多年前修課使用foxpro,也沒發揮真正的威力。
11/16 23:53, 4F

11/17 05:12, , 5F
bloom filter
11/17 05:12, 5F

11/17 05:18, , 6F
硬碟保存就 B-tree 吧 剛剛谷歌一下還有啥 CPS-tree
11/17 05:18, 6F

11/18 02:57, , 7F
感謝各位 XD
11/18 02:57, 7F

11/20 02:25, , 8F
限英文的話可用 soundex,pg、mysql 都有支援
11/20 02:25, 8F

11/20 06:30, , 9F
聲紋比對的話 實務上比較常見到 hidden markov model
11/20 06:30, 9F

11/20 06:33, , 10F
^^^^^^^^發音比對 更正一下
11/20 06:33, 10F

11/28 02:14, , 11F
聲音比對現在主流不是 LSTM-RNN 了嗎 XD
11/28 02:14, 11F

11/28 09:05, , 12F
LTSM-RNN 實驗室才剛做出來沒多久 應該還沒普及?
11/28 09:05, 12F

12/01 23:34, , 13F
這個領域三個月就翻兩翻了...
12/01 23:34, 13F

12/02 06:52, , 14F
這麼快?可以請你提供統計數據來源嗎?
12/02 06:52, 14F
文章代碼(AID): #1OB30glc (Prob_Solve)
討論串 (同標題文章)
以下文章回應了本文
完整討論串 (本文為第 1 之 2 篇):
文章代碼(AID): #1OB30glc (Prob_Solve)