[問題] 海量資料查詢的問題,Ya~第一個提問的喔!!

看板Cloud作者 (想重回校園的工程師)時間13年前 (2010/07/30 00:12), 編輯推噓1(101)
留言2則, 1人參與, 最新討論串1/2 (看更多)
首先當然不免俗的恭喜開版!! 小弟不小心逛到這邊因為一直在找尋方向與靈感 故順道發表這問題,因為小弟不知道這問題該發在哪個版 若板大覺得不適合,請直接刪文...Sorry瞜 小弟最近遇到一個相當大的麻煩,就是屬於巨量行資料的問題 通常巨量型資料再處理搜尋時不外乎用些搜尋引擎 例如 : Lucene(由於小弟的案子用C#開發,故使用了Lucene.NET) OK~相安無事的完成系統後一年,發現Lucene撐不住了, 也許板上的前輩會說 "Lucene怎會撐不住??" 沒錯,由於小弟的案子不是如同google一般,搜得到就搜得到, 搜不到~也就算了!? 而小弟的資料是屬於,搜不到??不可能!!保證有這一個資料,而你卻搜不到 講白一點,就是"法律的裁判書" 目前資料庫全文共有千萬筆資料,然後當大量同時查詢,加上過於複雜的複合條件 造成系統反應太慢,Lucene的效能已被小弟乍到極限... 這當然不成,至少120萬筆資料一個index所查詢的反應時間須壓到小於1秒 這是個嚴苛的考驗,故小弟腦中一直思考著分散式的設計方法 但分散式須牽扯多台機器同時運算!! 並且很大的問題在於每台機器查詢完成後小弟利用Remoting的方式將物件傳輸到 一台統整的機器上,這種初步的設計原型小地寫出來了,但是很不幸的 1.Lucene 壓在1.5sec左右,就是壓不下來 2.網路傳輸又耗到 1~3 sec 3.每台在遠端運算後,統整卻不知道如何排序 實在想破頭,故想到雲端運算的架構是否類似小弟的設計架構(小弟的很粗淺) 所以順道請教貴版之前輩 是否有此經驗可以提供方向給小弟參考!! 非常謝謝各位前輩~ ps.再次恭喜開版~~~加油加油 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 115.43.156.107

08/01 20:26, , 1F
solr ?
08/01 20:26, 1F

08/01 20:27, , 2F
don't reinvent the wheels
08/01 20:27, 2F
文章代碼(AID): #1CKQXxMn (Cloud)
文章代碼(AID): #1CKQXxMn (Cloud)