[問題] 海量資料查詢的問題,Ya~第一個提問的喔!!
首先當然不免俗的恭喜開版!!
小弟不小心逛到這邊因為一直在找尋方向與靈感
故順道發表這問題,因為小弟不知道這問題該發在哪個版
若板大覺得不適合,請直接刪文...Sorry瞜
小弟最近遇到一個相當大的麻煩,就是屬於巨量行資料的問題
通常巨量型資料再處理搜尋時不外乎用些搜尋引擎
例如 : Lucene(由於小弟的案子用C#開發,故使用了Lucene.NET)
OK~相安無事的完成系統後一年,發現Lucene撐不住了,
也許板上的前輩會說 "Lucene怎會撐不住??"
沒錯,由於小弟的案子不是如同google一般,搜得到就搜得到,
搜不到~也就算了!?
而小弟的資料是屬於,搜不到??不可能!!保證有這一個資料,而你卻搜不到
講白一點,就是"法律的裁判書"
目前資料庫全文共有千萬筆資料,然後當大量同時查詢,加上過於複雜的複合條件
造成系統反應太慢,Lucene的效能已被小弟乍到極限...
這當然不成,至少120萬筆資料一個index所查詢的反應時間須壓到小於1秒
這是個嚴苛的考驗,故小弟腦中一直思考著分散式的設計方法
但分散式須牽扯多台機器同時運算!!
並且很大的問題在於每台機器查詢完成後小弟利用Remoting的方式將物件傳輸到
一台統整的機器上,這種初步的設計原型小地寫出來了,但是很不幸的
1.Lucene 壓在1.5sec左右,就是壓不下來
2.網路傳輸又耗到 1~3 sec
3.每台在遠端運算後,統整卻不知道如何排序
實在想破頭,故想到雲端運算的架構是否類似小弟的設計架構(小弟的很粗淺)
所以順道請教貴版之前輩
是否有此經驗可以提供方向給小弟參考!!
非常謝謝各位前輩~
ps.再次恭喜開版~~~加油加油
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 115.43.156.107
推
08/01 20:26, , 1F
08/01 20:26, 1F
→
08/01 20:27, , 2F
08/01 20:27, 2F
討論串 (同標題文章)
完整討論串 (本文為第 1 之 2 篇):
Cloud 近期熱門文章
PTT數位生活區 即時熱門文章