Re: [J2SE] 處理大量中文字串

看板java作者 (痞子軍團團長)時間19年前 (2007/03/05 06:55), 編輯推噓0(000)
留言0則, 0人參與, 最新討論串2/4 (看更多)
※ 引述《slalala (用BBS修電腦~Orz)》之銘言: : 我現在要做一個程式 : 必須要讀取.txt檔案 一個檔案約150多MB(我沒豪洨/ \我也很難過><) : 內容是 : 把程式裡面相關文章斷詞塞選出來 存入資料庫(大概結果會超過2萬筆資料) 斷詞阿... [遠目] 可以問一下 java 有哪些(中文)斷詞 library 嗎? (目前只有聽說 PATTerm 這個... 而且用法不明 Orz) : 想請問 我知道我不該把資料通通存入String : 但是如果真要這樣做可行嗎?(我嘗試過會ERROR) : 有辦法加大Catch讓String讀入150多MB嗎(._.?) 不是加大 cache,而是增加 JVM 的記憶體大小 指令是執行時候下 java -xmx 不過... 這個方法應該是治標不治本 一般的文章應該是有段落的 所以用 BufferedReader.readLine() 然後依照你文件的格式,去拼出一個段落,把這個段落另存檔案 最後再分別 load 這些檔案進去斷詞 這樣應該比較好(不過沒 try 過,純嘴砲 [逃]) : 請問有什麼function能一次 慢慢讓軟體去處理這麼大的檔案呢? : 另外問一下ArrayList有長度限制嗎? -- 侃侃長論鮮窒礙 首頁:http://www.psmonkey.idv.tw 眾目睽睽無心顫 Blog:http://ps-think.blogspot.com 煢居少聊常人事 殺頭容易告白難 歡迎參觀 Java 版(@ptt.cc)精華區 \囧/ -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 61.228.195.84
文章代碼(AID): #15wqvm8Y (java)
討論串 (同標題文章)
文章代碼(AID): #15wqvm8Y (java)