[問題] 大型xml沒有根與搜尋如何處理?(已解決)
各位大大晚安,不才想請教兩個問題<(_ _)>
我目前希望可以處理一份很巨大的xml,但是我手上的xml檔沒有樹根!
經過測試我發現會報錯QAQQQ
我看到別人的解法好像是先把檔案開啟來,然後寫入樹根?
但是我目前需要動態迭代,因為檔案很大,無法一次存入記憶體,
我試著引用查到的程式碼,我的程式目前長如下網址
http://codepad.org/bPqMyuly
感覺好像不適合用那種open然後加入樹根的方式,不知道版上大大有好建議嘛?
譬如怎麼跟著迭代動態寫入樹根?
我的XML格式如下:
<doc id="13" url="https:XXX" title="XX">
content 1
</doc>
<doc id="15" url="https:XXX" title="XX">
content 2
</doc>
另外想問我希望搜尋文檔中xml的content,然後如果我的keyword有出現在content中,
就回報我content的id,讓我知道哪些content中有出現我的keyword,
我操作如下
先把xml分析出id和content之後,存入MySQL資料庫,
再藉由SELECT id FROM table WHERE content = "%keyword%"
找出哪些文章出現我的關鍵字
這樣子的操作會有問題嘛?譬如MySQL會搜很慢之類的?
如果有問題,我怎樣做比較好?
p.s我的關鍵字都是中文
--
半壁河山半攻守
半爭成敗半悟道
許銀川
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.163.141.34
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1526226246.A.D68.html
→
05/14 01:43,
7年前
, 1F
05/14 01:43, 1F
→
05/14 01:43,
7年前
, 2F
05/14 01:43, 2F
這樣聽起來,我需要自己用正規表達式判斷是不是close tag,不能用現成套件Q
不是很擅長正規表達式的說QAQ
→
05/14 12:58,
7年前
, 3F
05/14 12:58, 3F
→
05/14 13:07,
7年前
, 4F
05/14 13:07, 4F
→
05/14 13:07,
7年前
, 5F
05/14 13:07, 5F
→
05/14 13:08,
7年前
, 6F
05/14 13:08, 6F
其實我有看到下面寫html,但是我試著導入HTML之後,進行迭代依舊出錯,
所以在想是不是html版並無迭代功能,當然也可能是我自己用錯了>"<
推
05/14 20:35,
7年前
, 7F
05/14 20:35, 7F
待我研究一下此版本是否可以迭代運算,不然檔案太大會吃不下,要邊吃邊釋放
→
05/14 21:11,
7年前
, 8F
05/14 21:11, 8F
好,我研究一下,html系列好像真的沒有iterparse函式,
有沒有其他相應函式我不清楚...
我研究一下generator,剛剛直接執行,電腦差點當掉,還好我即時喊停>"<
不太清楚generator要如何搭配QAQQQ
您給予的程式在我稍做修改,加入正式大量數據時就會造成電腦當機
當在執行soap = BeautifulSoup(file, "lxml")
我猜測再這一步運行時,就會需要將整個檔案導入,所以記憶體無法負荷,
而generator好像是在這步之後的步驟?
怪怪的剛剛想貼程式碼再測試時結果不一樣了,沒有當,但是只有輸出一筆
然後soap = BeautifulSoup(fn, "lxml") 這邊卡了很久
http://codepad.org/iLwM633k
#
阿阿,我崩潰了╯-____-)╯~═╩════╩═~
開了很久,手動加上root結果還是爆了,這不是那麼乾淨的xml
直接把檔案丟上來好了...
我發現BeautifulSoup在比較小那份可以跑,但是他默默的沒有跑完就停了...
之後可能考慮真的一行一行讀吧
https://drive.google.com/drive/folders/
1hWUIROmnJE-GuSxc2079JmRwMF-zbQ9g?usp=sharing
短網址:https://goo.gl/X2seS3
推
05/15 20:35,
7年前
, 9F
05/15 20:35, 9F
→
05/15 20:36,
7年前
, 10F
05/15 20:36, 10F
→
05/15 20:37,
7年前
, 11F
05/15 20:37, 11F
→
05/15 20:38,
7年前
, 12F
05/15 20:38, 12F
有大神遠端幫忙解好了,感謝您 <3
秉持互助原則把大神寫好的清理程式放上來
perl版 http://codepad.org/7BzB36yW
python版 http://codepad.org/FNZmO1pD
希望以後可以幫到更多需要的人^^
(大神如果您覺得不合適可以叫我撤下)
※ 編輯: st1009 (1.163.154.100), 05/16/2018 23:07:09
Python 近期熱門文章
PTT數位生活區 即時熱門文章