[問題] 解析類似html的Dataset

看板Python作者 (unimaybe)時間7年前 (2018/07/31 16:36), 編輯推噓3(305)
留言8則, 3人參與, 7年前最新討論串1/1
各位版友好,小弟是新手><,最近想利用python處理這類的文件 是一個sogou-QCL的一個Dataset 這是參考的網址 http://www.thuir.cn/sogouqcl/?from=timeline&isappinstalled=0 下圖是Dataset的結構 https://i.imgur.com/M3jsivD.png
想建立一個這樣的模型 簡單來說就是把每一種query會搜尋到哪種document 建立成一個list,所以一個query裡面會存很多document 而document後面存放五個相關度的數值 像下面這樣 ┌ query_id_01 ┌ doc_id_01 ─ [TCM_value, DBN_value,...(五個相關度) │ ├ doc_id_02 ─ [TCM_value........ │ ├ doc_id_03 │ ├ doc_id_04 │ └....... ├ query_id_02 ┌..... │ │ │......... 原本想用beautifulsopu來處理 但是因為每一個子doc標籤裡面有<html></html>的標籤 搜尋只會在第一個document就結束了 有想過用Regular Expression來處理 可是也遇到不少障礙 因為標籤類型不對,所以也不能用elementTree 想請問各位版友有沒有什麼建議 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.114.253.104 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1533026191.A.C7B.html

07/31 18:18, 7年前 , 1F
依據doc分開之後用re去找吧應該是最快的
07/31 18:18, 1F

07/31 18:20, 7年前 , 2F
比較沒效率但直接string find open tag closed tag
07/31 18:20, 2F

07/31 18:20, 7年前 , 3F
中的index差就能找到你要存的東西
07/31 18:20, 3F

07/31 23:56, 7年前 , 4F
lxml
07/31 23:56, 4F

08/01 21:36, 7年前 , 5F
他例子的資料有問題
08/01 21:36, 5F

08/01 21:36, 7年前 , 6F
<TACM>0.499875283413</TACMM> 不對稱 tag
08/01 21:36, 6F

08/01 21:37, 7年前 , 7F
這個可能要 hardcode 清理
08/01 21:37, 7F

08/01 21:38, 7年前 , 8F
除去這個你就直接拿 lxml.etree.XML 一爬就解
08/01 21:38, 8F
文章代碼(AID): #1RO1-Fnx (Python)
文章代碼(AID): #1RO1-Fnx (Python)