[問題] 解析類似html的Dataset
各位版友好,小弟是新手><,最近想利用python處理這類的文件
是一個sogou-QCL的一個Dataset
這是參考的網址
http://www.thuir.cn/sogouqcl/?from=timeline&isappinstalled=0
下圖是Dataset的結構
https://i.imgur.com/M3jsivD.png

想建立一個這樣的模型
簡單來說就是把每一種query會搜尋到哪種document
建立成一個list,所以一個query裡面會存很多document
而document後面存放五個相關度的數值
像下面這樣
┌ query_id_01 ┌ doc_id_01 ─ [TCM_value, DBN_value,...(五個相關度)
│ ├ doc_id_02 ─ [TCM_value........
│ ├ doc_id_03
│ ├ doc_id_04
│ └.......
├ query_id_02 ┌.....
│
│
│.........
原本想用beautifulsopu來處理
但是因為每一個子doc標籤裡面有<html></html>的標籤
搜尋只會在第一個document就結束了
有想過用Regular Expression來處理
可是也遇到不少障礙
因為標籤類型不對,所以也不能用elementTree
想請問各位版友有沒有什麼建議
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.114.253.104
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1533026191.A.C7B.html
推
07/31 18:18,
7年前
, 1F
07/31 18:18, 1F
推
07/31 18:20,
7年前
, 2F
07/31 18:20, 2F
→
07/31 18:20,
7年前
, 3F
07/31 18:20, 3F
推
07/31 23:56,
7年前
, 4F
07/31 23:56, 4F
→
08/01 21:36,
7年前
, 5F
08/01 21:36, 5F
→
08/01 21:36,
7年前
, 6F
08/01 21:36, 6F
→
08/01 21:37,
7年前
, 7F
08/01 21:37, 7F
→
08/01 21:38,
7年前
, 8F
08/01 21:38, 8F
Python 近期熱門文章
PTT數位生活區 即時熱門文章