PTT數位生活區 / Python

[問題] 解析類似html的Dataset

看板Python作者unimaybe (unimaybe)時間7年前 (2018/07/31 16:36)推噓3(3推 0噓 5→)

留言8則, 3人參與討論串1/1

各位版友好，小弟是新手><，最近想利用python處理這類的文件是一個sogou-QCL的一個Dataset 這是參考的網址 http://www.thuir.cn/sogouqcl/?from=timeline&isappinstalled=0 下圖是Dataset的結構 https://i.imgur.com/M3jsivD.png

想建立一個這樣的模型簡單來說就是把每一種query會搜尋到哪種document 建立成一個list，所以一個query裡面會存很多document 而document後面存放五個相關度的數值像下面這樣 ┌ query_id_01 ┌ doc_id_01 ─ [TCM_value, DBN_value,...(五個相關度) │ ├ doc_id_02 ─ [TCM_value........ │ ├ doc_id_03 │ ├ doc_id_04 │ └....... ├ query_id_02 ┌..... │ │ │......... 原本想用beautifulsopu來處理但是因為每一個子doc標籤裡面有<html></html>的標籤搜尋只會在第一個document就結束了有想過用Regular Expression來處理可是也遇到不少障礙因為標籤類型不對，所以也不能用elementTree 想請問各位版友有沒有什麼建議 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.114.253.104 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1533026191.A.C7B.html

推

07/31 18:18, 7年前 , 1^F

07/31 18:18, 1^F

推

07/31 18:20, 7年前 , 2^F

07/31 18:20, 2^F

→

07/31 18:20, 7年前 , 3^F

07/31 18:20, 3^F

推

07/31 23:56, 7年前 , 4^F

07/31 23:56, 4^F

→

08/01 21:36, 7年前 , 5^F

08/01 21:36, 5^F

→

08/01 21:36, 7年前 , 6^F

08/01 21:36, 6^F

→

08/01 21:37, 7年前 , 7^F

08/01 21:37, 7^F

→

08/01 21:38, 7年前 , 8^F

08/01 21:38, 8^F

‣ 返回看板[ Python ] 程設

‣ 更多 unimaybe 的文章

文章代碼(AID): #1RO1-Fnx (Python)

Python 近期熱門文章

2

11

[問題] openpyxl到底能不能調整全局Font？

1月前, 05/07

7

21

[問題] super() 與MRO 鏈斷裂問題

3月前, 02/24

3

13

[問題] vscode的debug模式不用考慮中文路徑

4月前, 02/01

1

15

[問題] skimage.io.imread()讀圖檔底色是黃色？

5月前, 12/28

2

4

[閒聊] 有人要合購股票pythony資料庫finlab嗎?

5月前, 12/23

1

1

[問題] python 3.14 free thread build

7月前, 10/29

1

13

[問題] 關於正規表示法的r'\1'?

7月前, 10/22

6

9

[問題] 請問有人用過OMIA PLUS影音平台自學嗎?

8月前, 10/09

更多近期熱門文章 >>

PTT數位生活區即時熱門文章

3

75

[菜單] 原價屋菜單幫健檢

[ PC_Shopping ]

3小時前, 06/16

4

7

[ HardwareSale ]

5小時前, 06/16

2

5

[情報] 好市多TCL 75C7K 特價

[ Digitalhome ]

5小時前, 06/16

7

30

[菜單] 100K遊戲機含34吋超寬螢幕

[ PC_Shopping ]

6小時前, 06/16

45

179

[請益] 618買螢幕請教另外ipsVA誰比較護眼?

[ PC_Shopping ]

6小時前, 06/16

23

45

[情報] 外媒詳測Windows 11的低延遲設定檔，指

[ PC_Shopping ]

12小時前, 06/16

24

64

[情報] 傳Intel將於2027推出Raptor Lake Next

[ PC_Shopping ]

16小時前, 06/16

3

45

[菜單] 75k 遊戲機

[ PC_Shopping ]

16小時前, 06/16

更多即時熱門文章 >>

‣ 返回看板[ Python ] 程設

‣ 更多 unimaybe 的文章

文章代碼(AID): #1RO1-Fnx (Python)