[問題] pandas read_html 分析欄位問題

看板Python作者 (gigigigi)時間8年前 (2017/04/02 13:42), 編輯推噓0(0012)
留言12則, 3人參與, 最新討論串1/1
https://www.sendspace.com/file/ysmnfn 上面是我的程式碼跟測試檔案aa.html 我在使用pd.read_html 過濾html裡面出表格發現我aa.html 用瀏覽器看有兩個表格 但是程式用 pd.read_html 分析出來只有一個表格 想請問一下這是什麼原因? 謝謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 175.181.186.197 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1491111726.A.35D.html

04/02 15:25, , 1F
#1OjKCMQn 個人猜測又跟 parser 的爬法有關係拉...
04/02 15:25, 1F

04/02 16:52, , 2F
這是爬法造成?不過看上面文章感覺是html語法問題造成
04/02 16:52, 2F

04/02 16:52, , 3F
pd.read_html 的 parser 失敗
04/02 16:52, 3F

04/02 16:57, , 4F
看你怎麼看啦,看你覺得是工具不好使,還是資料不符工具
04/02 16:57, 4F

04/02 17:47, , 5F
你 input 的 html 有問題
04/02 17:47, 5F

04/02 23:44, , 6F
請問哪邊看出問題 ?? == $0 嘛?
04/02 23:44, 6F

04/02 23:44, , 7F

04/02 23:46, , 8F
請問有什麼方法或是工具可以檢查出html 問題的地方嘛?
04/02 23:46, 8F

04/03 01:02, , 9F
....一個<table>裡面只能有一個<thead>跟<tbody>
04/03 01:02, 9F

04/03 01:03, , 10F
這也是為什麼pd read_html 只會出現上半部(之後的兩個tag是
04/03 01:03, 10F

04/03 01:03, , 11F
不合法的
04/03 01:03, 11F

04/03 02:22, , 12F
了解! 感謝... 我試試看用soup拆解出來在丟到pandas
04/03 02:22, 12F
文章代碼(AID): #1Ou8ykDT (Python)
文章代碼(AID): #1Ou8ykDT (Python)