[問題] ptt 文章 parse

看板Python作者 (yeurus)時間13年前 (2012/08/14 11:45), 編輯推噓0(005)
留言5則, 3人參與, 最新討論串1/1
大家好,小弟第一次來這裡問問題,目前在做ptt抓文機器人, 已經能成功進入文章,但parse文章的時候出問題, 仔細看原始ascii碼和我的regx也看不出來,所以想請教有相關經驗的大大 我的regx: /36m[─]{10,}([\s\S]+)(3[3,4];4[0-7]m 瀏覽)/ -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 1.160.28.188

08/14 13:28, , 1F
第二次出現行數時,格式就不一樣了
08/14 13:28, 1F

08/14 14:59, , 2F
在第二次是用/([\s\S+)([3[3,4];4[0-7]m 瀏覽)/
08/14 14:59, 2F

08/14 21:33, , 3F
然後第3次也不一樣, 我覺得你直接抓plaintext會比較容易
08/14 21:33, 3F

08/14 22:36, , 4F
在抓進來的時候先把色碼直接濾掉再比對應該會比較快...
08/14 22:36, 4F

08/14 22:37, , 5F
雖然我記得是第一頁和最後一頁會不一樣而已, 其他都一樣
08/14 22:37, 5F
文章代碼(AID): #1GASdVvG (Python)
文章代碼(AID): #1GASdVvG (Python)