[問題] 如何用C++移除HTML的TAG

看板C_and_CPP (C/C++)作者 (嘿嘿嘿)時間16年前 (2009/03/31 08:52), 編輯推噓1(106)
留言7則, 6人參與, 最新討論串1/1
我想要用C++將無名網誌的內文抓下來 但是裡面包含了許多我不需要的元素 我只想要網誌裡面內文的部分 不知道有沒有什麼辦法可以移除或是只截取我要的部分 我自己的想法是把文章全部抓下來後再做處理 但是對C++很陌生 麻煩各位教學了 謝謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 123.193.85.55 ※ 編輯: daniel76308 來自: 123.193.85.55 (03/31 08:54)

03/31 10:41, , 1F
RegExp
03/31 10:41, 1F

03/31 11:12, , 2F
用 regex 實在太多情況處理不了, 找個 html lib 試吧
03/31 11:12, 2F

03/31 11:14, , 3F
請問html lib是....?
03/31 11:14, 3F

03/31 11:26, , 4F
JFGI
03/31 11:26, 4F

03/31 14:02, , 5F
其實找特定字串當作開頭結尾再substr()也是可以土炮的啦
03/31 14:02, 5F

03/31 20:24, , 6F
try tidy
03/31 20:24, 6F

03/31 23:12, , 7F
有其他script language更適合做這種事
03/31 23:12, 7F
文章代碼(AID): #19qMam57 (C_and_CPP)
文章代碼(AID): #19qMam57 (C_and_CPP)