Re: [請問] 有沒有html或文字軟體可以"擷取"前後的 …

看板EZsoft (小軟體)作者 ( )時間15年前 (2010/08/19 20:14), 編輯推噓1(1012)
留言13則, 5人參與, 最新討論串1/1
※ 引述《to1322 (to1322)》之銘言: : 最近在幫公司做網頁html資料整理 : 想從html裡把需要的文字取出(目前是一個一個"拷貝"+"貼上"在word) : <h6><a href="pplo/PENIAS">PENIAS</a></h6> : 中間的"PENIAS"就是我要的文字 : 它固定夾在<h6>...</h6>中間 : 而前後段又都有很多我不需要的程式碼 : 一個html裡大概有幾百個我需要的 : 有沒有軟體可以幫我把<h6>......</h6> : 中間這一段我需要的文字留下 : 不需要的程式碼移除的文字軟體呢? : 感謝鄉民大大 之前遇過類似問題,跟大家分享,獻醜了。 以你的例子來說,把原始碼複製到 Notepad++ 之類的文字編輯器, 取代掉空白、斷行之類的之後整理成有條理的呈現方式.. <h6><a href="pplo/PENIAS">PENIAS</a></h6> 接著用取代功能,把 "> 代換為 ">, 而 </a> 代換為 ,</a>, 就會變成這樣: <h6><a href="pplo/PENIAS">,PENIAS,</a></h6> 接著將這個文字檔存成 txt,打開 excel 使用資料匯入功能, 分隔符號選擇為 , 後匯入, 就會變成: A | B | C 1 <h6><a href="pplo/PENIAS"> |PENIAS | </a> 2 | | 3 | | 按一下 B 就可以全選複製貼上到你要的地方去了, 這個方法的優點是可以同時篩選出多組字串,提供你參考 :) 如果所需字串前後是字數相同但是內容不同需要去除,如: <h6><a href="pplo/1111">1111</a></h6> <h6><a href="pplo/2222">2222</a></h6> <h6><a href="pplo/3333">3333</a></h6> 可以直接在 Notepad++ 使用巨集功能錄製鍵盤動作, 例如在 <h6> 前面按 24 下 del 然後按 ↓ 再按 home 到下一行首, 然後讓他自動執行到文件結尾,就可以輕鬆全部砍掉, 剩下的再用取代功能去掉就好。 以上,給您做參考 :) -- 馬皇馬皇!那邊有個村子 馬皇馬皇!好幾個國家說要來 馬皇馬皇~為什麼災情這麼慘 滅了 幫忙救災 文字:scuderia You ψQSWEET 東森 東森 CNNsee! ◎ ◎ 喔~~ ︶ ︶ ◎ ◎ 喔~~ ︶ ︶ ◎ ◎ They自己 ⊙◥ 3╯ξ 沒準備 (哈欠) (煙~) 怪我喔?( ) -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 118.161.248.69

08/19 22:14, , 1F
不用吧 excel可以貼網頁 跟 word一樣 他能自動轉出文字
08/19 22:14, 1F

08/19 22:57, , 2F
不明白為何不直接開瀏覽器再把字copy就好?它是html不是嗎?
08/19 22:57, 2F

08/20 09:20, , 3F
樓上,這樣要copy數千次吧
08/20 09:20, 3F

08/20 09:43, , 4F
< 取代 <!-- 然後 > 取代 --><br> 再用網頁開
08/20 09:43, 4F

08/20 09:45, , 5F
然後排序濾掉空行, 或是取代掉空行換行
08/20 09:45, 5F

08/20 09:47, , 6F
不過文件內若有用到 > <文字 此法可能就不行
08/20 09:47, 6F

08/20 11:39, , 7F
如果要一次處理所有檔案,用Notepad++的搜尋目錄,尋找
08/20 11:39, 7F

08/20 11:39, , 8F
「<h6><a href=」,然後把搜尋結果複製到新文件裡
08/20 11:39, 8F

08/20 11:40, , 9F
再用正規表示式
08/20 11:40, 9F

08/20 11:40, , 10F
尋找「.*<h6><a href="[^"]*">(.+)</a></h6>.*」
08/20 11:40, 10F

08/20 11:41, , 11F
以「\1」取代之
08/20 11:41, 11F

08/20 11:41, , 12F
上述只是寫個大概,實際處理得看關鍵字怎麼變化
08/20 11:41, 12F

08/21 16:44, , 13F
正規表示式,一招KO,就非得搞得那麼麻煩幹嘛
08/21 16:44, 13F
文章代碼(AID): #1CRI0_ar (EZsoft)
文章代碼(AID): #1CRI0_ar (EZsoft)