[問題] 該如何靠一個定位點抓取上層資料?
各位好,做爬蟲又遇到了個問題...基本上來源會有 ID 跟 Number ,我必須靠Number
來追蹤到ID,目前已經能做到追蹤到Number但ID跟Number不同行,我不懂該如何提取
能給我點提示嗎?謝謝
範例:.....
str = '''
<li><a href="123.html" target=_blank class="Observe24">
十分鐘資料</a></li>
'''
如果是整行同一行我就有辦法使用split來抓到並清洗出我要的123.html
但現在如果分行了,我只能抓到 唯一識別值:十分鐘資料,我不知道應該怎麼回推
從我在原始碼找到十分鐘的資料後,往上一行獲取到 123.html 這個值
懇請指點 謝謝
--
◢ ◣
● █≡◥◣ ◢ ◣
】 。 \。【 這個板需要更高竿的酸民
● //﹀\\● ◥ ◤
】 ╰═╯【 ◤
◢◥ ◤◣
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 49.158.30.145
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1528022314.A.E65.html
推
06/03 18:56,
7年前
, 1F
06/03 18:56, 1F
→
06/03 18:56,
7年前
, 2F
06/03 18:56, 2F
→
06/03 18:56,
7年前
, 3F
06/03 18:56, 3F
謝謝,但不是撈所有的url,我想要先抓到
十分鐘資料後再抓到和它一起的123.hml
推
06/03 19:39,
7年前
, 4F
06/03 19:39, 4F
→
06/03 19:39,
7年前
, 5F
06/03 19:39, 5F
沒錯...我是以純文字操作,我原以為能自幹功能XD...看來還是要用parse,想說或許
能節省點效能XDD
只不過剛用bs4 + lxml後 還是會有分行的狀況QQ
※ 編輯: KeyBoardKill (49.158.30.145), 06/03/2018 20:22:49
→
06/03 23:09,
7年前
, 6F
06/03 23:09, 6F
→
06/03 23:20,
7年前
, 7F
06/03 23:20, 7F
Python 近期熱門文章
PTT數位生活區 即時熱門文章