[問題] 新手請教爬蟲

看板Python作者 (L O V E X)時間4年前 (2020/09/01 17:26), 編輯推噓0(004)
留言4則, 2人參與, 4年前最新討論串1/1
新手學習爬蟲中~ 請問如以下的學校公告欄 http://www.cshs.kh.edu.tw/post/book.asp soup = BeautifulSoup(html, 'html.parser') for link in soup.find_all(href=re.compile("view")): print(link.get('href')) 這樣可以抓到內文實際的連結,但不知如何抓細節 主要想抓整個table把新的資料寫入sql db, 不知道怎麼抓好呢? (因為它的table都沒有id 或 class之類的~) (新增資料--這會搭配Windows每日執行task) 謝謝! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.192.193.194 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1598952395.A.09E.html

09/01 19:44, 4年前 , 1F
整個表格也沒幾行 把網頁抓下來做字串分析就行了
09/01 19:44, 1F

09/01 20:11, 4年前 , 2F
有 table 的話 用 soup 抓出 table 餵給 pandas
09/01 20:11, 2F

09/01 20:12, 4年前 , 3F
不過這網頁有 RSS 的話 直接用 feedparser
09/01 20:12, 3F

09/01 20:12, 4年前 , 4F
就不需要自己處理網頁
09/01 20:12, 4F
文章代碼(AID): #1VJXFB2U (Python)
文章代碼(AID): #1VJXFB2U (Python)