[問題] 抓取限定區間日期的PTT文章

看板Python作者 (R)時間6年前 (2018/09/01 13:58), 編輯推噓2(207)
留言9則, 4人參與, 6年前最新討論串1/1
大家好,小弟最近在學習上遇到一個問題 先跟大家說一下,因為我希望短期有個明確的成果,來鼓勵自己學習下去 因此在學習一些最最最基本的概念後,決定找一個已經被編輯好的code 從對方的code中,透過了解每行code的意義與用法後,希望最後可以理解並運用這個code 所以我選擇之前在網路上看到的一則爬PTT圖片的code來學習(因為看到很多心得分享文章,都說小成果的第一次是爬出PPT的圖片) 但是那邊主要是爬,當日的PTT文章,想請問如何把日期的限制,改成特定日期或特定區間的日期 而非只有針對當日新增的文章做爬文動作。以下是該code針對時間限制的段落 if __name__ == '__main__': current_page = get_web_page(PTT_URL + '/bbs/Beauty/index.html') if current_page: articles = [] # 全部的今日文章 date = time.strftime("%m/%d").lstrip('0') # 今天日期, 去掉開頭的 '0' 以符合 PTT 網站格式 current_articles, prev_url = get_articles(current_page, date) # 目前 頁面的今日文章 while current_articles: # 若目前頁面有今日文章則加入 articles,並回到 上一頁繼續尋找是否有今日文章 articles += current_articles current_page = get_web_page(PTT_URL + prev_url) current_articles, prev_url = get_articles(current_page, date) "%m/%d" 如果這個是當日日期,要如何改變日期限制呢?再麻煩各位大大了謝謝! 我知道可能有人會覺得我的學習方式有點偏門,但是實在是為了有些成果來鼓勵自己... -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.254.43.45 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1535781486.A.CE4.html

09/01 16:08, 6年前 , 1F
直接從爬到的資料去限制時間應該可以吧
09/01 16:08, 1F

09/01 19:26, 6年前 , 2F
請問大大是什麼意思,我用這個爬都只會有當天的文章...這
09/01 19:26, 2F

09/01 19:26, 6年前 , 3F
樣要從何限制呢?抱歉太菜
09/01 19:26, 3F

09/02 01:23, 6年前 , 4F
"python 時間計算" datetime 等等.. 時間不只有字串狀態
09/02 01:23, 4F

09/02 16:58, 6年前 , 5F

09/02 17:00, 6年前 , 6F
自動就是二元搜尋到你想要的日期的第一篇 然後爬文直到
09/02 17:00, 6F

09/02 17:00, 6年前 , 7F
不是你想要的日期
09/02 17:00, 7F

09/02 17:01, 6年前 , 8F
簡單一點就是你先自己把該日期起始編號跟結束編號找出
09/02 17:01, 8F

09/02 17:01, 6年前 , 9F
來 然後用爬文API 去幫你爬完
09/02 17:01, 9F
文章代碼(AID): #1RYYfkpa (Python)
文章代碼(AID): #1RYYfkpa (Python)