[問題] 爬蟲網頁圖表資料問題

看板Python作者 (有新信件還沒看)時間5年前 (2020/07/01 22:41), 編輯推噓4(4022)
留言26則, 3人參與, 5年前最新討論串1/1
各位高手大大晚安 我想抓取下圖的資料檔 https://i.imgur.com/tmpyyZy.jpg
已經知道圖表的資料是從這個網址匯入 https://i.imgur.com/znv2SKe.jpg
但是我直接把這段網址貼到瀏覽器會說找不到網頁 https://i.imgur.com/PRKcbtJ.jpg
不曉得是哪裡有放過濾機制 因為如果後面參數不要放那麼多 是可以抓到股價資料 但是主力,券商買賣家數怎麼試就是沒辦法 不曉得有沒有經驗的大大指點一下 卡了2天了QQ https://histock.tw/stock/main.aspx?no=2330 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.12.66.220 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1593614461.A.060.html

07/01 23:04, 5年前 , 1F
GET裡面的header要設定user-agent和referer
07/01 23:04, 1F

07/01 23:07, 5年前 , 2F
所要的資訊可以在原本截圖Response Headers裡面找到
07/01 23:07, 2F

07/01 23:21, 5年前 , 3F
和回neiltsang的一樣, 用https://curl.trillworks.com/
07/01 23:21, 3F

07/01 23:23, 5年前 , 4F
@cuteSquirrel 之前我只有加 user-agent
07/01 23:23, 4F

07/01 23:23, 5年前 , 5F
原來還要加referer 不過要如何判斷header應該加哪些資料
07/01 23:23, 5F

07/01 23:23, 5年前 , 6F
?
07/01 23:23, 6F

07/01 23:24, 5年前 , 7F
@cuteSquirrel 真的謝謝了 受小弟一拜<O>
07/01 23:24, 7F

07/01 23:25, 5年前 , 8F

07/01 23:29, 5年前 , 9F
就從常見的幾個開始試吧 爬蟲滿常遇到這些情況
07/01 23:29, 9F

07/01 23:29, 5年前 , 10F
不客氣~
07/01 23:29, 10F

07/01 23:31, 5年前 , 11F
其實沒有一定。通常都是用上述方法後一個個刪減到最少。
07/01 23:31, 11F

07/01 23:33, 5年前 , 12F
這都是爬多了就會知道了。懶得刪也ok。
07/01 23:33, 12F

07/01 23:33, 5年前 , 13F
A大 謝謝 試到最後 只留referer就好XD
07/01 23:33, 13F

07/01 23:36, 5年前 , 14F
^^great!我的理解是這完全取決於伺服器端怎麼做的。
07/01 23:36, 14F

07/01 23:39, 5年前 , 15F
我可以再問一個問題嗎 抓下來的資料看起來像json 讀取後
07/01 23:39, 15F

07/01 23:39, 5年前 , 16F
資料的部分變成字串 有什麼方式可以快速轉換為list嗎
07/01 23:39, 16F

07/01 23:47, 5年前 , 17F
可以用response.json()拿到python dict
07/01 23:47, 17F

07/01 23:51, 5年前 , 18F
用dev tool看到的key去抓字串,再用re去擷取
07/01 23:51, 18F

07/01 23:52, 5年前 , 19F
嗯。再import json;json.loads()
07/01 23:52, 19F

07/01 23:54, 5年前 , 20F

07/01 23:55, 5年前 , 21F
如上圖。K就變成list了
07/01 23:55, 21F

07/01 23:58, 5年前 , 22F

07/02 00:03, 5年前 , 23F
針對"[[a,1],[b,2]]"這種字串型態資料用json.loads() 就
07/02 00:03, 23F

07/02 00:03, 5年前 , 24F
可以轉成list 謝謝了
07/02 00:03, 24F

07/02 00:23, 5年前 , 25F
^^。順便也可以去參考skcom 0.9.4
07/02 00:23, 25F

07/02 00:23, 5年前 , 26F
嗯..最近好像到0.96了。
07/02 00:23, 26F
文章代碼(AID): #1U_A1z1W (Python)
文章代碼(AID): #1U_A1z1W (Python)