[問題] 用 selenium 搶票

看板Python作者 (yuan)時間7年前 (2017/11/08 10:39), 編輯推噓41(421155)
留言198則, 17人參與, 7年前最新討論串1/1
各位大神好 新手如我最近用selenium寫了一個自動輸入個人資料的小爬蟲,只有驗證碼部分是手動輸 入,輸入完驗證碼之後就會自動跑完剩下的流程並完成訂票,code部分只有.get , find_ element , send_key跟click 之前有聽說,只要驗證碼是手動輸入就沒有違法問題,想確認這樣是否真的沒問題,感謝 各位 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.136.175.54 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1510108792.A.296.html

11/08 10:45, 7年前 , 1F
這事情我也幹過XD 後來發現人多網站都會掛就懶得用了
11/08 10:45, 1F

11/08 10:46, 7年前 , 2F
應該是沒有違法 除非破解驗證碼
11/08 10:46, 2F

11/08 11:05, 7年前 , 3F
搶票 就是要做驗證碼識別 不過通常網站掛掉比較無解
11/08 11:05, 3F

11/08 11:20, 7年前 , 4F
我之前有去pttlifelaw板問過了 你可以爬文看看
11/08 11:20, 4F

11/08 12:29, 7年前 , 5F
驗證碼識別蠻簡單的,我有做一個
11/08 12:29, 5F

11/08 13:15, 7年前 , 6F
之前有看過vi大的討論串,那位回文的大大好像認定這樣是
11/08 13:15, 6F

11/08 13:15, 7年前 , 7F
違法
11/08 13:15, 7F

11/08 16:41, 7年前 , 8F
搶票的 bottleneck 從來都不是輸入資料的手速啊...
11/08 16:41, 8F

11/08 16:58, 7年前 , 9F
樓上那句是什麼意思呀
11/08 16:58, 9F

11/08 16:58, 7年前 , 10F
我查翻譯是 瓶頸 的意思耶(?)
11/08 16:58, 10F

11/08 19:56, 7年前 , 11F
意思就是問題一直都不是在輸入資料的速度R
11/08 19:56, 11F

11/08 20:22, 7年前 , 12F
但是開多線程可以賭賭看 一定比手動搶到的機會大
11/08 20:22, 12F

11/08 22:16, 7年前 , 13F
驗證碼識別是用pytesser做的? 有點興趣
11/08 22:16, 13F

11/08 22:34, 7年前 , 14F
人家網站塞爆你輸入多快也沒用
11/08 22:34, 14F

11/08 22:34, 7年前 , 15F
但是如果你用多開 這就有問題了
11/08 22:34, 15F

11/09 02:22, 7年前 , 16F
感謝各位大大的回覆,我知道這種程度沒辦法搶演唱會等
11/09 02:22, 16F

11/09 02:22, 7年前 , 17F
級的票。能幫家人搶到高鐵票就夠了,我只是想確認搶個2~
11/09 02:22, 17F

11/09 02:22, 7年前 , 18F
3張會不會出事
11/09 02:22, 18F

11/09 06:54, 7年前 , 19F
高鐵票需要搶嗎QQ
11/09 06:54, 19F

11/09 08:58, 7年前 , 20F
要啊QQ 學生票星期六早上本來還有7折時段,現在幾乎沒
11/09 08:58, 20F

11/09 08:58, 7年前 , 21F
了QQ。上禮拜買早鳥 一張打折票都搶不到
11/09 08:58, 21F

11/09 10:04, 7年前 , 22F
驗證碼,自己做一個CNN就好了,麻煩的是,驗證碼是JS,
11/09 10:04, 22F

11/09 10:04, 7年前 , 23F
直接抓會一直變,我是用selenium截圖後,再去處理
11/09 10:04, 23F

11/09 10:05, 7年前 , 24F
另外我是手動做train data,目前1萬張
11/09 10:05, 24F

11/09 12:16, 7年前 , 25F
這樣標解答好累R
11/09 12:16, 25F

11/09 13:39, 7年前 , 26F
很累啊,我也試過一大堆方法,都有現成套件,但都有些
11/09 13:39, 26F

11/09 13:39, 7年前 , 27F
缺陷,結果都不好,demo時都很猛,實際上不見得好
11/09 13:39, 27F

11/09 13:41, 7年前 , 28F
標解答,也可以寫成程式,盡量提高速度啦,我一開始一
11/09 13:41, 28F

11/09 13:41, 7年前 , 29F
天就可以1萬張,5個驗證碼大約90%正確率,剩下就可以利
11/09 13:41, 29F

11/09 13:41, 7年前 , 30F
用台鐵驗證碼系統,幫我上label啦
11/09 13:41, 30F

11/09 13:45, 7年前 , 31F
簡單講,對或錯台鐵會幫我判定,對的就存label,這樣就
11/09 13:45, 31F

11/09 13:45, 7年前 , 32F
變成自動上label啦,data會越來越多,有點類似reinforc
11/09 13:45, 32F

11/09 13:45, 7年前 , 33F
ement learning,當然這很像ddos攻擊,是不太好啦
11/09 13:45, 33F

11/09 15:54, 7年前 , 34F
哇感謝f大開示!這種gen資料的方式太聰明了啦
11/09 15:54, 34F

11/09 16:19, 7年前 , 35F
喔喔這蠻聰明的@@ 反正不用把正確率提到最高 自動化
11/09 16:19, 35F

11/09 16:19, 7年前 , 36F
比較重要
11/09 16:19, 36F

11/09 16:23, 7年前 , 37F
之後你data越多,基本上準確率越高
11/09 16:23, 37F

11/09 18:52, 7年前 , 38F
不過data越多 如果錯的testing沒有標解答進去的話
11/09 18:52, 38F

11/09 18:52, 7年前 , 39F
照理說之後看到一樣的驗證碼還是會認錯 因為還是沒學
11/09 18:52, 39F
還有 119 則推文
11/14 00:01, 7年前 , 159F
我是把標示都直接標在圖檔檔名,所以不能用 * 代表
11/14 00:01, 159F

11/14 00:02, 7年前 , 160F
可以選擇用 - 或 _ 代表空白
11/14 00:02, 160F

11/14 00:10, 7年前 , 161F
推文推的有點亂 忽略我第三行推文。總結就是用最大可
11/14 00:10, 161F

11/14 00:11, 7年前 , 162F
能的碼數當作輸出層的輸出,訓練組標示 四個字的用
11/14 00:11, 162F

11/14 00:12, 7年前 , 163F
ABCD-- 五個字的 XQYZE- 六個字的 QWERTY
11/14 00:12, 163F

11/14 01:00, 7年前 , 164F
你的字元集Aa..Zz 0..9 之外再加上一個空白字元"-"
11/14 01:00, 164F

11/14 09:29, 7年前 , 165F
不切割的話一個class就對應到一個結果,000000~999
11/14 09:29, 165F

11/14 09:29, 7年前 , 166F
999不就多到爆炸?我以為CNN只能用在分類問題
11/14 09:29, 166F

11/14 09:51, 7年前 , 167F
我只能說你解captcha的模型有問題 隨你要怎麼做就怎
11/14 09:51, 167F

11/14 09:52, 7年前 , 168F
麼做 建出的模型是要解決問題的 你想了一個解決不了
11/14 09:52, 168F

11/14 09:52, 7年前 , 169F
問題的模型 我也管不著
11/14 09:52, 169F

11/14 09:54, 7年前 , 170F
你可以繼續困在你解決不了問題的思維裡 請便
11/14 09:54, 170F

11/14 09:56, 7年前 , 171F
你不會做不切割不代表別人不會做 這種辨識碼CNN出來
11/14 09:56, 171F

11/14 09:57, 7年前 , 172F
之後基本上根本可以廢了 根本完全被破解了
11/14 09:57, 172F

11/14 10:02, 7年前 , 173F
不然你以為為何google要重搞 reCAPTCHA?
11/14 10:02, 173F

11/14 10:03, 7年前 , 174F
你已經落後三四年了
11/14 10:03, 174F

11/14 10:10, 7年前 , 175F
一個class對應一個字元 你是有幾個字元阿?
11/14 10:10, 175F

11/14 10:20, 7年前 , 176F
你的問題是你不會設計輸出層 就這樣而已
11/14 10:20, 176F

11/14 10:44, 7年前 , 177F
要教NN舉一反三很難 教人也是
11/14 10:44, 177F

11/14 10:49, 7年前 , 178F
網路上的例子都只開一條馬路 不能自己開六條馬路嗎?
11/14 10:49, 178F

11/14 10:50, 7年前 , 179F
"multiplexing" ...
11/14 10:50, 179F

11/14 14:20, 7年前 , 180F
大大別這麼凶,我畢竟初學,好奇問個問題而已
11/14 14:20, 180F

11/15 11:18, 7年前 , 181F
alan大別灰心 我查到一個不用切字的做法
11/15 11:18, 181F

11/15 11:18, 7年前 , 182F

11/15 11:18, 7年前 , 183F
我一開始也和你想的一樣,使用簡單的分類法,類別會很多
11/15 11:18, 183F

11/15 11:19, 7年前 , 184F
但其實可以轉為multi-label的形式,詳細方法就看code吧
11/15 11:19, 184F

11/15 13:36, 7年前 , 185F
這串討論蠻不錯的,講了很多重點,感謝上面的大大
11/15 13:36, 185F

11/16 08:54, 7年前 , 186F
雖然還是沒得到明確答案,不過樓歪得很好XD感謝大大們
11/16 08:54, 186F

11/16 08:54, 7年前 , 187F
的分享
11/16 08:54, 187F

11/16 21:40, 7年前 , 188F
笑死 某B不懂裝懂 把一堆cnn的缺點講成優點 你知道新
11/16 21:40, 188F

11/16 21:40, 7年前 , 189F
的架構capsule為何出來嗎 呵呵
11/16 21:40, 189F

11/19 02:00, 7年前 , 190F
如果不切 輸出層我猜有兩種 一個是把label編碼以後回歸
11/19 02:00, 190F

11/19 02:02, 7年前 , 191F
這樣子是6個輸出 或者是onehot 這樣是6*26*11(0-9 + *)
11/19 02:02, 191F

11/19 02:03, 7年前 , 192F
切割也沒什麼錯 這樣的話一個nn就可以任意複用
11/19 02:03, 192F

11/19 02:21, 7年前 , 193F
腦袋不清楚 6*37(a-z 0-9 *)才對
11/19 02:21, 193F

11/19 02:23, 7年前 , 194F
當然我會傾向CNN-RNN這種架構 感覺比較有道理
11/19 02:23, 194F

11/20 13:33, 7年前 , 195F
推樓上,理論上CNN-RNN是通解,但我好奇這種架構是不是
11/20 13:33, 195F

11/20 13:33, 7年前 , 196F
需要更多training data呢XD
11/20 13:33, 196F

11/24 21:45, 7年前 , 197F
如果直接一起訓練應該要吧?
11/24 21:45, 197F

11/28 21:19, 7年前 , 198F
切割有缺點,切的不好會影響結果,error會累加上去
11/28 21:19, 198F
文章代碼(AID): #1Q0cvuAM (Python)
文章代碼(AID): #1Q0cvuAM (Python)