[問題] jsoup有辦法讓所有網站的模擬人的行為嗎

看板java作者 (tnsshnews)時間10年前 (2015/07/10 18:53), 10年前編輯推噓1(1010)
留言11則, 2人參與, 最新討論串1/1
Dear all, 標題或許下的有點不好, 小弟想釐清一些觀念, 1. 所有的網站都是get/port的傳遞方式? 2. 是不是所有的網站都可以寫程式模擬人的行為自動取得資料? 3. 像google translation的網站, 利用chrome的Inspector去看request packet, 似乎找不到明確的傳遞封包, 而看原始碼更是可怕的一堆亂碼, 不知這又是什麼設計呢? 謝謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.127.173.173 ※ 文章網址: https://www.ptt.cc/bbs/java/M.1436525612.A.680.html ※ 編輯: tnsshnews (59.127.173.173), 07/10/2015 18:54:59

07/10 19:16, , 1F
1. 主要是GET/POST (not port)沒錯(HTTP還有其他method)
07/10 19:16, 1F

07/10 19:17, , 2F
2. 理論上是(但實務上的前提是人已經先清楚所有GET/POST
07/10 19:17, 2F

07/10 19:18, , 3F
的互動內容並能正確合成request
07/10 19:18, 3F

07/10 19:19, , 4F
有些問captcha的情況,要全自動甚至需要文字辨識的介入
07/10 19:19, 4F

07/10 19:19, , 5F
^若
07/10 19:19, 5F

07/10 19:20, , 6F
所以你會發現,目前主流就是以captcha來假定client是個人
07/10 19:20, 6F
※ 編輯: tnsshnews (59.127.173.173), 07/10/2015 20:12:39

07/11 12:00, , 7F
用firefox的[網頁開發者]看,它仍是用GET,google一般各項
07/11 12:00, 7F

07/11 12:01, , 8F
服務都有相關api,去找看看有沒有translate的api
07/11 12:01, 8F

07/11 12:02, , 9F
google的ajax code多半為工具編譯產生(如gwt),看起來像亂
07/11 12:02, 9F

07/11 12:02, , 10F
碼是很正常的
07/11 12:02, 10F

07/12 20:34, , 11F
簡單來說 看目標而定 不一定
07/12 20:34, 11F
文章代碼(AID): #1LdwGiQ0 (java)
文章代碼(AID): #1LdwGiQ0 (java)