[全省] [徵才]擷取網頁資料

看板Python作者 (昨夜風)時間16年前 (2009/11/05 12:42), 編輯推噓7(705)
留言12則, 9人參與, 最新討論串1/1
※ [本文轉錄自 part-time 看板] 作者: star2000 (昨夜風) 站內: part-time 標題: [全省] 擷取網頁資料 時間: Thu Nov 5 11:52:07 2009 ◎工作時間:(請註明,否則刪文警告!) →一周 ◎薪資:(請註明薪資,『面議』、薪水低於95/hr者刪文+水桶兩週)     (未保障底薪之工作將刪文) →請來信報價 ◎薪資發放日:(請註明薪資發放日,否則會刪文警告) 程式完成後全額撥放 ◎工作內容(請詳細填寫) →www.amazon.com和www.amazon.co.jp兩網頁資料擷取 需求如下: 需兩程式可將www.amazon.com及www.amazon.co.jp 上的category及其消費者評論內容結取下來存入資料庫 以美國amazon為例,選擇electronics後按go 最右手邊會有子項目的所有產品 GPS&Navigation有七千多筆資料,我需要此程式能把這七千多筆資料都抓取下來 所需要抓取的內容為price/list price/name/isbn or asin/in stock or not/ release date/total customer review/number of five star/ number of four star/number of three star/number of two star/ number of one star/sale rank1/sale rank category1/sale rank2/ sale rank category2/sale rank3/sale rank category GPS只是個例子,此程式應有能力抓取任何的category後存入資料庫或者csv檔案 以作為我統計軟體(sas)可分析的檔案 此程式須抓美國和日本的amazon,且抓取速度應快速。 我需要"每天"使用此程式抓取amazon商品期間的變化,此程式應穩定。 amazon網站是我的研究主題,此程式完成後,測試無誤穩定後,將於一周內 發包另一相關專案,接此專案者須有時間在一周內接下另一amazon網頁抓取的相關專案 ◎公司名稱: (必須填寫 未寫者將依版規刪除文章) →個人 人力公司代徵請寫人力公司名稱 補教/餐飲/其他等請寫需求店之全名 行銷公司請寫哪家行銷公司 工廠請寫哪家工廠 才藝教室也請寫哪家教室 注意:公司名稱沒寫出來 絕對會被刪文 到時候又必須重新發文一次 為了勞資方的方便 請依照規定填寫出來 ◎需求人數: →1 ◎條件[希望性別]:(有希望性別請適當說明原因) →不拘 依據就業服務法第5條與性別工作平等法第7條,雇主徵才時不得有性別歧視, 如工作性質特殊要限定性別,請有合理理由,且雇主必須自行負擔被申訴的風險。 ◎聯絡方式:(提供電話有限制連絡的時間 請另外註明) →請寄信說明將使用程式語言\報價\完工日至lin42@purdue.edu ◎其他:◎通知: 本職缺開放應徵至: (請填寫 沒有期限 或是 一個日期 ) 若在應徵期限前徵到人 將以下列何者通知:  1)徵到人在這篇標題註明(大寫T修改標題)  2)會一一回信給報名者通知是否應徵到 大寫T就是修改標題 請勿另外新起一篇說徵到人 大寫T就是修改標題 請勿另外新起一篇說徵到人 大寫T就是修改標題 請勿另外新起一篇說徵到人 (資方徵到人請改標題或是通知應徵者 多多體諒勞方等待心情) (另者 若有板友檢舉未通知 將依版規9進行水桶) -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 98.222.252.227 star2000:轉錄至看板 Programming 11/05 11:58 star2000:轉錄至看板 CodeJob 11/05 12:03 star2000:轉錄至看板 Soft_Job 11/05 12:15 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 98.222.252.227

11/05 17:10, , 1F
這樣抓應該會被Amazon擋下來吧 0rz
11/05 17:10, 1F

11/05 20:41, , 2F
有一個作法是偽裝成 browser 先把所有網頁存檔再另行 parse
11/05 20:41, 2F

11/05 22:06, , 3F
本校和amazon有合作,由本校出發的ip是可擷取網頁的
11/05 22:06, 3F

11/05 22:28, , 4F
台灣的線路連日本阿罵松頻寬有快到一天抓完全部嗎 @@?
11/05 22:28, 4F

11/05 22:29, , 5F
既然有合作的話 不然直接請阿罵松提供每日新增的評價吧
11/05 22:29, 5F

11/05 23:29, , 6F
應該這麼說,我當初的經驗是抓yahoo股市,結果被擋下來
11/05 23:29, 6F

11/05 23:29, , 7F
不曉得是程式太暴力還是抓的方法不對,即使有判斷robot.txt
11/05 23:29, 7F

11/06 02:02, , 8F
YAHOO 有人破過嗎? 我用Ruby 的也是會被擋...
11/06 02:02, 8F

11/06 08:08, , 9F
yahoo最近越來越嚴格了...
11/06 08:08, 9F

11/06 16:57, , 10F
yahoo有一些破解的方法,認真google一下會有solution的。
11/06 16:57, 10F

11/08 14:58, , 11F
應該有API可以套吧?
11/08 14:58, 11F

11/09 01:37, , 12F
error 999有破解的方法? 笑點是方法用google?
11/09 01:37, 12F
文章代碼(AID): #1AybUtlS (Python)
文章代碼(AID): #1AybUtlS (Python)