[問題] 爬蟲遇到不預期的錯誤

看板Python作者 ( )時間8年前 (2017/04/13 10:55), 8年前編輯推噓1(106)
留言7則, 4人參與, 最新討論串1/1
我大多是在爬很多店家的店名、地址、電話這三樣東西 (如果有經緯度最好,不然我還得靠地址去轉換) 但很常遇到地址很莫名其妙的..... 例如:台中市豐原市XX路XX號 因為我需要從地址去萃取出行政區,卻遇到這種鳥地址 雖然是少數...但狀況百百種 或是 台中市豐原區42060XX路XX號 =>硬是突然中間出現一個郵遞區號 不然就乾脆 連行政區直接整個不見..... 各位大大是如何處理的?當成個案,在code裡面處理掉? 有人遇過更莫名其妙的狀況嗎? ------------------------------ 更新: 剛剛遇到的新問題 http://imgur.com/a/0qheG 都撈到完整的json資料,也給了座標 卻突然出現另一種座標格式.........在塞資料庫時,剛好眼睛瞄到.... 是有沒有那麼雞婆,還幫忙轉換座標格式 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 106.105.74.70 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1492052105.A.462.html

04/13 11:14, , 1F
這要完美處理只能做 lexical analysis, 通俗講就是做個
04/13 11:14, 1F

04/13 11:14, , 2F
compiler (的語法樹部分), 有興趣可以研究 compiler 是
04/13 11:14, 2F

04/13 11:15, , 3F
怎麼寫的, 但如果不是什麼大專案這有點太搞剛 XD
04/13 11:15, 3F

04/13 11:54, , 4F
地址這種有特定關鍵字的 建議不要把順序寫死
04/13 11:54, 4F

04/13 12:25, , 5F
簡單做法就是 PCFG,
04/13 12:25, 5F
※ 編輯: coeric (101.12.23.147), 04/13/2017 14:48:02

04/14 00:08, , 6F
你先把能處理、不能處理的 case 分離出來,再去不能分離
04/14 00:08, 6F

04/14 00:09, , 7F
的 case 裡面找共通,反正清理資料都嘛是這樣
04/14 00:09, 7F
文章代碼(AID): #1OxkY9HY (Python)
文章代碼(AID): #1OxkY9HY (Python)