Re: [閒聊] php-gd 與 台鐵數字 ocr
※ 引述《shadowjohn (3WA問題解決專家)》之銘言:
: 圖片其實滿小的,大概10x10甚至不到這麼大張
: 所以8x8將會記下大概這些資訊
: id num codes...
: 1 7 11111100 10111100 10111100 10111000 10100100 10011...
: 2 2 11111100 10111000 10110000 10001000 10001000 00000...
: 3 8 11111100 10010000 10001100 11101100 11000000 10011...
: 4 6 11111100 11000000 11000000 10111100 11100000 11100...
: 5 2 11111100 10111100 10111000 10110000 10001000 10001...
: 6 7 11111100 11001000 10000000 10111100 11111000 10000...
: 7 4 11111111 11111011 11110011 10000001 10000000 11111...
: 8 4 11111100 11110100 11110100 10000000 10000000 11110...
: 9 3 11111110 11111010 10111010 10101110 10000010 10000...
: 10 1 11111100 10111100 10000000 10000000 11111100 00000...
: 於是我開始利用網頁建檔,重新整理﹑建檔
: 建到目前大概200多筆左右,我得到了70%~85% 的辨識成功率
: select distinct num,count(*) from ocr group by num order by num asc
: num count(*)
: 0 28
: 1 17
: 2 28
: 3 20
: 4 24
: 5 33
: 6 30
: 7 28
: 8 25
: 9 22
: 平均每個字大概建檔 20~30次左右不等
: 總而言之,也算是小小的成功
: 範例的程式是小弟用 php-gd 實作
: 因小弟才疏學淺,若有前輩對於影像處理這些有心得方向,希望能多方研究討論
推文太難用了..
我指的是如果不懂font字型格式..
可以先從產生字型圖片開始...如產生0-9 和你相對應圖片作像素比較..
或是你有提到該原素前後左右觀念的比較也列入元素..
看相似率是否很高...
當然如果挑選的字型和該圖片的字型是一樣的..在相同圖片大小下
相似度應該很高才對
就算不同字型..在圖片縮放到一樣...型的元素還是在的(比較算法)
或許可以參考一下 Microsoft Office Document Imaging 直接使用牠
或是去看牠提供的方法..這樣也不難推理出牠的實作原理..
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 114.26.17.87
推
07/16 10:04, , 1F
07/16 10:04, 1F
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 3 之 3 篇):
PHP 近期熱門文章
PTT數位生活區 即時熱門文章