[問題] PDF的格式比對

看板Programming作者 (uioty)時間9年前 (2015/12/10 15:36), 編輯推噓1(100)
留言1則, 1人參與, 最新討論串1/1
各位好, 關於PDF格式比對的問題是這樣的: 假設系統要求PDF文件檔案的格式如下: 邊界設定N inch 字體需為 a, b, c 三種其中一種 字體大小介於10-12pt之間 頁數用阿拉伯數字編排 等等 然後這個系統可以上傳PDF,回傳此份PDF是否符合格式 更進一步的可以說明格式哪裡不符 我自己的想法有兩個 一個是轉成word,然後去抓word檔案的metadata來比對 可是轉成word似乎會有格式跑掉的風險 假設PDF中有表格或者圖片 轉換格式容易跑掉,這樣處理邊界問題可能就會有誤 不過轉成word的話 我覺得至少可以解決字體、字體大小以及頁數是否用阿拉伯數字編排的問題 另個想法是用影像處理的想法去做 所以需要先有一個標準的sample檔案 然後把pdf轉成圖檔以後用圖像的方式比對 我覺得這應該可以解決邊界及字體大小的問題 不曉得有沒有其他的方法或者想法呢? 謝謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 97.93.122.75 ※ 文章網址: https://www.ptt.cc/bbs/Programming/M.1449732983.A.333.html

12/10 21:44, , 1F
找可以直接解析PDF的lib吧?iText之類的
12/10 21:44, 1F
文章代碼(AID): #1MQIjtCp (Programming)
文章代碼(AID): #1MQIjtCp (Programming)