云自無心水自閑

天平山上白云泉，云自無心水自閑。何必奔沖山下去，更添波浪向人間！

posts - 288, comments - 524, trackbacks - 0, articles - 6

BlogJava :: 首頁 :: 新隨筆 :: 聯系 :: 聚合

:: 管理

從pdf文件中提取文本

Posted on 2016-11-28 11:03 云自無心水自閑閱讀(400) 評論(0) 編輯收藏

有好幾個java library都可以實現這個功能，但是從pdf提取文本的一個問題是，提取出來的文本沒有固定的順序，不容易比較好的還原其格式。

我的做法是使用pdfclown來進行這項工作。官方網站是：https://pdfclown.org/ 先下載其最新版本。
參考其示例代碼：https://pdfclown.org/2010/01/02/upcoming-0-0-8-whats-going-to-be-new/#more-30

使用這段代碼，我們不僅可以得到文本的字符串，還能得到文本的頁數和相對坐標。
我的思路是先把所有文本的字符串和坐標提取出來。然后排序，排序的順序是縱坐標，然后橫坐標。
這樣排序完畢后，就能比較好的解決文本格式問題。