云自無心水自閑

          天平山上白云泉,云自無心水自閑。何必奔沖山下去,更添波浪向人間!
          posts - 288, comments - 524, trackbacks - 0, articles - 6
            BlogJava :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理

          從pdf文件中提取文本

          Posted on 2016-11-28 11:03 云自無心水自閑 閱讀(400) 評論(0)  編輯  收藏
          有好幾個java library都可以實現這個功能,但是從pdf提取文本的一個問題是,提取出來的文本沒有固定的順序,不容易比較好的還原其格式。

          我的做法是使用pdfclown來進行這項工作。官方網站是:https://pdfclown.org/ 先下載其最新版本。
          參考其示例代碼:https://pdfclown.org/2010/01/02/upcoming-0-0-8-whats-going-to-be-new/#more-30

          使用這段代碼,我們不僅可以得到文本的字符串,還能得到文本的頁數和相對坐標。
          我的思路是先把所有文本的字符串和坐標提取出來。然后排序,排序的順序是縱坐標,然后橫坐標。
          這樣排序完畢后,就能比較好的解決文本格式問題。


          只有注冊用戶登錄后才能發表評論。


          網站導航:
           
          主站蜘蛛池模板: 青川县| 磴口县| 当阳市| 特克斯县| 南涧| 海丰县| 梁平县| 宿迁市| 台南县| 海城市| 福贡县| 平顺县| 呼玛县| 博野县| 雷州市| 潜江市| 衡东县| 兴仁县| 凤山市| 庆安县| 视频| 湖南省| 宁远县| 楚雄市| 南宁市| 钟祥市| 卢龙县| 临沭县| 温泉县| 应城市| 堆龙德庆县| 桐庐县| 尼勒克县| 招远市| 买车| 奉化市| 宜宾市| 鹿泉市| 怀化市| 贵港市| 资源县|