云自無心水自閑

          天平山上白云泉,云自無心水自閑。何必奔沖山下去,更添波浪向人間!
          posts - 288, comments - 524, trackbacks - 0, articles - 6
            BlogJava :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理

          從pdf文件中提取文本

          Posted on 2016-11-28 11:03 云自無心水自閑 閱讀(400) 評論(0)  編輯  收藏
          有好幾個java library都可以實現這個功能,但是從pdf提取文本的一個問題是,提取出來的文本沒有固定的順序,不容易比較好的還原其格式。

          我的做法是使用pdfclown來進行這項工作。官方網站是:https://pdfclown.org/ 先下載其最新版本。
          參考其示例代碼:https://pdfclown.org/2010/01/02/upcoming-0-0-8-whats-going-to-be-new/#more-30

          使用這段代碼,我們不僅可以得到文本的字符串,還能得到文本的頁數和相對坐標。
          我的思路是先把所有文本的字符串和坐標提取出來。然后排序,排序的順序是縱坐標,然后橫坐標。
          這樣排序完畢后,就能比較好的解決文本格式問題。


          只有注冊用戶登錄后才能發表評論。


          網站導航:
           
          主站蜘蛛池模板: 巴马| 林甸县| 体育| 睢宁县| 海宁市| 凌海市| 安福县| 富川| 固阳县| 宜州市| 沿河| 民权县| 沙河市| 望奎县| 翁源县| 大埔县| 贵德县| 扬中市| 顺义区| 邢台市| 苗栗市| 龙陵县| 文山县| 万山特区| 留坝县| 彭州市| 桑植县| 阿拉善右旗| 长阳| 黄梅县| 泸溪县| 军事| 遂溪县| 吴忠市| 岳西县| 濮阳县| 福泉市| 中阳县| 五大连池市| 哈尔滨市| 无为县|