云自無心水自閑

天平山上白云泉，云自無心水自閑。何必奔沖山下去，更添波浪向人間！

posts - 288, comments - 524, trackbacks - 0, articles - 6

從pdf文件中提取文本

Posted on 2016-11-28 11:03 云自無心水自閑閱讀(400) 評論(0) 編輯收藏

有好幾個java library都可以實現這個功能，但是從pdf提取文本的一個問題是，提取出來的文本沒有固定的順序，不容易比較好的還原其格式。

我的做法是使用pdfclown來進行這項工作。官方網站是：https://pdfclown.org/ 先下載其最新版本。
參考其示例代碼：https://pdfclown.org/2010/01/02/upcoming-0-0-8-whats-going-to-be-new/#more-30

使用這段代碼，我們不僅可以得到文本的字符串，還能得到文本的頁數和相對坐標。
我的思路是先把所有文本的字符串和坐標提取出來。然后排序，排序的順序是縱坐標，然后橫坐標。
這樣排序完畢后，就能比較好的解決文本格式問題。

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理

主站蜘蛛池模板：巴马| 林甸县| 体育| 睢宁县| 海宁市| 凌海市| 安福县| 富川| 固阳县| 宜州市| 沿河| 民权县| 沙河市| 望奎县| 翁源县| 大埔县| 贵德县| 扬中市| 顺义区| 邢台市| 苗栗市| 龙陵县| 文山县| 万山特区| 留坝县| 彭州市| 桑植县| 阿拉善右旗| 长阳| 黄梅县| 泸溪县| 军事| 遂溪县| 吴忠市| 岳西县| 濮阳县| 福泉市| 中阳县| 五大连池市| 哈尔滨市| 无为县|

云自無心水自閑

從pdf文件中提取文本

日歷

留言簿(3)

隨筆分類

隨筆檔案

最新隨筆

積分與排名

最新評論

閱讀排行榜

評論排行榜