讀PDF文件內容

          Posted on 2007-09-01 13:49 angel 閱讀(407) 評論(0)  編輯  收藏

          首先得下載xpdf-3.00pl3-win32.zip和xpdf-chinese-simplified.tar.gz二個包

          配置:
          1。xpdf-3.00pl3-win32.zip寫壓后改名為xpdf
          2。修改xpdfrc文件
                (1)在文件最下面加入
                  

           1#----- begin Chinese Simplified support package (2004-jul-27)
           2
           3cidToUnicode     Adobe-GB1  C:/xpdf/chinese-simplified/Adobe-GB1.cidToUnicode
           4
           5unicodeMap ISO-2022-CN     C:/PublicInstall/xpdf/chinese-simplified/ISO-2022-CN.unicodeMap
           6
           7unicodeMap EUC-CN       C:/xpdf/chinese-simplified/EUC-CN.unicodeMap
           8
           9unicodeMap GBK      C:/xpdf/chinese-simplified/GBK.unicodeMap
          10
          11cMapDir      Adobe-GB1  C:/xpdf/chinese-simplified/CMap
          12
          13toUnicodeDir                 C:/xpdf/chinese-simplified/CMap
          14
          15#displayCIDFontTT   Adobe-GB1  /usr/./gkai00mp.ttf
          16
          17#----- end Chinese Simplified support package


          (2)另外,配置文件中原先沒有加上一個“textPageBreaks”控制。為了避免這個分頁符號,我們需要在xpdfrc文件“text output control”下面加上這么一段話:

          # If set to "yes", text extraction will insert page

          # breaks (form feed characters) between pages. This

          # defaults to "yes".

          textPageBreaks      no

          設置textPageBreaksno的意思是:在PDF文檔的兩頁之間不加入分頁符號。

          之所以這樣,是因為這個符號有時候會引起SAX解析XML上的困難。


          讀PDF文件

          1String PATH_TO_XPDF="C:\\xpdf\\pdftotext.exe";
          2                 String[] cmd = new String[] { PATH_TO_XPDF, "-enc""UTF-8""-q", 文件路徑, "-"};
          3                  Process p = Runtime.getRuntime().exec(cmd);
          4                  BufferedInputStream iss = new BufferedInputStream(p.getInputStream());
          5                  str = new ReadFileUtil(comm).readPDF(iss);


           


          只有注冊用戶登錄后才能發表評論。


          網站導航:
           

          Copyright © angel

          主站蜘蛛池模板: 万盛区| 新晃| 永宁县| 监利县| 凤城市| 峨边| 新源县| 正安县| 泰宁县| 西宁市| 林西县| 永城市| 中江县| 泊头市| 高雄市| 安达市| 鄂伦春自治旗| 彭泽县| 沈丘县| 潢川县| 北宁市| 教育| 日喀则市| 黔西| 长沙市| 睢宁县| 文山县| 仙桃市| 四平市| 琼结县| 寿宁县| 玛沁县| 松原市| 忻城县| 吐鲁番市| 兴山县| 瑞丽市| 界首市| 保康县| 红河县| 福贡县|