讀PDF文件內(nèi)容

          Posted on 2007-09-01 13:49 angel 閱讀(409) 評(píng)論(0)  編輯  收藏

          首先得下載xpdf-3.00pl3-win32.zip和xpdf-chinese-simplified.tar.gz二個(gè)包

          配置:
          1。xpdf-3.00pl3-win32.zip寫(xiě)壓后改名為xpdf
          2。修改xpdfrc文件
                (1)在文件最下面加入
                  

           1#----- begin Chinese Simplified support package (2004-jul-27)
           2
           3cidToUnicode     Adobe-GB1  C:/xpdf/chinese-simplified/Adobe-GB1.cidToUnicode
           4
           5unicodeMap ISO-2022-CN     C:/PublicInstall/xpdf/chinese-simplified/ISO-2022-CN.unicodeMap
           6
           7unicodeMap EUC-CN       C:/xpdf/chinese-simplified/EUC-CN.unicodeMap
           8
           9unicodeMap GBK      C:/xpdf/chinese-simplified/GBK.unicodeMap
          10
          11cMapDir      Adobe-GB1  C:/xpdf/chinese-simplified/CMap
          12
          13toUnicodeDir                 C:/xpdf/chinese-simplified/CMap
          14
          15#displayCIDFontTT   Adobe-GB1  /usr/./gkai00mp.ttf
          16
          17#----- end Chinese Simplified support package


          (2)另外,配置文件中原先沒(méi)有加上一個(gè)“textPageBreaks”控制。為了避免這個(gè)分頁(yè)符號(hào),我們需要在xpdfrc文件“text output control”下面加上這么一段話:

          # If set to "yes", text extraction will insert page

          # breaks (form feed characters) between pages. This

          # defaults to "yes".

          textPageBreaks      no

          設(shè)置textPageBreaksno的意思是:在PDF文檔的兩頁(yè)之間不加入分頁(yè)符號(hào)。

          之所以這樣,是因?yàn)檫@個(gè)符號(hào)有時(shí)候會(huì)引起SAX解析XML上的困難。


          讀PDF文件

          1String PATH_TO_XPDF="C:\\xpdf\\pdftotext.exe";
          2                 String[] cmd = new String[] { PATH_TO_XPDF, "-enc""UTF-8""-q", 文件路徑, "-"};
          3                  Process p = Runtime.getRuntime().exec(cmd);
          4                  BufferedInputStream iss = new BufferedInputStream(p.getInputStream());
          5                  str = new ReadFileUtil(comm).readPDF(iss);


           


          只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。


          網(wǎng)站導(dǎo)航:
           

          Copyright © angel

          主站蜘蛛池模板: 广昌县| 招远市| 宜春市| 玛多县| 东兰县| 怀化市| 图木舒克市| 定远县| 广西| 屏南县| 永顺县| 都兰县| 特克斯县| 浙江省| 莱西市| 敦煌市| 车致| 永仁县| 伊宁县| 文山县| 八宿县| 那坡县| 华容县| 中江县| 宜都市| 江陵县| 秦皇岛市| 博乐市| 青神县| 通化县| 金昌市| 平湖市| 花莲县| 蕲春县| 康平县| 罗山县| 天峻县| 房产| 射阳县| 百色市| 长白|