Java學習

          java,spring,structs,hibernate,jsf,ireport,jfreechart,jasperreport,tomcat,jboss -----本博客已經搬家了,新的地址是 http://www.javaly.cn 如果有對文章有任何疑問或者有任何不懂的地方,歡迎到www.javaly.cn (Java樂園)指出,我會盡力幫助解決。一起進步

           

          用Java簡單的讀取pdf文件中的數據

          用Java簡單的讀取pdf文件中的數據:
          第一步:下載PDFBox-0.7.2.jar。提供一個下載地址:http://pdfhome.hope.com.cn/Resource.aspx?CID=63844604-5253-4ae1-b023-258c9e324061&RID=20cd8f94-1cee-40b6-a3df-0ef024f8e0d2解壓后,把lib文件下的PDFBox-0.7.2.jar,PDFBox-0.7.2-log4j.jar放到你classpath路徑下。(我把源碼以及jar包都放到下面的附件里,方面你的使用。)
          第二步:寫個簡單的讀取pdf文件的程序。(PdfReader.java)
          import java.io.File;
          import java.io.FileOutputStream;
          import java.io.OutputStreamWriter;
          import java.io.Writer;
          import java.net.MalformedURLException;
          import java.net.URL;
          import org.pdfbox.pdmodel.PDDocument;
          import org.pdfbox.util.PDFTextStripper;
          public class PdfReader {
          public void readFdf(String file) throws Exception {
             // 是否排序
             boolean sort = false;
             // pdf文件名
             String pdfFile = file;
             // 輸入文本文件名稱
             String textFile = null;
             // 編碼方式
             String encoding = "UTF-8";
             // 開始提取頁數
             int startPage = 1;
             // 結束提取頁數
             int endPage = Integer.MAX_VALUE;
             // 文件輸入流,生成文本文件
             Writer output = null;
             // 內存中存儲的PDF Document
             PDDocument document = null;
             try {
              try {
               // 首先當作一個URL來裝載文件,如果得到異常再從本地文件系統//去裝載文件
               URL url = new URL(pdfFile);
              //注意參數已不是以前版本中的URL.而是File。
              document = PDDocument.load(pdfFile);
               // 獲取PDF的文件名
               String fileName = url.getFile();
               // 以原來PDF的名稱來命名新產生的txt文件
               if (fileName.length() > 4) {
                File outputFile = new File(fileName.substring(0, fileName
                  .length() - 4)
                  + ".txt");
                textFile = outputFile.getName();
               }
              } catch (MalformedURLException e) {
               // 如果作為URL裝載得到異常則從文件系統裝載
             //注意參數已不是以前版本中的URL.而是File。
              document = PDDocument.load(pdfFile);
               if (pdfFile.length() > 4) {
                textFile = pdfFile.substring(0, pdfFile.length() - 4)
                  + ".txt";
               }
              }
              // 文件輸入流,寫入文件倒textFile
              output = new OutputStreamWriter(new FileOutputStream(textFile),
                encoding);
              // PDFTextStripper來提取文本
              PDFTextStripper stripper = null;
              stripper = new PDFTextStripper();
              // 設置是否排序
              stripper.setSortByPosition(sort);
              // 設置起始頁
              stripper.setStartPage(startPage);
              // 設置結束頁
              stripper.setEndPage(endPage);
              // 調用PDFTextStripper的writeText提取并輸出文本
              stripper.writeText(document, output);
             } finally {
              if (output != null) {
               // 關閉輸出流
               output.close();
              }
              if (document != null) {
               // 關閉PDF Document
               document.close();
              }
             }
          }
          /**
          * @param args
          */
          public static void main(String[] args) {
             // TODO Auto-generated method stub
             PdfReader pdfReader = new PdfReader();
             try {
              // 取得E盤下的SpringGuide.pdf的內容
              pdfReader.readFdf("E:\\SpringGuide.pdf");
             } catch (Exception e) {
              e.printStackTrace();
             }
          }
          }
              這樣就簡單的完成了從pdf中讀取數據了。在你的pdf文件所在的目錄下生成一個同名的txt文件。

          posted on 2009-06-11 15:31 找個美女做老婆 閱讀(2405) 評論(0)  編輯  收藏


          只有注冊用戶登錄后才能發表評論。


          網站導航:
           

          導航

          統計

          公告

          本blog已經搬到新家了, 新家:www.javaly.cn
           http://www.javaly.cn

          常用鏈接

          留言簿(6)

          隨筆檔案

          文章檔案

          搜索

          最新評論

          閱讀排行榜

          評論排行榜

          主站蜘蛛池模板: 清徐县| 高雄市| 阿坝县| 津南区| 仪征市| 侯马市| 巴楚县| 舞阳县| 高碑店市| 汕尾市| 体育| 高邮市| 阳新县| 连州市| 应城市| 沅陵县| 定结县| 玛沁县| 威信县| 嘉义县| 区。| 焉耆| 嘉义市| 荃湾区| 绿春县| 莱阳市| 万荣县| 河东区| 盐边县| 沈阳市| 伊宁县| 乐昌市| 广西| 绥宁县| 大城县| 从化市| 西和县| 荣成市| 彭阳县| 东乌| 木兰县|