隨筆-47  評(píng)論-14  文章-0  trackbacks-0
          java抽取word,pdf的四種武器



          很多人用java進(jìn)行文檔操作時(shí)經(jīng)常會(huì)遇到一個(gè)問(wèn)題,就是如何獲得word,excel,pdf等文檔的內(nèi)容?
          我研究了一下,在這里總結(jié)一下抽取word,pdf的幾種方法。
          1 .用jacob
          其實(shí)jacob是一個(gè)bridage,連接java和com或者win32函數(shù)的一個(gè)中間件,jacob并不能直接抽取word,
          excel等文件,需要自己寫(xiě)dll哦,不過(guò)已經(jīng)有為你寫(xiě)好的了,就是jacob的作者一并提供了。 

          jacob jar與dll文件下載:   }
           }
          }

           


          2. 用apache的poi來(lái)抽取word,excel。
          poi是apache的一個(gè)項(xiàng)目,不過(guò)就算用poi你可能都覺(jué)得很煩,不過(guò)不要緊,這里提供了更加簡(jiǎn)單的一個(gè)
          接口給你: 

          下載經(jīng)過(guò)封裝后的poi包: 
          }
          }

           


          3. pdfbox-用來(lái)抽取pdf文件
          但是pdfbox對(duì)中文支持還不好,先下載pdfbox: 
          System.out.println(ts);
          }
          catch(Exception e)
            {
            e.printStackTrace();
            }
          }

          }

           


          4. 抽取支持中文的pdf文件-xpdf
          xpdf是一個(gè)開(kāi)源項(xiàng)目,我們可以調(diào)用他的本地方法來(lái)實(shí)現(xiàn)抽取中文pdf文件。 

          下載xpdf函數(shù)包: 
          http://www.matrix.org.cn/down_view.asp?id=15 

          同時(shí)需要下載支持中文的補(bǔ)丁包:   }
          }
          主站蜘蛛池模板: 都安| 静安区| 阿拉善盟| 辰溪县| 长岛县| 墨玉县| 凤阳县| 桐梓县| 泸水县| 疏附县| 嘉峪关市| 关岭| 池州市| 静安区| 牙克石市| 稷山县| 同仁县| 来凤县| 高青县| 奉贤区| 洛浦县| 博爱县| 五原县| 泾川县| 乐陵市| 奎屯市| 贵州省| 满洲里市| 北碚区| 桐庐县| 仲巴县| 铜山县| 衡山县| 额敏县| 邹城市| 色达县| 若羌县| 鸡泽县| 伊宁市| 陵水| 留坝县|