java抽取word,pdf的四種武器
很多人用java進(jìn)行文檔操作時(shí)經(jīng)常會(huì)遇到一個(gè)問(wèn)題,就是如何獲得word,excel,pdf等文檔的內(nèi)容?
我研究了一下,在這里總結(jié)一下抽取word,pdf的幾種方法。
1 .用jacob
其實(shí)jacob是一個(gè)bridage,連接java和com或者win32函數(shù)的一個(gè)中間件,jacob并不能直接抽取word,
excel等文件,需要自己寫(xiě)dll哦,不過(guò)已經(jīng)有為你寫(xiě)好的了,就是jacob的作者一并提供了。
jacob jar與dll文件下載: }
}
}
2. 用apache的poi來(lái)抽取word,excel。
poi是apache的一個(gè)項(xiàng)目,不過(guò)就算用poi你可能都覺(jué)得很煩,不過(guò)不要緊,這里提供了更加簡(jiǎn)單的一個(gè)
接口給你:
下載經(jīng)過(guò)封裝后的poi包: }
}
3. pdfbox-用來(lái)抽取pdf文件
但是pdfbox對(duì)中文支持還不好,先下載pdfbox: System.out.println(ts);
}
catch(Exception e)
{
e.printStackTrace();
}
}
}
4. 抽取支持中文的pdf文件-xpdf
xpdf是一個(gè)開(kāi)源項(xiàng)目,我們可以調(diào)用他的本地方法來(lái)實(shí)現(xiàn)抽取中文pdf文件。
下載xpdf函數(shù)包: http://www.matrix.org.cn/down_view.asp?id=15
同時(shí)需要下載支持中文的補(bǔ)丁包: }
}