環境:windows+cygwin(用于模擬unix系統)+nutch1.0
要用于生產環境。
當我抓取完網頁以后,啟動tomcat,輸入關鍵字搜索網頁后,那么我再次運行nutch抓取網頁的時候就會報錯!
當我把tomcat關閉以后抓取網頁就沒有任何問題。后來我仔細查了一下是因為tomcat啟動后占用了nutch的索引文件而沒有釋放資源造成的。 也就是說在tomcat啟動的時候,nutch是不能抓取網站合并索引的。
在生產環境下,要求每一個小時就要增量抓取一次,我總不能把tomcat關了吧。
請回到我的郵箱里吧:xieyunchaobest@gmail.com
在生產環境下,這個問題應該怎么解決呢?
環境:windows+cygwin(用于模擬unix系統)+nutch1.0
要用于生產環境。
當我抓取完網頁以后,啟動tomcat,輸入關鍵字搜索網頁后,那么我再次運行nutch抓取網頁的時候就會報錯!
當我把tomcat關閉以后抓取網頁就沒有任何問題。后來我仔細查了一下是因為tomcat啟動后占用了nutch的索引文件而沒有釋放資源造成的。 也就是說在tomcat啟動的時候,nutch是不能抓取網站合并索引的。
在生產環境下,要求每一個小時就要增量抓取一次,我總不能把tomcat關了吧。
在生產環境下,這個問題應該怎么解決呢?