最近開發(fā)的一個通用網(wǎng)絡爬蟲平臺,主要是想滿足自己想從特定網(wǎng)站抓取大量內(nèi)容的需求,有如下特點:
1. 支持cookie/session,所以支持登錄論壇和網(wǎng)站
2. 支持圖像識別,可以由人工識別或者機器識別
3. 多線程下載,性能不錯
4. 支持代理
5. 支持HTTPS和證書驗證
6. 支持可插拔腳本,對特別網(wǎng)站使用特別的腳本(javascript編寫)。
7. 有Web界面,操作方便
項目位置:http://code.google.com/p/ssnaker/
下載:http://ssnaker.googlecode.com/files/snaker_1.00_b7.zip
最新的版本也實現(xiàn)一個火車票刷票的功能(具體實現(xiàn)都放在engines/train.js)
1. 支持cookie/session,所以支持登錄論壇和網(wǎng)站
2. 支持圖像識別,可以由人工識別或者機器識別
3. 多線程下載,性能不錯
4. 支持代理
5. 支持HTTPS和證書驗證
6. 支持可插拔腳本,對特別網(wǎng)站使用特別的腳本(javascript編寫)。
7. 有Web界面,操作方便
項目位置:http://code.google.com/p/ssnaker/
下載:http://ssnaker.googlecode.com/files/snaker_1.00_b7.zip
最新的版本也實現(xiàn)一個火車票刷票的功能(具體實現(xiàn)都放在engines/train.js)