隨筆-26  評(píng)論-111  文章-19  trackbacks-0
          ????
          ?????????? 最近因?yàn)楣ぷ魈Φ脑颍恢睕](méi)有時(shí)間來(lái)更新,現(xiàn)在放出2.1的版本(包含最新的源代碼)。

          ??????? 下載地址:
          ?????????????????????????snoics-reptile2.1.part1.rar
          ?????????????????????????snoics-reptile2.1.part2.rar
          ?????????????????????????snoics-reptile2.1.part3.rar
          ?????????????????????????snoics-reptile2.1.part4.rar

          ????????? (大家有什么意見(jiàn)可以在這里提出,只要有時(shí)間,我會(huì)盡量更新,有什么建議可以在blog里面提出,或者加我的MSN一起討論。? ^_^ )

          版本歷史

          2.1:

          1、不用再配置snoics-configpath.xml中的路徑。
          2、定時(shí)自動(dòng)保存Cache
          3、修改了一些Bug
          2.0:

          核心代碼全部重寫,增加了擴(kuò)展性,通過(guò)擴(kuò)展之后,基本上能實(shí)現(xiàn)對(duì)整個(gè)網(wǎng)站完整的解析

          1.0:

          實(shí)現(xiàn)了整站抓取的基本的功能,不能解析特殊的URL,對(duì)javascript無(wú)法辨認(rèn)
          posted on 2006-10-27 21:05 snoics 閱讀(4837) 評(píng)論(21)  編輯  收藏

          評(píng)論:
          # re: snoics-reptile 網(wǎng)頁(yè)爬蟲(chóng)2.1 (2006-10-27日更新) 2006-10-27 22:35 | weidagang2046
          有沒(méi)有文檔之類的?  回復(fù)  更多評(píng)論
            
          # re: snoics-reptile 網(wǎng)頁(yè)爬蟲(chóng)2.1 (2006-10-27日更新) 2006-10-31 15:59 | 捕風(fēng)
          只能抓起靜態(tài)頁(yè)面嗎?
          存不存在防火墻穿越不了的問(wèn)題?  回復(fù)  更多評(píng)論
            
          # re: snoics-reptile 網(wǎng)頁(yè)爬蟲(chóng)2.1 (2006-10-27日更新) 2006-12-14 13:47 | 葉建輝
          snoics.jar 的原代碼好象沒(méi)有?yejianhui425@126.com

          yejianhui423@hotmail.com 您的MSN是多少?  回復(fù)  更多評(píng)論
            
          # re: snoics-reptile 網(wǎng)頁(yè)爬蟲(chóng)2.1 (2006-10-27日更新) 2007-04-21 18:56 | zx
          好像缺少com.snoics.base和com.snoics.useclass的代碼  回復(fù)  更多評(píng)論
            
          # re: snoics-reptile 網(wǎng)頁(yè)爬蟲(chóng)2.1 (2006-10-27日更新) 2007-05-09 14:45 | 游客
          局域網(wǎng)內(nèi)可以使用嗎?
          支持NTLM域認(rèn)證嗎?  回復(fù)  更多評(píng)論
            
          # re: snoics-reptile 網(wǎng)頁(yè)爬蟲(chóng)2.1 (2006-10-27日更新) 2007-06-14 09:51 | 雨夜
          不行哦,怎么還是報(bào)MAIN的意外錯(cuò)誤,請(qǐng)麻煩給解釋下,問(wèn)題出在哪,RUN.BAT文件也沒(méi)有JAR名字的錯(cuò)誤哦,謝謝!  回復(fù)  更多評(píng)論
            
          # re: snoics-reptile 網(wǎng)頁(yè)爬蟲(chóng)2.1 (2006-10-27日更新) 2007-07-12 21:10 | 楊鑄
          最新版本怎么使用他啊,謝謝,
          需要注意那些問(wèn)題!  回復(fù)  更多評(píng)論
            
          # re: snoics-reptile 網(wǎng)頁(yè)爬蟲(chóng)2.1 (2006-10-27日更新) 2007-08-01 23:30 | ava
          # re: snoics-reptile 網(wǎng)頁(yè)爬蟲(chóng)2.1 (2006-10-27日更新) 2008-01-25 09:51 | xiao
          還有沒(méi)有最新版本.老大,能加msn嗎.xrb2008@hotmail.com  回復(fù)  更多評(píng)論
            
          # re: snoics-reptile 網(wǎng)頁(yè)爬蟲(chóng)2.1 (2006-10-27日更新) 2008-03-26 15:27 | 動(dòng)
          能指導(dǎo)一下這東西怎么用嘛  回復(fù)  更多評(píng)論
            
          # re: snoics-reptile 網(wǎng)頁(yè)爬蟲(chóng)2.1 (2006-10-27日更新) 2008-07-07 13:27 | xmf
          能不能出份教程啊。要不你的搞得這個(gè)也浪費(fèi)了,好多人想用都不會(huì)用。  回復(fù)  更多評(píng)論
            
          # re: snoics-reptile 網(wǎng)頁(yè)爬蟲(chóng)2.1 (2006-10-27日更新)[未登錄](méi) 2008-07-27 12:44 | 菜鳥(niǎo)
          還行,就是效率太低,可以考慮優(yōu)化下算法。沒(méi)看樓主的底層代碼,不過(guò)通過(guò)抓到的結(jié)果可以看出,文件的抓取完全是靠鏈接來(lái)抓取的,個(gè)人認(rèn)為可以通過(guò)文件夾抓取,也就是說(shuō)進(jìn)入一個(gè)鏈接時(shí),獲得頂層文件夾,通過(guò)遞歸把該鏈接各層文件夾的文件全部抓取出來(lái),一個(gè)網(wǎng)站也就幾分鐘就搞定了,而我今天花了一上午都還在抓  回復(fù)  更多評(píng)論
            
          # re: snoics-reptile 網(wǎng)頁(yè)爬蟲(chóng)2.1 (2006-10-27日更新)[未登錄](méi) 2008-09-10 17:55 |
          請(qǐng)問(wèn)一下樓主的Spider中對(duì)js的處理中是哪些代碼啊?
            回復(fù)  更多評(píng)論
            
          # re: snoics-reptile 網(wǎng)頁(yè)爬蟲(chóng)2.1 (2006-10-27日更新) 2008-11-12 11:09 | softwater
          很感謝你的這套源碼,在與之類似的一些二次開(kāi)發(fā)中,我借鑒了很多有用的東西,樓主的MSN是多少?有機(jī)會(huì)我想請(qǐng)教一些問(wèn)題,另外可否提供Snoics.jar的原代碼?謝謝  回復(fù)  更多評(píng)論
            
          # re: snoics-reptile 網(wǎng)頁(yè)爬蟲(chóng)2.1 (2006-10-27日更新)[未登錄](méi) 2008-12-17 13:05 | Joe
          試了一下,果然可以了,多謝分享  回復(fù)  更多評(píng)論
            
          # re: snoics-reptile 網(wǎng)頁(yè)爬蟲(chóng)2.1 (2006-10-27日更新) 2009-05-13 15:22 | dadbxh365
          不會(huì)用  回復(fù)  更多評(píng)論
            
          # re: snoics-reptile 網(wǎng)頁(yè)爬蟲(chóng)2.1 (2006-10-27日更新) 2009-12-23 13:53 | xiaodao
          請(qǐng)問(wèn)如果要連續(xù)抓取多個(gè)站點(diǎn)的頁(yè)面,怎么實(shí)現(xiàn)呢?  回復(fù)  更多評(píng)論
            
          # re: snoics-reptile 網(wǎng)頁(yè)爬蟲(chóng)2.1 (2006-10-27日更新)[未登錄](méi) 2012-04-17 09:19 | Sun
          我怎么運(yùn)行不了?怎么配置呢,謝謝~~@Joe
            回復(fù)  更多評(píng)論
            
          # re: snoics-reptile 網(wǎng)頁(yè)爬蟲(chóng)2.1 (2006-10-27日更新)[未登錄](méi) 2012-04-17 09:52 | Sun
          麻煩可以幫我看一下這是什么問(wèn)題嗎?
          Snoics Config Base Path :D:/Workspaces/MyEclipse 8.5/Sun/bin/
          Snoics spaceChar :\+
          Snoics Config Full Path :D:/Workspaces/MyEclipse 8.5/Sun/conf/
          java.net.MalformedURLException: unknown protocol: d
          at java.net.URL.<init>(URL.java:574)
          at java.net.URL.<init>(URL.java:464)
          at java.net.URL.<init>(URL.java:413)
          at com.sun.org.apache.xerces.internal.impl.XMLEntityManager.setupCurrentEntity(XMLEntityManager.java:650)
          at com.sun.org.apache.xerces.internal.impl.XMLVersionDetector.determineDocVersion(XMLVersionDetector.java:186)
          at com.sun.org.apache.xerces.internal.parsers.XML11Configuration.parse(XML11Configuration.java:771)
          at com.sun.org.apache.xerces.internal.parsers.XML11Configuration.parse(XML11Configuration.java:737)
          at com.sun.org.apache.xerces.internal.parsers.XMLParser.parse(XMLParser.java:107)
          at com.sun.org.apache.xerces.internal.parsers.DOMParser.parse(DOMParser.java:225)
          at com.sun.org.apache.xerces.internal.jaxp.DocumentBuilderImpl.parse(DocumentBuilderImpl.java:283)
          at javax.xml.parsers.DocumentBuilder.parse(DocumentBuilder.java:180)
          at com.snoics.base.xml.XMLFactory.getDocument(Unknown Source)
          at com.snoics.base.xml.XMLUtil.parseXMLFile(Unknown Source)
          at com.snoics.base.xml.ReadXml.parseXMLFile(Unknown Source)
          at com.snoics.system.conf.SystemConfig.setSystemConfigFile(Unknown Source)
          at com.snoics.system.conf.SystemConfigFileName.initConfigPath(Unknown Source)
          at com.snoics.system.conf.SystemConfigFileName.<init>(Unknown Source)
          at com.snoics.system.InitSystemImpl.<init>(Unknown Source)
          at com.snoics.system.Init.init(Unknown Source)
          at com.snoics.system.common.SystemCommonObjectImpl.getObject(Unknown Source)
          at com.snoics.useclass.SnoicsClass.getLog(Unknown Source)
          at com.snoics.reptile.main.Reptile.<init>(Reptile.java:34)
          at com.snoics.reptile.main.StartReptile.start(StartReptile.java:29)
          at com.snoics.reptile.main.NormalMain.main(NormalMain.java:13)
          java.lang.NullPointerException
          at com.snoics.base.xml.ReadXml.setCurrentNodeList(Unknown Source)
          at com.snoics.system.conf.SystemConfig.getDatabaseInfo(Unknown Source)
          at com.snoics.system.conf.SystemConfigFileName.initConfigPath(Unknown Source)
          at com.snoics.system.conf.SystemConfigFileName.<init>(Unknown Source)
          at com.snoics.system.InitSystemImpl.<init>(Unknown Source)
          at com.snoics.system.Init.init(Unknown Source)
          at com.snoics.system.common.SystemCommonObjectImpl.getObject(Unknown Source)
          at com.snoics.useclass.SnoicsClass.getLog(Unknown Source)
          at com.snoics.reptile.main.Reptile.<init>(Reptile.java:34)
          at com.snoics.reptile.main.StartReptile.start(StartReptile.java:29)
          at com.snoics.reptile.main.NormalMain.main(NormalMain.java:13)
          java.lang.NullPointerException
          at com.snoics.base.xml.ReadXml.getCurrentNodeListLength(Unknown Source)
          at com.snoics.system.conf.SystemConfig.getDatabaseInfo(Unknown Source)
          at com.snoics.system.conf.SystemConfigFileName.initConfigPath(Unknown Source)
          at com.snoics.system.conf.SystemConfigFileName.<init>(Unknown Source)
          at com.snoics.system.InitSystemImpl.<init>(Unknown Source)
          at com.snoics.system.Init.init(Unknown Source)
          at com.snoics.system.common.SystemCommonObjectImpl.getObject(Unknown Source)
          at com.snoics.useclass.SnoicsClass.getLog(Unknown Source)
          at com.snoics.reptile.main.Reptile.<init>(Reptile.java:34)
          at com.snoics.reptile.main.StartReptile.start(StartReptile.java:29)
          at com.snoics.reptile.main.NormalMain.main(NormalMain.java:13)
          Exception in thread "main" java.lang.NullPointerException
          at com.snoics.useclass.SnoicsClass.getLog(Unknown Source)
          at com.snoics.reptile.main.Reptile.<init>(Reptile.java:34)
          at com.snoics.reptile.main.StartReptile.start(StartReptile.java:29)
          at com.snoics.reptile.main.NormalMain.main(NormalMain.java:13)
          @菜鳥(niǎo)
            回復(fù)  更多評(píng)論
            
          # re: snoics-reptile 網(wǎng)頁(yè)爬蟲(chóng)2.1 (2006-10-27日更新)[未登錄](méi) 2012-11-20 14:14 | cherish
          @葉建輝
          發(fā)份snoics.jar的源碼哥們,我知道你搞到手了,嘿嘿。。。  回復(fù)  更多評(píng)論
            
          # re: snoics-reptile 網(wǎng)頁(yè)爬蟲(chóng)2.1 (2006-10-27日更新)[未登錄](méi) 2012-11-20 14:16 | cherish
          忘寫郵箱了, 630562556@qq.com 謝謝哥們。   回復(fù)  更多評(píng)論
            

          只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。


          網(wǎng)站導(dǎo)航:
           
          <2009年5月>
          262728293012
          3456789
          10111213141516
          17181920212223
          24252627282930
          31123456

          常用鏈接

          留言簿(20)

          隨筆分類(8)

          隨筆檔案(26)

          文章分類(18)

          文章檔案(19)

          收藏夾

          Space

          最新隨筆

          搜索

          •  

          積分與排名

          • 積分 - 95947
          • 排名 - 605

          最新評(píng)論

          閱讀排行榜

          評(píng)論排行榜

          主站蜘蛛池模板: 句容市| 辽阳市| 南木林县| 聂拉木县| 南投市| 常宁市| 葫芦岛市| 临沂市| 乐都县| 凌云县| 天祝| 宁乡县| 纳雍县| 旬邑县| 改则县| 泰州市| 葵青区| 阿尔山市| 沅江市| 桑植县| 江永县| 北宁市| 庄河市| 白沙| 赤峰市| 墨脱县| 福州市| 莫力| 天柱县| 青州市| 阿合奇县| 宽甸| 铜鼓县| 张家界市| 长海县| 诸城市| 沙洋县| 调兵山市| 青冈县| 灵宝市| 晴隆县|