海水正藍

          面朝大海,春暖花開
          posts - 145, comments - 29, trackbacks - 0, articles - 1
            BlogJava :: 首頁 :: 新隨筆 :: 聯(lián)系 :: 聚合  :: 管理

          Heritrix資源

          網(wǎng)絡(luò)上的Heritrix中文資源比較少,整理一下:

           

          中文:

          l         《開發(fā)自己的搜索引擎 Lucene 2.0 + Heritrix》作者邱哲&符滔滔的BLOG

          http://lucenebook.spaces.live.com/

           

          l         《開發(fā)自己的搜索引擎 Lucene 2.0 + Heriterx第十章擴展Heritrix試讀章節(jié)

          (可以考慮開發(fā)的,比較有用)

          http://book.csdn.net/bookfiles/312/10031212848.shtml

           

          l         Heritrix筆記

          http://wiki.hoodong.com/wiki/jRwNBCFgWA1dYB0NC

           

          l         Heritrix crawler vs Nutch crawler

          http://www.dbanotes.net/web/heritrix_crawler_vs_nutch_crawler.html

           

          l         天下維客-爬蟲程序

          http://www.allwiki.com/wiki/Heritrix#Heritrix.E7.9A.84.E5.B1.80.E9.99.90

           

          英文:

          l         Heritrix主頁

          http://crawler.archive.org/

           

          l         HTMLParser主頁

          http://htmlparser.sourceforge.net/

           
           

          Heritrix綁定主機IP

          關(guān)鍵字:Heritrix 127.0.0.1 IP 主機

           

          Heritrix默認綁定的IP127.0.0.1

          org.archive.crawler.Heritrix

           

          final private static Collection<String> LOCALHOST_ONLY =

               Collections.unmodifiableList(Arrays.asList(new String[] { "127.0.0.1" }));

          private static Collection<String> guiHosts = LOCALHOST_ONLY;

           

          protected static String doCmdLineArgs(final String [] args)

          throws Exception {

              // Now look at options passed.

                  for (int i = 0; i < options.length; i++) {

                      switch(options[i].getId()) {

                          …

                          case 'b':

                              Heritrix.guiHosts = parseHosts(options[i].getValue());

                              break;

                          …

                          default:

                              assert false: options[i].getId();

                      }

                  }

          }

           

          首先定義了默認IP127.0.0.1,然后賦給guiHost主機變量。當指定-b--bind參數(shù)時,才會把指定的IP賦給主機變量。

          另外,中間還有一步參數(shù)處理,對于--xxxx參數(shù)會轉(zhuǎn)為-x的形式統(tǒng)一處理,所以--bind-b有一樣的效果。

           

          Heritrix啟動參數(shù)

          關(guān)鍵字:Heritrix 啟動 參數(shù) bind admin properties

           

          Heritrix的啟動參數(shù),除了--bind外,都可以在heritrix.properties設(shè)置,而不用每次都在命令行中輸入。

          如常用的--port, --admin等。

           

          heritrix.cmdline.admin = admin:admin

          heritrix.cmdline.port = 8080

          heritrix.cmdline.run = false

          heritrix.cmdline.nowui = false

          heritrix.cmdline.order =

          heritrix.cmdline.jmxserver = false

          heritrix.cmdline.jmxserver.port = 8081

           

          關(guān)于HeritrixExtractor中文亂碼

          關(guān)鍵字:Heritrix 中文 亂碼 GB2312 Extractor

           

          繼承從org.archive.crawler.extractor.Extractor的子類,在extract方法中可以從參數(shù)CrawlURI中取出要解析的內(nèi)容。

           

          curi.getHttpRecorder().getReplayCharSequence.toString()

           

          有中文時,不做處理會輸出亂碼。可以在取到的HttpRecorder后設(shè)置編碼:

           

          HttpRecorder hr = curi.getHttpRecorder();

          if ( hr == null ) {

              throw new IOException( "Why is recorder null here?" );

          }

          hr.setCharacterEncoding( "gb2312" );

          cs = hr.getReplayCharSequence();

          System.out.println( cs.toString() );

           

          原文出自:

          http://blog.chinaunix.net/uid-8464637-id-2461166.html

          主站蜘蛛池模板: 厦门市| 静乐县| 稻城县| 辽宁省| 聊城市| 阿拉善盟| 汶川县| 磐石市| 萨嘎县| 赞皇县| 英山县| 桃源县| 揭阳市| 肥城市| 茌平县| 东至县| 孟津县| 莱西市| 常宁市| 辽中县| 甘德县| 富民县| 绥棱县| 喀喇沁旗| 东乌| 疏附县| 新泰市| 台南县| 潢川县| 牟定县| 金山区| 台山市| 西畴县| 根河市| 高安市| 彝良县| 会理县| 定兴县| 宝应县| 明溪县| 洪泽县|