Dedian  
          -- 關注搜索引擎的開發
          日歷
          <2006年5月>
          30123456
          78910111213
          14151617181920
          21222324252627
          28293031123
          45678910
          統計
          • 隨筆 - 82
          • 文章 - 2
          • 評論 - 228
          • 引用 - 0

          導航

          常用鏈接

          留言簿(8)

          隨筆分類(45)

          隨筆檔案(82)

          文章檔案(2)

          Java Spaces

          搜索

          •  

          積分與排名

          • 積分 - 66103
          • 排名 - 813

          最新評論

          閱讀排行榜

          評論排行榜

           
          + Webcrawler
          ???
          ??? -- study open source code
          ??? ?? ?? purpose: analyze code structure and basic componences
          ??? ?? ?? focus on: Nutch (http://lucene.apache.org/nutch/)
          ??? ??? ??? ??? ??? & HTMLParser (http://htmlparser.sourceforge.net/)
          ??? ?? ?? ?? ?? ?? ? & GData(http://code.google.com/apis/gdata/overview.html)

          ??? -- understand PageRank idea
          ??? ?? relative articles:
          ??? ?? http://en.wikipedia.org/wiki/PageRank
          ??? ?? http://www.thesitewizard.com/archive/google.shtml
          ?????? paper : "PageRank Uncoverd" by Chris Ridings and Mike Shishigin
          ?????? http://www.rankforsales.com/n-aa/095-seo-may-31-03.html (about Chris Ridings & SEO)
          ??? ?? http://en.wikipedia.org/wiki/Web_crawler (basic idea about crawler)
          ??? ??
          ??? -- familar with RSS & Atom protocol

          ??? -- sample coding:
          ??? ?? Interface: Scheduler for fetching web links
          ??? ?? Interface: Web page paser/Analyzer --> to deal with XML-based websites(Weblogs or news sites, RSS & Atom) --> Paser classes based on SAX parser
          ??? ?? Interface: Retractor/Fetcher --> to get links from page
          ??? ?? Interface: Collector --> check URL whether duplicated and save in URL database with certian data structure
          ??? ?? Interface: InformationProcesser --> PageRank should be one important factor --> (under thinking)
          ??? ?? Interface: Policies(Filter) --> will be served for Collector and InformationProcessor --> (under thinking)

          + Indexer/Searcher (almost done base on Lucene)
          posted on 2006-05-19 09:40 Dedian 閱讀(301) 評論(1)  編輯  收藏
          評論:

          只有注冊用戶登錄后才能發表評論。


          網站導航:
           
           
          Copyright © Dedian Powered by: 博客園 模板提供:滬江博客
          主站蜘蛛池模板: 广宗县| 上饶县| 霍林郭勒市| 京山县| 德保县| 乌兰察布市| 阿克苏市| 古蔺县| 河东区| 休宁县| 翁源县| 永丰县| 芦溪县| 庄河市| 鄢陵县| 肥城市| 黄骅市| 岫岩| 南川市| 贡嘎县| 罗田县| 岱山县| 碌曲县| 安龙县| 黄平县| 阿城市| 明星| 观塘区| 青阳县| 平罗县| 吉安县| 石阡县| 和顺县| 栾川县| 台中县| 铅山县| 泉州市| 安丘市| 浦江县| 道真| 合川市|