??xml version="1.0" encoding="utf-8" standalone="yes"?>国产精品影院在线观看,欧美色图另类,欧美特黄视频http://www.aygfsteel.com/dedian/category/14229.html-- x搜烦引擎的开?/description>zh-cnWed, 28 Feb 2007 07:47:17 GMTWed, 28 Feb 2007 07:47:17 GMT60 创徏自己的搜索引?/title><link>http://www.aygfsteel.com/dedian/archive/2006/10/27/77508.html</link><dc:creator>Dedian</dc:creator><author>Dedian</author><pubDate>Thu, 26 Oct 2006 22:04:00 GMT</pubDate><guid>http://www.aygfsteel.com/dedian/archive/2006/10/27/77508.html</guid><wfw:comment>http://www.aygfsteel.com/dedian/comments/77508.html</wfw:comment><comments>http://www.aygfsteel.com/dedian/archive/2006/10/27/77508.html#Feedback</comments><slash:comments>1</slash:comments><wfw:commentRss>http://www.aygfsteel.com/dedian/comments/commentRss/77508.html</wfw:commentRss><trackback:ping>http://www.aygfsteel.com/dedian/services/trackbacks/77508.html</trackback:ping><description><![CDATA[ <br />随着|络上信息量的日益增加,Z的学习和工作来离不开|络搜烦引擎(有些生活中的例子在?a rel="bookmark" title="Permanent Link to Google 今天8?>Google 今天8?/a>》文中有提到)?br /><br />但是Q另外一斚wQ我们会Ҏ索出来的成千上万的结果束手无措,使得我们基本上对W一늚搜烦l果保持兴趣Q从而引发各Uؓ争取出现在搜索引擎的W一늚各种技?如SEO)或手D?<a target="_blank">Spamdexing</a>)出现Q恶劣的则大打出手,甚至<a target="_blank">搜烦引擎公司出现各种q后黑手</a>?br /><br />对于用户来说Q则需要一Ҏ商,来迅速地辑ֈ自己的搜索目的?br /><br />对于搜烦引擎的老大Google昄注意到这一事实以及q一事实带来的客户需求:x索引擎应该满_戯定义?Customizable).<br /><br />最q,Google推出的?<a >custom search service</a> 则适应了这一需要?br /><br />idea很简单,是用户可以自己Ҏ自己的兴所在设|一些自q常去的或者感兴趣的又信息量比较大的一些网站。这样就可以制定Google的搜索引擎就搜烦q几个网站,或者以q几个网站的Z?br /><br />例外Q这个简单idea的品还具备web2.0的色彩。也是可以几个兴趣相投的h一L辑网站列表,从而类g个搜索圈(搜烦C֌)搜烦出大家共同感兴趣的东ѝ?br /><br />有兴的大家可以自己玩玩。我初步自定义了一个与Blog有关的搜索引擎?br /><br />点击<a target="_blank">q里</a>。或者连接:<br /><a target="_blank">http://www.google.com/coop/cse?cx=006688650489436466578%3Ac7-4rxi0jf4</a><br /><br /><span style="color: rgb(255, 0, 0);">或者点击这个简单的域名地址Q?/span><br /><br /><a style="color: rgb(255, 0, 0);" target="_blank">http://blogdigger.info</a><br /><br />大家有兴可以一LQ只要你们有gmail的̎受?br /><br /><div><font><font face="Arial" size="2">加入的方法很单,是点击主页上的链接Q?/font></font></div><div><font><a >Volunteer to contribute to this search engine</a>.</font></div><div><font> </font></div><div><font><font face="Arial" size="2">当然Q你需要一个Google 的̎P没有也没有关p,只需要用你们的email注册一个就可以了,很简单)</font></font></div><div><font> </font></div><div><font><font face="Arial" size="2">q样Q你可以成个搜索引擎的一员了Q^Ӟ你觉得那个网站很好,里面的信息量也比较大Q你可以把这个网站添加到Blog Digger的网站列表中。也可以Z感兴的一些搜索添加搜索条目?/font></font></div><div><font> </font></div><div><font><font face="Arial" size="2">如果慢慢的觉得这个自定义的Google好玩Q就Cq个链接吧:<a >http://blogdigger.info</a></font></font></div><br /><br /><br /><br /><br /><img src ="http://www.aygfsteel.com/dedian/aggbug/77508.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.aygfsteel.com/dedian/" target="_blank">Dedian</a> 2006-10-27 06:04 <a href="http://www.aygfsteel.com/dedian/archive/2006/10/27/77508.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item><item><title>The Ruby Programming Languagehttp://www.aygfsteel.com/dedian/archive/2006/09/19/70413.htmlDedianDedianMon, 18 Sep 2006 21:51:00 GMThttp://www.aygfsteel.com/dedian/archive/2006/09/19/70413.htmlhttp://www.aygfsteel.com/dedian/comments/70413.htmlhttp://www.aygfsteel.com/dedian/archive/2006/09/19/70413.html#Feedback0http://www.aygfsteel.com/dedian/comments/commentRss/70413.htmlhttp://www.aygfsteel.com/dedian/services/trackbacks/70413.htmlHere is a good article to introduce Ruby ..why we choose Ruby instead of Perl and Python ?

Dedian 2006-09-19 05:51 发表评论
]]>
About Hash functionhttp://www.aygfsteel.com/dedian/archive/2006/08/19/64475.htmlDedianDedianFri, 18 Aug 2006 19:01:00 GMThttp://www.aygfsteel.com/dedian/archive/2006/08/19/64475.htmlhttp://www.aygfsteel.com/dedian/comments/64475.htmlhttp://www.aygfsteel.com/dedian/archive/2006/08/19/64475.html#Feedback0http://www.aygfsteel.com/dedian/comments/commentRss/64475.htmlhttp://www.aygfsteel.com/dedian/services/trackbacks/64475.html
http://www.partow.net/programming/hashfunctions/

for cryptography & hash function

http://www.x5.net/faqs/crypto/

for a faster and better hash function (comparison of several hash function):

http://burtleburtle.net/bob/hash/doobs.html

----> for further reading...


Dedian 2006-08-19 03:01 发表评论
]]>
How does Alexa work?http://www.aygfsteel.com/dedian/archive/2006/08/16/63798.htmlDedianDedianTue, 15 Aug 2006 23:24:00 GMThttp://www.aygfsteel.com/dedian/archive/2006/08/16/63798.htmlhttp://www.aygfsteel.com/dedian/comments/63798.htmlhttp://www.aygfsteel.com/dedian/archive/2006/08/16/63798.html#Feedback0http://www.aygfsteel.com/dedian/comments/commentRss/63798.htmlhttp://www.aygfsteel.com/dedian/services/trackbacks/63798.html

Dedian 2006-08-16 07:24 发表评论
]]>
What's The Greatest Software Ever Written?http://www.aygfsteel.com/dedian/archive/2006/08/15/63565.htmlDedianDedianMon, 14 Aug 2006 18:22:00 GMThttp://www.aygfsteel.com/dedian/archive/2006/08/15/63565.htmlhttp://www.aygfsteel.com/dedian/comments/63565.htmlhttp://www.aygfsteel.com/dedian/archive/2006/08/15/63565.html#Feedback0http://www.aygfsteel.com/dedian/comments/commentRss/63565.htmlhttp://www.aygfsteel.com/dedian/services/trackbacks/63565.html
12. The Morris worm
11. Google search rank
10. Apollo guidance system
9. Excel spreadsheet
8. Macintosh OS
7. Sabre system
6. Mosaic browser
5. Java language
4. IBM System 360 OS
3.
gene-sequencing software at the Institute for Genomic Research
2. IBM's System R
1. Unix System III



How r u thinking?


Dedian 2006-08-15 02:22 发表评论
]]>
Web Standards or web trends?http://www.aygfsteel.com/dedian/archive/2006/08/09/62495.htmlDedianDedianWed, 09 Aug 2006 01:21:00 GMThttp://www.aygfsteel.com/dedian/archive/2006/08/09/62495.htmlhttp://www.aygfsteel.com/dedian/comments/62495.htmlhttp://www.aygfsteel.com/dedian/archive/2006/08/09/62495.html#Feedback0http://www.aygfsteel.com/dedian/comments/commentRss/62495.htmlhttp://www.aygfsteel.com/dedian/services/trackbacks/62495.html
Well, on a technical layer, I'd like to shed some lights on so-called web standard trends

1. front end --
         CSS ----> layout
         XML ----> data 
         XHTML ----> markup
         Javascript & DOM ----> behavior + XMLHttpRequest --> AJAX ?

2. back end -- 
         some open source projects such as Ruby on Rail...

let me know how you are thinking...



Dedian 2006-08-09 09:21 发表评论
]]>
Doug Cutting 访谈?-- 关于搜烦引擎的开?/title><link>http://www.aygfsteel.com/dedian/archive/2006/08/02/Doug_Cutting_Interview.html</link><dc:creator>Dedian</dc:creator><author>Dedian</author><pubDate>Tue, 01 Aug 2006 22:07:00 GMT</pubDate><guid>http://www.aygfsteel.com/dedian/archive/2006/08/02/Doug_Cutting_Interview.html</guid><wfw:comment>http://www.aygfsteel.com/dedian/comments/60688.html</wfw:comment><comments>http://www.aygfsteel.com/dedian/archive/2006/08/02/Doug_Cutting_Interview.html#Feedback</comments><slash:comments>5</slash:comments><wfw:commentRss>http://www.aygfsteel.com/dedian/comments/commentRss/60688.html</wfw:commentRss><trackback:ping>http://www.aygfsteel.com/dedian/services/trackbacks/60688.html</trackback:ping><description><![CDATA[作ؓ<a target="_blank">Lucene</a>?a target="_blank">Nutch</a>两大Apach Open Source Project的始创h(其实q有Lucy, Lucene4C 和Hadoop{相兛_目)QDoug Cutting 一直ؓ搜烦引擎的开发h员所x。他l于在ؓYahoo以Contractor的n份工?q后Q于今年正式以Employee的n份加入Yahoo<br /><br />下面是笔者在工作之余,译其一?q前的访谈录Q?a target="_blank">原文</a>(Doug Cutting Interview)在网上Google一下就Ҏ扑ֈ。希望对搜烦引擎开发的初学者vC个抛砖引玉的效果?br /><br />(注:译水^有限Q不求雅Q只求信Q达。希望见?<br /><br /><strong>1。请问你以何为生Q你是如何开始从事搜索引擎开发的Q?br /></strong><br />我主要在家从事两个与搜烦有关的开源项目的开? Lucene和Nutch. ׃要来自于一些与q些目相关的一些合同中。目前Yahoo! Labs 有一部分赞助在Nutch上。这两个目q有一些其他的短期合同 ?br /><br /><strong>2。你能大概给我们讲解一下Nutch吗?以及你将在哪斚wq用它?</strong><br /><br />我还是先说一下Lucene吧。Lucene其实是一个提供全文文本搜索的函数库,它不是一个应用Y件。它提供很多API函数让你可以q用到各U实际应用程序中。现在,它已l成为Apache的一个项目ƈ被广泛应用着。这里列Z?a target="_blank">已经使用Lucene的系l?/a>?br /><br />Nutch是一个徏立在Lucene核心之上的Web搜烦的实玎ͼ它是一个真正的应用E序。也是_你可以直接下载下来拿q来用。它在Lucene的基上加了网l爬虫和一些和Web相关的东东。其目的是想从一个简单的站内索引和搜索推q到全球|络的搜索上Q就像Google和Yahoo一栗当Ӟ和那些巨人竞争,你得动一些脑{,想一些办法。我们已l测试过100M的网,q且它的设计用在过1B的网上应该没有问题。当Ӟ让它q行在一台机器上Q搜索一些服务器Q也q行的很好?br /><br /><strong>3。在你看来,什么是搜烦引擎的核心元素?也就_一般的搜烦引擎软g可以分成哪几个主要部分或者模块?</strong><br /><br />让我xQ大概是如下几块吧:<br /><br /> -- 攫取(fetching)Q就是把被指向的|页下蝲下来?br /> -- 数据库:保存攫取的网信息,比如那些|页已经被攫取,什么时候被攫取的以及他们又有哪些链接的|页{等?br /> -- 链接分析Q对刚才数据库的信息q行分析Q给每个|页加上一些权?比如PageRank,WebRank什么的)Q以便对每个|页的重要性有所估计。不q,在我看来Q烦引那些网|?Anchor)里面的内Ҏ为重要?q也是ؓ什么诸如Google Bombing如此高效的原?<br /> -- 索引(Indexing): 是Ҏ取的|页内容Q以及链入链接,链接分析权值等信息q行索引以便q速查询?br /> -- 搜烦(Searching): 是通过一个烦引进行查询然后按照网|名显C?br /><br />当然Qؓ了让搜烦引擎能够处理C亿计的网,以上的模块都应该是分布式的。也是_可以在多台机器上q行q行?br /><br /><strong>4。你刚才说大家可以立马下载Nutchq行在自q机器上。这是不是说Q即侉K些对Apache服务器没有掌控权的网站管理员在短旉内就可以使用Nutch?</strong><br /><br />很不q,估计他们大都没戏。因为Nutchq是需要一个Java servlet的容?W者注Q比如Tomcat)。而这个有些ISP支持Q但大都不支持?W者注: 只有对Apache服务器有掌控权,你才能在上面安装一个Tomcat之类的东?<br /><br /><strong>5。我可以把Lucene和Google Web APIl合h吗?或者和其他的一些我先前写过的应用程序结合v来?<br /></strong><br />有那么一帮h已经为Nutch写了一些类似Google的API, 但还没有一个融入现在的pȝ。估计不久的来p了?br /><br /><strong>6。你认ؓ目前实现一个搜索引擎最大的障碍在哪里?是硬Ӟ存储障碍q是排名法Q还有,你能不能告诉我大概需要多大的I间搜烦引擎才能正常工作Q就说我只想写一个针Ҏ索成千上百万的RSS feeds的一个搜索引擎吧?/strong><br /><br />Nutch大概一个网|d需?0kb的空间吧。Rss feeds的网一般都比较?W者注: Rss feeds都是Zxml的文本网,所以不会很?Q所以应该更好处理吧。当然Nutch目前q没有针对RSS的支持?W者注Q实际上QAPI里面有针对RSS的数据结构和解析)<br /><br /><strong>7。从Yahoo! Labs拿到资金Ҏ吗?哪些人可以申P你又要ؓ之做Z什么作为回报?</strong><br /><br />我是被邀LQ我没有甌。所以我不是很清楚个中的程?br /><br /><strong>8。Google有没有表C对Nutch感兴?</strong><br /><br />我和那边的一些家伙谈q,包括Larry Page(W者注: Google两个创始Z一)。他们都很愿意提供一些帮助,但是他们也无法找CU不会帮助到他们竞争Ҏ的合适方式?br /><br /><strong>9。你有实C自己的PageRank或者WebRank法pȝ在你的Nutch里吗Q什么是你做|页排名(Ranking)的考虑Q?br /></strong><br />是的QNutch里面有一个链接分析模块。它是可选的Q因为对于站内搜索来_|页排名是不需要的?br /><br /><strong>10。我想你以前有听说过Q就是对于一个开源的搜烦引擎Q是不是意味着同样会给那些搞搜索引擎优?SEO)的黑客们有机可趁Q?/strong><br /><br />恩,有可能?br />p利用反向工程破解的非开源搜索引擎中的最新的反垃圾信息检算法需要大?个月的时间。对于一个开放源码的搜烦引擎来说Q破解将会更快。但不管怎么_那些刉垃圾信息者最l总能扑ֈ破解办法Q唯一的区别就是破解速度问题。所以最好的反垃圾信息技术,不管开源也好闭源也好,是让别人知道了其中的机制之后也能l工作那一U?br /><br />q有Q如果这六月中你是把出来的垃圾信息从你的烦引中U除Q他们无计可施,他们只能改变他们的站炏V如果你的垃圾信息检是Z对一些网站中好的和坏的例子的l计分析Q你可以d留意那些新的垃圾信息模式q在他们有机会反应之前将他们U除?br /><br />开源会使得止垃圾信息的Q务稍E艰巨一点,但不是之成Z可能。况且,那些闭源的搜索引擎也q没有秘密地解决q些问题。我想闭源的好处是不让我们看到它其实没有我们想象的那么好?br /><br /><strong>11。Nutch和分布式的网l爬?a >Grub</a>相比怎么P你是怎么惌个问题的Q?/strong><br /><br />我能说的是QGrub是一个能够让|民们A献一点自qg和带宽给巨大的LookSmart的爬行Q务的一个工E。它只有客户端是开源,而服务端没有。所以大家ƈ不能配置自己的Grub服务Q也不能讉K到Grub攉的数据?br /><br />更一般意义的分布式网l爬行又如何Q当一个搜索引擎变得很大的时候,其爬行上的代LҎ索上需要付出的代h是巫见大巫。所以,一个分布式爬虫q不能是显著降低成本Q相反它会得一些已l不是很昂贵的东西变得很复杂(W者注Q指pc和硬盘之cȝg)。所以这不是一个便宜的买卖?br /><br />q泛的分布式搜烦是一件很有趣的事Q但我不能肯定它能否实现q保持速度_的快。一个更快的搜烦引擎是一个更好的搜烦引擎。当大家可以L快速更Ҏ询的时候,他们更能在他们失去耐心之前频繁扑ֈ他们所需的东ѝ但是,要徏立一个不?U内可以搜索数以亿计的|页的广泛的分布式搜索引擎是很难的一件事Q因为其中网l有很高的g时。大都的半秒旉或者像Google展示它的查询那样是在一个数据中心的|络延时。如果你让同样一个系l运行在千家万户的家里的PC上,即便他们用的是DSL和Cable上网Q网l的延时会更高从而得一个查询很可能要花上几U钟甚至更长的时间。从而他也不可能会是一个好的搜索引擎?br /><br /><strong>12。你反复速度对于搜烦引擎的重要性,我经常很qhGoogle怎么pq么快地q回查询l果。你认ؓ他们是怎么做到的呢Q还有你在Nutch上的l验看法如何Q?/strong><br /><br />我相信Google的原理和Nutch大抵相同Q就是把查询hq播C些节点上Q每个节点返回一些页面的查询l果。每个节点上保存着几百万的面Q这样可以避免大多查询的盘讉KQƈ且每个节点可以每U同时处理成十上癄查询。如果你惌得数以亿计的面Q你可以把查询广播到成千的节点上。当然这里会有不网l流量?br /><br />具体的在<a >q篇文章</a>Q?<a >www.computer.org/ micro/mi2003/ m2022.pdf</a>Q中有所描述?br /><br /><strong>13。你刚才有提到垃圾信息,在Nutch里面是不是也有类似的法Q怎么区别垃圾信息模式比如链接?Linkfarms)(W者注Q就是一的|页彼此互相链接Q这是当初在1999q被一帮搞SEO弄出来的针对lnktomi搜烦引擎的ɾ|页的排名得到提高的一USpamdexingҎ)和那些正常的受欢q的站点链接?br /></strong><br />q个Q我们还没有腑և旉做这块。不q,很显然这是一个很重要的领域。在我们q入链接Z前,我们需要做一些简单的事情Q察看词汇填?Word stuffing)(W者注Q就是在|页里嵌入一些特D的词汇Qƈ且出现很多的ơ,甚至上百ơ,有些是h眼看不到的,比如白板写白字等伎俩Q这也是SpamdexingҎ的一U?Q白板写白字(White-on-white text)Q等{?br /><br />我想在一般意义上来说(垃圾信息是其中的一个子问题)Q搜索质量的关键在于拥有一个对查询l果手工可靠评估的辅助措施。这P我们可以训练一个排名算法从而生更好的查询l果(垃圾信息的查询结果是一U坏的查询结?。商业的搜烦引擎往往会雇佣一些hq行可靠评估。Nutch也会q样做,但很昄我们不能只接受那些友情赞助的评估Q因为那些垃圾信息制造者很Ҏ会防止那些评估。因此我们需要一U手D去建立一套自愿评估者的信Q体制。我认ؓ一个^{评论系l?peer-review system),有点像Slashdot的karmapȝ, 应该在这里很有帮助?br /><br /><strong>14。你认ؓ搜烦引擎在不久的来路在何方Q你认ؓ从一个开发者的角度来看Q最大的障碍在哪里Q?br /><br /></strong>很抱歉,我不是一个想象力丰富的h。我的预就是在未来的十q里web搜烦引擎和现在的搜索引擎相差无几。现在应该属于^Ex。在最初的几年里,|络搜烦引擎实曄发展非常q速。源?994q的|络爬虫使用了标准的信息析取Ҏ。直?998qGoogle的出玎ͼ光更多的基于Web的方法得C发展。从那以后,新方法的引入大大放慢了脚步。那些树枝低的果实已被收莗创新只有在刚发展的时候比较容易,到后来成熟,不Ҏ创新。网l搜索引擎v源于上个世纪90q代Q现在俨然已成一颗摇钱树Q将来很快会走进Z的日常生zM?br /><br />至于开发上的挑战,我认为操作上的可靠性将是一个大的挑战。我们目前正在开发一个类似GFS(Google的文件系l?的东ѝ它是巨型搜索引擎不可缺的基石Q你不能让一个小lg的错误导致一个大的瘫痪。你应该很容易的让系l扩展,只需往g池里加更多硬件而不需J缛的重新配|。还有,你不需要一大坨的操作h员完成,所有的一切将大都自己搞定?br /><br />----------------?---------------------<img src ="http://www.aygfsteel.com/dedian/aggbug/60688.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.aygfsteel.com/dedian/" target="_blank">Dedian</a> 2006-08-02 06:07 <a href="http://www.aygfsteel.com/dedian/archive/2006/08/02/Doug_Cutting_Interview.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item></channel></rss> <footer> <div class="friendship-link"> <a href="http://www.aygfsteel.com/" title="狠狠久久亚洲欧美专区_中文字幕亚洲综合久久202_国产精品亚洲第五区在线_日本免费网站视频">狠狠久久亚洲欧美专区_中文字幕亚洲综合久久202_国产精品亚洲第五区在线_日本免费网站视频</a> </div> </footer> վ֩ģ壺 <a href="http://" target="_blank"></a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank">Ҷ</a>| <a href="http://" target="_blank">ɽ</a>| <a href="http://" target="_blank">ʲ</a>| <a href="http://" target="_blank">Ϫ</a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank">Ͻ</a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank">Ƽ</a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank">ƽԭ</a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank">Ϫ</a>| <a href="http://" target="_blank">Ǧɽ</a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank">ƶ</a>| <a href="http://" target="_blank">౱</a>| <a href="http://" target="_blank">̳</a>| <a href="http://" target="_blank">̫</a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank">ʦ</a>| <a href="http://" target="_blank">ɽ</a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank">Ǩ</a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank">ʲ</a>| <a href="http://" target="_blank">ϻ</a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank">Ǹ</a>| <a href="http://" target="_blank"></a>| <script> (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })(); </script> </body>