久久综合给合久久狠狠色,国产精品一区二区三区观看,亚洲成人毛片

ï»??xml version="1.0" encoding="utf-8" standalone="yes"?>久久综合给合久久狠狠色,国产精品一区二区三区观看,亚洲成人毛片http://www.aygfsteel.com/tinysun/archive/2010/10/04/333723.htmlä½•å…‹å‹?/dc:creator>ä½•å…‹å‹?/author>Mon, 04 Oct 2010 02:36:00 GMThttp://www.aygfsteel.com/tinysun/archive/2010/10/04/333723.htmlhttp://www.aygfsteel.com/tinysun/comments/333723.htmlhttp://www.aygfsteel.com/tinysun/archive/2010/10/04/333723.html#Feedback0http://www.aygfsteel.com/tinysun/comments/commentRss/333723.htmlhttp://www.aygfsteel.com/tinysun/services/trackbacks/333723.htmlå…¨æ–‡è½¬è²åQ?a >http://blog.csdn.net/forfuture1978/archive/2009/10/22/4711308.aspx

ä½œè€…ï¼šforfuture1978 (from CSDN)

æˆ‘ä»¬éƒ½çŸ¥é“ï¼ŒLuceneæ˜¯ä¸€ä¸ªå¼€æ”¾æºä»£ç çš„å…¨æ–‡æ£€ç´¢å¼•æ“Žå·¥å…·åŒ…ã€‚é‚£ä¹ˆå…¨æ–‡æ£€ç´¢åˆ°åº•æ˜¯ä»€ä¹ˆï¼Ÿ ˜q™è¦ä»Žæˆ‘ä»¬ç”Ÿ‹zÖM¸çš„æ•°æ®è¯´èµ—÷€?/span>

æˆ‘ä»¬ç”Ÿæ´»ä¸çš„æ•°æ®æ€ÖM½“åˆ†äØ“ä¸¤ç§åQ?span style="color: #0000ff">¾l“æž„åŒ–æ•°æ?/strong> å’?span style="color: #0000ff">éžç»“æž„åŒ–æ•°æ® ã€?/p>

¾l“æž„åŒ–æ•°æ®ï¼š æŒ‡å…·æœ‰å›ºå®šæ ¼å¼æˆ–æœ‰é™é•¿åº¦çš„æ•°æ®ï¼Œå¦‚æ•°æ®åº“åQŒå…ƒæ•°æ®½{‰ã€?
éžç»“æž„åŒ–æ•°æ®åQ?/strong> æŒ‡ä¸å®šé•¿æˆ–æ— å›ºå®šæ ¼å¼çš„æ•°æ®ï¼Œå¦‚é‚®ä»Óž¼Œwordæ–‡æ¡£½{‰ã€?

å½“ç„¶æœ‰çš„åœ°æ–¹˜q˜ä¼šæåˆ°½W¬ä¸‰¿Uï¼ŒåŠç»“æž„åŒ–æ•°æ®åQŒå¦‚XMLåQŒHTML½{‰ï¼Œå½“æ ¹æ®éœ€è¦å¯æŒ‰ç»“æž„åŒ–æ•°æ®æ¥å¤„ç†ï¼Œä¹Ÿå¯æŠ½å–å‡ºçº¯æ–‡æœ¬æŒ‰éž¾l“æž„åŒ–æ•°æ®æ¥å¤„ç†ã€?/p>
éžç»“æž„åŒ–æ•°æ®åˆä¸€¿Uå«æ³•å«å…¨æ–‡æ•°æ®ã€?/strong>

æŒ‰ç…§æ•°æ®çš„åˆ†¾c»ï¼Œæœçƒ¦ä¹Ÿåˆ†ä¸ÞZ¸¤¿Uï¼š

å¯¹ç»“æž„åŒ–æ•°æ®çš„æœç´?/strong> åQšå¦‚å¯ÒŽ•°æ®åº“çš„æœç´¢ï¼Œç”¨SQLè¯å¥ã€‚å†å¦‚å¯¹å…ƒæ•°æ®çš„æœçƒ¦åQŒå¦‚åˆ©ç”¨windowsæœçƒ¦å¯ÒŽ–‡ä»¶ååQŒç±»åž‹ï¼Œä¿®æ”¹æ—‰™—´˜q›è¡Œæœçƒ¦½{‰ã€?
å¯šwž¾l“æž„åŒ–æ•°æ®çš„æœçƒ¦ åQšå¦‚åˆ©ç”¨windowsçš„æœç´¢ä¹Ÿå¯ä»¥æœçƒ¦æ–‡äšgå†…å®¹åQŒLinuxä¸‹çš„grepå‘½ä×oåQŒå†å¦‚ç”¨Googleå’Œç™¾åº¦å¯ä»¥æœç´¢å¤§é‡å†…å®ÒŽ•°æ®ã€?

å¯šwž¾l“æž„åŒ–æ•°æ®ä¹Ÿå›_¯¹å…¨æ–‡æ•°æ®çš„æœç´¢ä¸»è¦æœ‰ä¸¤ç§æ–ÒŽ³•åQ?/p>

ä¸€¿Uæ˜¯™åºåºæ‰«ææ³?/strong> (Serial Scanning) åQ?/strong> æ‰€è°“é¡ºåºæ‰«æï¼Œæ¯”å¦‚è¦æ‰¾å†…å®¹åŒ…å«æŸä¸€ä¸ªå—½W¦ä¸²çš„æ–‡ä»Óž¼Œž®±æ˜¯ä¸€ä¸ªæ–‡æ¡£ä¸€ä¸ªæ–‡æ¡£çš„çœ‹ï¼Œå¯¹äºŽæ¯ä¸€ä¸ªæ–‡æ¡£ï¼Œä»Žå¤´çœ‹åˆ°ž®¾ï¼Œå¦‚æžœæ¤æ–‡æ¡£åŒ…å«æ¤å—ç¬¦ä¸ÔŒ¼Œåˆ™æ¤æ–‡æ¡£ä¸ºæˆ‘ä»¬è¦æ‰„¡š„æ–‡äšgåQŒæŽ¥ç€çœ‹ä¸‹ä¸€ä¸ªæ–‡ä»Óž¼Œç›´åˆ°æ‰«æå®Œæ‰€æœ‰çš„æ–‡äšgã€‚å¦‚åˆ©ç”¨windowsçš„æœç´¢ä¹Ÿå¯ä»¥æœçƒ¦æ–‡äšgå†…å®¹åQŒåªæ˜¯ç›¸å½“çš„æ…¢ã€‚å¦‚æžœä½ æœ‰ä¸€ä¸?0G¼‹¬ç›˜åQŒå¦‚æžœæƒ³åœ¨ä¸Šé¢æ‰¾åˆîC¸€ä¸ªå†…å®¹åŒ…å«æŸå—ç¬¦ä¸²çš„æ–‡äšgåQŒä¸èŠ×ƒ»–å‡ ä¸ªž®æ—¶åQŒæ€•æ˜¯åšä¸åˆ°ã€‚Linuxä¸‹çš„grepå‘½ä×oä¹Ÿæ˜¯˜q™ä¸€¿Uæ–¹å¼ã€‚å¤§å®¶å¯èƒ½è§‰å¾—è¿™¿Uæ–¹æ³•æ¯”è¾ƒåŽŸå§‹ï¼Œä½†å¯¹äºŽå°æ•°æ®é‡çš„æ–‡äšgåQŒè¿™¿Uæ–¹æ³•è¿˜æ˜¯æœ€ç›´æŽ¥åQŒæœ€æ–¹ä¾¿çš„ã€‚ä½†æ˜¯å¯¹äºŽå¤§é‡çš„æ–‡äšgåQŒè¿™¿Uæ–¹æ³•å°±å¾ˆæ…¢äº†ã€?/p>

æœ‰ähå¯èƒ½ä¼šè¯´åQŒå¯¹éžç»“æž„åŒ–æ•°æ®™åºåºæ‰«æå¾ˆæ…¢åQŒå¯¹¾l“æž„åŒ–æ•°æ®çš„æœçƒ¦å´ç›¸å¯¹è¾ƒå¿«ï¼ˆç”×ƒºŽ¾l“æž„åŒ–æ•°æ®æœ‰ä¸€å®šçš„¾l“æž„å¯ä»¥é‡‡å–ä¸€å®šçš„æœçƒ¦½Ž—æ³•åŠ å¿«é€Ÿåº¦åQ‰ï¼Œé‚£ä¹ˆæŠŠæˆ‘ä»¬çš„éžç»“æž„åŒ–æ•°æ®æƒ›_Šžæ³•å¼„å¾—æœ‰ä¸€å®šç»“æž„ä¸ž®Þp¡Œäº†å—åQ?/p>

˜q™ç§æƒÏx³•å¾ˆå¤©ç„Óž¼Œå´æž„æˆäº†å…¨æ–‡‹‚€ç´¢çš„åŸºæœ¬æ€èµ\åQŒä¹Ÿå›_°†éžç»“æž„åŒ–æ•°æ®ä¸çš„ä¸€éƒ¨åˆ†ä¿¡æ¯æå–å‡ºæ¥åQŒé‡æ–°ç»„¾l‡ï¼Œä½¿å…¶å˜å¾—æœ‰ä¸€å®šç»“æž„ï¼Œç„¶åŽå¯ÒŽ¤æœ‰ä¸€å®šç»“æž„çš„æ•°æ®˜q›è¡Œæœçƒ¦åQŒä»Žè€Œè¾¾åˆ°æœç´¢ç›¸å¯¹è¾ƒå¿«çš„ç›®çš„ã€?/p>
˜q™éƒ¨åˆ†ä»Žéžç»“æž„åŒ–æ•°æ®ä¸æå–å‡ºçš„ç„¶åŽé‡æ–°ç»„¾l‡çš„ä¿¡æ¯åQŒæˆ‘ä»¬ç§°ä¹?strong>ç´¢å¼• ã€?/p>

˜q™ç§è¯´æ³•æ¯”è¾ƒæŠ½è±¡åQŒä‹Då‡ ä¸ªä¾‹åž®±å¾ˆå®ÒŽ˜“æ˜Žç™½åQŒæ¯”å¦‚å—å…¸ï¼Œå—å…¸çš„æ‹¼éŸŒ™¡¨å’Œéƒ¨é¦–æ£€å—è¡¨ž®Þq›¸å½“äºŽå—å…¸çš„çƒ¦å¼•ï¼Œå¯ÒŽ¯ä¸€ä¸ªå—çš„è§£é‡Šæ˜¯éžç»“æž„åŒ–çš„ï¼Œå¦‚æžœå—å…¸æ²¡æœ‰éŸŒ™Š‚è¡¨å’Œéƒ¨é¦–‹‚€å—è¡¨åQŒåœ¨èŒ«èŒ«è¾žæ“vä¸æ‰¾ä¸€ä¸ªå—åªèƒ½™åºåºæ‰«æã€‚ç„¶è€Œå—çš„æŸäº›ä¿¡æ¯å¯ä»¥æå–å‡ºæ¥è¿›è¡Œç»“æž„åŒ–å¤„ç†åQŒæ¯”å¦‚è¯»éŸ»I¼Œž®±æ¯”è¾ƒç»“æž„åŒ–åQŒåˆ†å£°æ¯å’ŒéŸµæ¯ï¼Œåˆ†åˆ«åªæœ‰å‡ ç§å¯ä»¥ä¸€ä¸€åˆ—ä‹DåQŒäºŽæ˜¯å°†è¯»éŸ³æ‹¿å‡ºæ¥æŒ‰ä¸€å®šçš„™åºåºæŽ’åˆ—åQŒæ¯ä¸€™å¹è¯»éŸ³éƒ½æŒ‡å‘æ¤å—çš„è¯¦¾l†è§£é‡Šçš„™å‰|•°ã€‚æˆ‘ä»¬æœç´¢æ—¶æŒ‰ç»“æž„åŒ–çš„æ‹¼éŸÏxœåˆ°è¯»éŸ»I¼Œç„¶åŽæŒ‰å…¶æŒ‡å‘çš„é¡µæ•ŽÍ¼Œä¾¿å¯æ‰‘Öˆ°æˆ‘ä»¬çš„éž¾l“æž„åŒ–æ•°æ®â€”â€”ä¹Ÿå›_¯¹å—çš„è§£é‡Šã€?/p>

˜q™ç§å…ˆå¾ç«‹çƒ¦å¼•ï¼Œå†å¯¹ç´¢å¼•˜q›è¡Œæœçƒ¦çš„è¿‡½E‹å°±å«å…¨æ–‡æ£€ç´?Full-text Search) ã€?/strong>

ä¸‹é¢˜q™å¹…å›¾æ¥è‡ªã€ŠLucene in actionã€‹ï¼Œä½†å´ä¸ä»…ä»…æ˜qîCº†Luceneçš„æ£€ç´¢è¿‡½E‹ï¼Œè€Œæ˜¯æè¿°äº†å…¨æ–‡æ£€ç´¢çš„ä¸€èˆ¬è¿‡½E‹ã€?img height="479" alt="" src="http://dl.javaeye.com/upload/picture/pic/55997/9512a770-0784-3231-9da5-608a46014b2d.png" width="544" />

å…¨æ–‡‹‚€ç´¢å¤§ä½“åˆ†ä¸¤ä¸ª˜q‡ç¨‹åQ?span style="color: #0000ff">ç´¢å¼•åˆ›å¾ (Indexing) å’?span style="color: #0000ff">æœçƒ¦ç´¢å¼• (Search) ã€?/p>

ç´¢å¼•åˆ›å¾åQšå°†çŽ°å®žä¸–ç•Œä¸æ‰€æœ‰çš„¾l“æž„åŒ–å’Œéžç»“æž„åŒ–æ•°æ®æå–ä¿¡æ¯åQŒåˆ›å»ºçƒ¦å¼•çš„˜q‡ç¨‹ã€?
æœçƒ¦ç´¢å¼•åQšå°±æ˜¯å¾—åˆ°ç”¨æˆïLš„æŸ¥è¯¢è¯äh±‚åQŒæœç´¢åˆ›å»ºçš„ç´¢å¼•åQŒç„¶åŽè¿”å›žç»“æžœçš„˜q‡ç¨‹ã€?

äºŽæ˜¯å…¨æ–‡‹‚€ç´¢å°±å˜åœ¨ä¸‰ä¸ªé‡è¦é—®é¢˜åQ?/p>
1. ç´¢å¼•é‡Œé¢½I¶ç«Ÿå˜äº›ä»€ä¹ˆï¼Ÿ(Index)

2. å¦‚ä½•åˆ›å¾ç´¢å¼•åQ?Indexing)

3. å¦‚ä½•å¯¹çƒ¦å¼•è¿›è¡Œæœç´¢ï¼Ÿ(Search)

ä¸‹é¢æˆ‘ä»¬™åºåºå¯ÒŽ¯ä¸ªä¸ªé—®é¢˜˜q›è¡Œç ”ç©¶ã€?/p>

ä¸€ã€?/span> ç´¢å¼•é‡Œé¢½I¶ç«Ÿå˜äº›ä»€ä¹ˆï¼Ÿ(Index)

é¦–å…ˆæˆ‘ä»¬æ¥çœ‹ä¸ÞZ»€ä¹ˆé¡ºåºæ‰«æçš„é€Ÿåº¦æ…¢ï¼š

å…¶å®žæ˜¯ç”±äºŽæˆ‘ä»¬æƒ³è¦æœç´¢çš„ä¿¡æ¯å’Œéž¾l“æž„åŒ–æ•°æ®ä¸æ‰€å˜å‚¨çš„ä¿¡æ¯ä¸ä¸€è‡´é€ æˆçš„ã€?/p>
éžç»“æž„åŒ–æ•°æ®ä¸æ‰€å˜å‚¨çš„ä¿¡æ¯æ˜¯æ¯ä¸ªæ–‡äšgåŒ…å«å“ªäº›å—ç¬¦ä¸ÔŒ¼Œä¹Ÿå³å·²çŸ¥æ–‡äšgåQŒæ¬²æ±‚å—½W¦ä¸²ç›¸å¯¹å®ÒŽ˜“åQŒä¹ŸåÏx˜¯ä»Žæ–‡ä»¶åˆ°å—ç¬¦ä¸²çš„æ˜ å°„ã€‚è€Œæˆ‘ä»¬æƒ³æœçƒ¦çš„ä¿¡æ¯æ˜¯å“ªäº›æ–‡äšgåŒ…å«æ¤å—½W¦ä¸²åQŒä¹Ÿå›_·²çŸ¥å—½W¦ä¸²åQŒæ¬²æ±‚æ–‡ä»Óž¼Œä¹Ÿå³ä»Žå—½W¦ä¸²åˆ°æ–‡ä»¶çš„æ˜ å°„ã€‚ä¸¤è€…æ°æ°ç›¸åã€‚äºŽæ˜¯å¦‚æžœçƒ¦å¼•æ€»èƒ½å¤Ÿä¿å˜ä»Žå—ç¬¦ä¸²åˆ°æ–‡äšgçš„æ˜ ž®„ï¼Œåˆ™ä¼šå¤§å¤§æé«˜æœçƒ¦é€Ÿåº¦ã€?/p>

ç”×ƒºŽä»Žå—½W¦ä¸²åˆ°æ–‡ä»¶çš„æ˜ å°„æ˜¯æ–‡ä»¶åˆ°å—ç¬¦ä¸²æ˜ ž®„çš„åå‘˜q‡ç¨‹åQŒäºŽæ˜¯ä¿å˜è¿™¿Uä¿¡æ¯çš„ç´¢å¼•¿UîCØ“åå‘ç´¢å¼• ã€?/p>

åå‘ç´¢å¼•çš„æ‰€ä¿å˜çš„ä¿¡æ¯ä¸€èˆ¬å¦‚ä¸‹ï¼š

å‡è®¾æˆ‘çš„æ–‡æ¡£é›†åˆé‡Œé¢æœ?00½‹‡æ–‡æ¡£ï¼Œä¸ÞZº†æ–¹ä¾¿è¡¨ç¤ºåQŒæˆ‘ä»¬äØ“æ–‡æ¡£¾~–å·ä»?åˆ?00åQŒå¾—åˆîC¸‹é¢çš„¾l“æž„

å·¦è¾¹ä¿å˜çš„æ˜¯ä¸€¾pÕdˆ—å—ç¬¦ä¸ÔŒ¼Œ¿UîCØ“è¯å…¸ ã€?/span>

æ¯ä¸ªå—ç¬¦ä¸²éƒ½æŒ‡å‘åŒ…å«æ¤å—½W¦ä¸²çš„æ–‡æ¡?Document)é“¾è¡¨åQŒæ¤æ–‡æ¡£é“¾è¡¨¿UîCØ“å€’æŽ’è¡?/strong> (Posting List) ã€?/p>
æœ‰äº†ç´¢å¼•åQŒä¾¿ä½¿ä¿å˜çš„ä¿¡æ¯å’Œè¦æœçƒ¦çš„ä¿¡æ¯ä¸€è‡ß_¼Œå¯ä»¥å¤§å¤§åŠ å¿«æœçƒ¦çš„é€Ÿåº¦ã€?/p>

æ¯”å¦‚è¯ß_¼Œæˆ‘ä»¬è¦å¯»æ‰¾æ—¢åŒ…å«å—ç¬¦ä¸?#8220;lucene”åˆåŒ…å«å—½W¦ä¸²“solr”çš„æ–‡æ¡£ï¼Œæˆ‘ä»¬åªéœ€è¦ä»¥ä¸‹å‡ æ¥ï¼š

1. å–å‡ºåŒ…å«å—ç¬¦ä¸?#8220;lucene”çš„æ–‡æ¡£é“¾è¡¨ã€?/p>
2. å–å‡ºåŒ…å«å—ç¬¦ä¸?#8220;solr”çš„æ–‡æ¡£é“¾è¡¨ã€?/p>
3. é€šè¿‡åˆåÆˆé“¾è¡¨åQŒæ‰¾å‡ºæ—¢åŒ…å«“lucene”åˆåŒ…å?#8220;solr”çš„æ–‡ä»¶ã€?img height="55" alt="" src="http://hxraid.javaeye.com/upload/picture/pic/56001/7e04a727-6cdb-3434-a260-023bc163b497.jpg" width="544" />

çœ‹åˆ°˜q™ä¸ªåœ°æ–¹åQŒæœ‰äººå¯èƒ½ä¼šè¯ß_¼Œå…¨æ–‡‹‚€ç´¢çš„¼‹®åŠ å¿«äº†æœçƒ¦çš„é€Ÿåº¦åQŒä½†æ˜¯å¤šäº†çƒ¦å¼•çš„˜q‡ç¨‹åQŒä¸¤è€…åŠ èµäh¥ä¸ä¸€å®šæ¯”™åºåºæ‰«æå¿«å¤šž®‘ã€‚çš„¼‹®ï¼ŒåŠ ä¸Šç´¢å¼•çš„è¿‡½E‹ï¼Œå…¨æ–‡‹‚€ç´¢ä¸ä¸€å®šæ¯”™åºåºæ‰«æå¿«ï¼Œž®¤å…¶æ˜¯åœ¨æ•°æ®é‡å°çš„æ—¶å€™æ›´æ˜¯å¦‚æ¤ã€‚è€Œå¯¹ä¸€ä¸ªå¾ˆå¤§é‡çš„æ•°æ®åˆ›å»ºçƒ¦å¼•ä¹Ÿæ˜¯ä¸€ä¸ªå¾ˆæ…¢çš„˜q‡ç¨‹ã€?/p>

ç„¶è€Œä¸¤è€…è¿˜æ˜¯æœ‰åŒºåˆ«çš„ï¼Œ™åºåºæ‰«ææ˜¯æ¯‹Æ¡éƒ½è¦æ‰«æï¼Œè€Œåˆ›å»ºçƒ¦å¼•çš„˜q‡ç¨‹ä»…ä»…éœ€è¦ä¸€‹Æ¡ï¼Œä»¥åŽä¾¿æ˜¯ä¸€åŠÏx°¸é€¸çš„äº†ï¼Œæ¯æ¬¡æœçƒ¦åQŒåˆ›å»ºçƒ¦å¼•çš„˜q‡ç¨‹ä¸å¿…¾lè¿‡åQŒä»…ä»…æœç´¢åˆ›å»ºå¥½çš„çƒ¦å¼•å°±å¯ä»¥äº†ã€?/p>

˜q™ä¹Ÿæ˜¯å…¨æ–‡æœç´¢ç›¸å¯¹äºŽ™åºåºæ‰«æçš„ä¼˜åŠ¿ä¹‹ä¸€åQšä¸€‹Æ¡çƒ¦å¼•ï¼Œå¤šæ¬¡ä½¿ç”¨ã€?/strong>

äºŒã€?/span> å¦‚ä½•åˆ›å¾ç´¢å¼•åQ?Indexing)

å…¨æ–‡‹‚€ç´¢çš„ç´¢å¼•åˆ›å¾˜q‡ç¨‹ä¸€èˆ¬æœ‰ä»¥ä¸‹å‡ æ¥åQ?/p>

1ã€ä¸€äº›è¦ç´¢å¼•çš„åŽŸå§‹æ–‡æ¡?Document)

ä¸ÞZº†æ–¹ä¾¿è¯´æ˜Žç´¢å¼•åˆ›å¾˜q‡ç¨‹åQŒè¿™é‡Œç‰¹æ„ç”¨ä¸¤ä¸ªæ–‡äšgä¸ÞZ¾‹åQ?/p>
æ–‡äšgä¸€åQšStudents should be allowed to go out with their friends, but not allowed to drink beer.

æ–‡äšgäºŒï¼šMy friend Jerry went to school to see his students but found them drunk which is not allowed.

2ã€å°†åŽŸå§‹æ–‡æ¡£ä¼ ç»™åˆ†è¯¾l„äšg(Tokenizer)

åˆ†è¯¾l„äšg(Tokenizer)ä¼šåšä»¥ä¸‹å‡ äšgäº‹æƒ…( æ¤è¿‡½E‹ç§°ä¸ºTokenize) åQ?/strong>

1. ž®†æ–‡æ¡£åˆ†æˆä¸€ä¸ªä¸€ä¸ªå•ç‹¬çš„å•è¯ã€?/strong>

2. åŽ»é™¤æ ‡ç‚¹½W¦å·ã€?/strong>

3. åŽ»é™¤åœç”¨è¯?Stop word) ã€?/strong>

æ‰€è°?strong>åœç”¨è¯?Stop word) ž®±æ˜¯ä¸€¿Uè¯a€ä¸æœ€æ™®é€šçš„ä¸€äº›å•è¯ï¼Œç”×ƒºŽæ²¡æœ‰ç‰¹åˆ«çš„æ„ä¹‰ï¼Œå› è€Œå¤§å¤šæ•°æƒ…å†µä¸‹ä¸èƒ½æˆä¸ºæœç´¢çš„å…³é”®è¯ï¼Œå› è€Œåˆ›å»ºçƒ¦å¼•æ—¶åQŒè¿™¿Uè¯ä¼šè¢«åŽÀLŽ‰è€Œå‡ž®‘çƒ¦å¼•çš„å¤§å°ã€?/p>
è‹Þp¯ä¸æŒºè¯?Stop word)å¦‚ï¼š“the”,“a”åQ?#8220;this”½{‰ã€?/p>
å¯¹äºŽæ¯ä¸€¿Uè¯a€çš„åˆ†è¯ç»„ä»?Tokenizer)åQŒéƒ½æœ‰ä¸€ä¸ªåœè¯?stop word)é›†åˆã€?/p>

¾lè¿‡åˆ†è¯(Tokenizer) åŽå¾—åˆ°çš„¾l“æžœ¿UîCØ“è¯å…ƒ(Token) ã€?/strong>

åœ¨æˆ‘ä»¬çš„ä¾‹åä¸ï¼Œä¾¿å¾—åˆîC»¥ä¸‹è¯å…?Token)åQ?/p>
“Students”åQ?#8220;allowed”åQ?#8220;go”åQ?#8220;their”åQ?#8220;friends”åQ?#8220;allowed”åQ?#8220;drink”åQ?#8220;beer”åQ?#8220;My”åQ?#8220;friend”åQ?#8220;Jerry”åQ?#8220;went”åQ?#8220;school”åQ?#8220;see”åQ?#8220;his”åQ?#8220;students”åQ?#8220;found”åQ?#8220;them”åQ?#8220;drunk”åQ?#8220;allowed”ã€?/p>

3ã€å°†å¾—åˆ°çš„è¯å…?Token)ä¼ ç»™è¯è¨€å¤„ç†¾l„äšg(Linguistic Processor)

è¯è¨€å¤„ç†¾l„äšg(linguistic processor)ä¸»è¦æ˜¯å¯¹å¾—åˆ°çš„è¯å…?Token)åšä¸€äº›åŒè¯è¨€ç›¸å…³çš„å¤„ç†ã€?/p>
å¯¹äºŽè‹Þp¯åQŒè¯a€å¤„ç†¾l„äšg(Linguistic Processor) ä¸€èˆ¬åšä»¥ä¸‹å‡ ç‚¹åQ?/strong>

1. å˜äØ“ž®å†™(Lowercase) ã€?/strong>

2. ž®†å•è¯ç¾ƒå‡äØ“è¯æ ¹å½¢å¼åQŒå¦‚“cars ”åˆ?#8220;car ”½{‰ã€‚è¿™¿Uæ“ä½œç§°ä¸ºï¼šstemming ã€?/strong>

3. ž®†å•è¯è{å˜äØ“è¯æ ¹å½¢å¼åQŒå¦‚“drove ”åˆ?#8220;drive ”½{‰ã€‚è¿™¿Uæ“ä½œç§°ä¸ºï¼šlemmatization ã€?/strong>

Stemming å’?lemmatizationçš„å¼‚åŒï¼š

ç›¸åŒä¹‹å¤„åQšStemmingå’Œlemmatizationéƒ½è¦ä½¿è¯æ±‡æˆä¸ø™¯æ ¹åÅžå¼ã€?
ä¸¤è€…çš„æ–¹å¼ä¸åŒåQ?

Stemmingé‡‡ç”¨çš„æ˜¯“¾~©å‡”çš„æ–¹å¼ï¼š“cars”åˆ?#8220;car”åQ?#8220;driving”åˆ?#8220;drive”ã€?
Lemmatizationé‡‡ç”¨çš„æ˜¯“è½¬å˜”çš„æ–¹å¼ï¼š“drove”åˆ?#8220;drive”åQ?#8220;driving”åˆ?#8220;drive”ã€?

ä¸¤è€…çš„½Ž—æ³•ä¸åŒåQ?

Stemmingä¸»è¦æ˜¯é‡‡å–æŸ¿Uå›ºå®šçš„½Ž—æ³•æ¥åš˜q™ç§¾~©å‡åQŒå¦‚åŽ»é™¤“s”åQŒåŽ»é™?#8220;ing”åŠ?#8220;e”åQŒå°†“ational”å˜äØ““ate”åQŒå°†“tional”å˜äØ““tion”ã€?
Lemmatizationä¸»è¦æ˜¯é‡‡ç”¨ä¿å˜æŸ¿Uå—å…¸çš„æ–¹å¼åšè¿™¿Uè{å˜ã€‚æ¯”å¦‚å—å…æ€¸æœ?#8220;driving”åˆ?#8220;drive”åQ?#8220;drove”åˆ?#8220;drive”åQ?#8220;am, is, are”åˆ?#8220;be”çš„æ˜ ž®„ï¼Œåšè{å˜æ—¶åQŒåªè¦æŸ¥å—å…¸ž®±å¯ä»¥äº†ã€?

Stemmingå’Œlemmatizationä¸æ˜¯äº’æ–¥å…³ç³»åQŒæ˜¯æœ‰äº¤é›†çš„åQŒæœ‰çš„è¯åˆ©ç”¨˜q™ä¸¤¿Uæ–¹å¼éƒ½èƒ½è¾¾åˆ°ç›¸åŒçš„è½¬æ¢ã€?

è¯è¨€å¤„ç†¾l„äšg(linguistic processor)çš„ç»“æžœç§°ä¸ø™¯(Term) ã€?/strong>

åœ¨æˆ‘ä»¬çš„ä¾‹åä¸ï¼Œ¾lè¿‡è¯è¨€å¤„ç†åQŒå¾—åˆ°çš„è¯?Term)å¦‚ä¸‹åQ?/p>
“student”åQ?#8220;allow”åQ?#8220;go”åQ?#8220;their”åQ?#8220;friend”åQ?#8220;allow”åQ?#8220;drink”åQ?#8220;beer”åQ?#8220;my”åQ?#8220;friend”åQ?#8220;jerry”åQ?#8220;go”åQ?#8220;school”åQ?#8220;see”åQ?#8220;his”åQ?#8220;student”åQ?#8220;find”åQ?#8220;them”åQ?#8220;drink”åQ?#8220;allow”ã€?/p>
ä¹Ÿæ£æ˜¯å› ä¸ºæœ‰è¯è¨€å¤„ç†çš„æ¥éª¤ï¼Œæ‰èƒ½ä½¿æœç´¢droveåQŒè€Œdriveä¹Ÿèƒ½è¢«æœç´¢å‡ºæ¥ã€?/p>

4ã€å°†å¾—åˆ°çš„è¯(Term)ä¼ ç»™ç´¢å¼•¾l„äšg(Indexer)

ç´¢å¼•¾l„äšgä¸»è¦æ˜¯äØ“äº†å¾—åˆîC¸‹é¢è¿™ä¸ªå›¾åQ?img alt="" src="http://hxraid.javaeye.com/upload/picture/pic/56003/7ca0f9b1-e82a-35c1-a97e-e40c2d4a70c9.jpg" />

åœ¨æ¤è¡¨ä¸åQŒæœ‰å‡ ä¸ªå®šä¹‰åQ?/p>

Document Frequency åÏx–‡æ¡£é¢‘‹Æ¡ï¼Œè¡¨ç¤ºæ€Õd…±æœ‰å¤šž®‘æ–‡ä»¶åŒ…å«æ¤è¯?Term)ã€?
Frequency åŒ™¯é¢‘çŽ‡åQŒè¡¨½Cºæ¤æ–‡äšgä¸åŒ…å«äº†å‡ ä¸ªæ¤è¯(Term)ã€?

æ‰€ä»¥å¯¹è¯?Term) “allow”æ¥è®²åQŒæ€Õd…±æœ‰ä¸¤½‹‡æ–‡æ¡£åŒ…å«æ¤è¯?Term)åQŒä»Žè€Œè¯(Term)åŽé¢çš„æ–‡æ¡£é“¾è¡¨æ€Õd…±æœ‰ä¸¤™å¹ï¼Œ½W¬ä¸€™å¹è¡¨½CºåŒ…å?#8220;allow”çš„ç¬¬ä¸€½‹‡æ–‡æ¡£ï¼Œå?1åäh–‡æ¡£ï¼Œæ¤æ–‡æ¡£ä¸åQ?#8220;allow”å‡ºçŽ°äº?‹Æ¡ï¼Œ½W¬äºŒ™å¹è¡¨½CºåŒ…å?#8220;allow”çš„ç¬¬äºŒä¸ªæ–‡æ¡£åQŒæ˜¯2åäh–‡æ¡£ï¼Œæ¤æ–‡æ¡£ä¸åQ?#8220;allow”å‡ºçŽ°äº?‹Æ¡ã€?/p>

åˆ°æ¤ä¸ºæ¢åQŒçƒ¦å¼•å·²¾låˆ›å»ºå¥½äº†ï¼Œæˆ‘ä»¬å¯ä»¥é€šè¿‡å®ƒå¾ˆå¿«çš„æ‰‘Öˆ°æˆ‘ä»¬æƒŒ™¦çš„æ–‡æ¡£ã€?/p>

è€Œä¸”åœ¨æ¤˜q‡ç¨‹ä¸ï¼Œæˆ‘ä»¬æƒŠå–œåœ°å‘çŽŽÍ¼Œæœçƒ¦“drive”åQ?#8220;driving”åQ?#8220;drove”åQ?#8220;driven”ä¹Ÿèƒ½å¤Ÿè¢«æœåˆ°ã€‚å› ä¸ºåœ¨æˆ‘ä»¬çš„çƒ¦å¼•ä¸åQ?#8220;driving”åQ?#8220;drove”åQ?#8220;driven”éƒ½ä¼š¾lè¿‡è¯è¨€å¤„ç†è€Œå˜æˆ?#8220;drive”åQŒåœ¨æœçƒ¦æ—Óž¼Œå¦‚æžœæ‚¨è¾“å…?#8220;driving”åQŒè¾“å…¥çš„æŸ¥è¯¢è¯å¥åŒæ ·¾lè¿‡æˆ‘ä»¬˜q™é‡Œçš„ä¸€åˆîC¸‰æ¥ï¼Œä»Žè€Œå˜ä¸ºæŸ¥è¯?#8220;drive”åQŒä»Žè€Œå¯ä»¥æœç´¢åˆ°æƒŒ™¦çš„æ–‡æ¡£ã€?/p>

ä¸‰ã€?/span> å¦‚ä½•å¯¹çƒ¦å¼•è¿›è¡Œæœç´¢ï¼Ÿ(Search)

åˆ°è¿™é‡Œä¼¼ä¹Žæˆ‘ä»¬å¯ä»¥å®£å¸?#8220;æˆ‘ä»¬æ‰‘Öˆ°æƒŒ™¦çš„æ–‡æ¡£äº†”ã€?/p>

ç„¶è€Œäº‹æƒ…åÆˆæ²¡æœ‰¾l“æŸåQŒæ‰¾åˆîCº†ä»…ä»…æ˜¯å…¨æ–‡æ£€ç´¢çš„ä¸€ä¸ªæ–¹é¢ã€‚ä¸æ˜¯å—åQŸå¦‚æžœä»…ä»…åªæœ‰ä¸€ä¸ªæˆ–åä¸ªæ–‡æ¡£åŒ…å«æˆ‘ä»¬æŸ¥è¯¢çš„å—½W¦ä¸²åQŒæˆ‘ä»¬çš„¼‹®æ‰¾åˆîCº†ã€‚ç„¶è€Œå¦‚æžœç»“æžœæœ‰ä¸€åƒä¸ªåQŒç”šè‡Ïxˆåƒä¸Šä¸‡ä¸ªå‘¢ï¼Ÿé‚£ä¸ªåˆæ˜¯æ‚¨æœ€æƒŒ™¦çš„æ–‡ä»¶å‘¢åQ?/p>

æ‰“å¼€Googleå§ï¼Œæ¯”å¦‚è¯´æ‚¨æƒ›_œ¨å¾®èÊYæ‰¾ä†¾å·¥ä½œåQŒäºŽæ˜¯æ‚¨è¾“å…¥“Microsoft job”åQŒæ‚¨å´å‘çŽ°æ€Õd…±æœ?2600000ä¸ªç»“æžœè¿”å›žã€‚å¥½å¤§çš„æ•°å—å‘€åQŒçªç„¶å‘çŽ°æ‰¾ä¸åˆ°æ˜¯ä¸€ä¸ªé—®é¢˜ï¼Œæ‰‘Öˆ°çš„å¤ªå¤šä¹Ÿæ˜¯ä¸€ä¸ªé—®é¢˜ã€‚åœ¨å¦‚æ¤å¤šçš„¾l“æžœä¸ï¼Œå¦‚ä½•ž®†æœ€ç›¸å…³çš„æ”¾åœ¨æœ€å‰é¢å‘¢ï¼Ÿ

å½“ç„¶Googleåšçš„å¾ˆä¸é”™ï¼Œæ‚¨ä¸€ä¸‹å°±æ‰‘Öˆ°äº†jobs at Microsoftã€‚æƒ³è±¡ä¸€ä¸‹ï¼Œå¦‚æžœå‰å‡ ä¸ªå…¨éƒ¨æ˜¯“Microsoft does a good job at software industry…”ž®†æ˜¯å¤šä¹ˆå¯æ€•çš„äº‹æƒ…å‘€ã€?/p>

å¦‚ä½•åƒGoogleä¸€æ øP¼Œåœ¨æˆåƒä¸Šä¸‡çš„æœçƒ¦¾l“æžœä¸ï¼Œæ‰‘Öˆ°å’ŒæŸ¥è¯¢è¯å¥æœ€ç›¸å…³çš„å‘¢åQ?/span>

å¦‚ä½•åˆ¤æ–æœçƒ¦å‡ºçš„æ–‡æ¡£å’ŒæŸ¥è¯¢è¯å¥çš„ç›¸å…³æ€§å‘¢åQ?/span>

˜q™è¦å›žåˆ°æˆ‘ä»¬½W¬ä¸‰ä¸ªé—®é¢˜ï¼šå¦‚ä½•å¯¹çƒ¦å¼•è¿›è¡Œæœç´¢ï¼Ÿ

æœçƒ¦ä¸»è¦åˆ†äØ“ä»¥ä¸‹å‡ æ¥åQ?/p>

1ã€ç”¨äºŽè¾“å…¥æŸ¥è¯¢è¯å?/span>

æŸ¥è¯¢è¯å¥åŒæˆ‘ä»¬æ™®é€šçš„è¯è¨€ä¸€æ øP¼Œä¹Ÿæ˜¯æœ‰ä¸€å®šè¯æ³•çš„ã€?/p>
ä¸åŒçš„æŸ¥è¯¢è¯å¥æœ‰ä¸åŒçš„è¯æ³•ï¼Œå¦‚SQLè¯å¥ž®±æœ‰ä¸€å®šçš„è¯æ³•ã€?/p>
æŸ¥è¯¢è¯å¥çš„è¯æ³•æ ¹æ®å…¨æ–‡æ£€ç´¢ç³»¾lŸçš„å®žçŽ°è€Œä¸åŒã€‚æœ€åŸºæœ¬çš„æœ‰æ¯”å¦‚åQšAND, OR, NOT½{‰ã€?/p>
ä¸¾ä¸ªä¾‹ååQŒç”¨æˆ¯‚¾“å…¥è¯å¥ï¼šlucene AND learned NOT hadoopã€?/p>
è¯´æ˜Žç”¨æˆ·æƒÏx‰¾ä¸€ä¸ªåŒ…å«luceneå’Œlearnedç„¶è€Œä¸åŒ…æ‹¬hadoopçš„æ–‡æ¡£ã€?/p>

2ã€å¯¹æŸ¥è¯¢è¯å¥˜q›è¡Œè¯æ³•åˆ†æžåQŒè¯æ³•åˆ†æžåŠè¯è¨€å¤„ç†

ç”×ƒºŽæŸ¥è¯¢è¯å¥æœ‰è¯æ³•ï¼Œå› è€Œä¹Ÿè¦è¿›è¡Œè¯æ³•åˆ†æžï¼Œè¯æ³•åˆ†æžåŠè¯a€å¤„ç†ã€?/p>

è¯æ³•åˆ†æžä¸»è¦ç”¨æ¥è¯†åˆ«å•è¯å’Œå…³é”®å—ã€?/strong>

å¦‚ä¸Š˜qîC¾‹åä¸åQŒç»˜q‡è¯æ³•åˆ†æžï¼Œå¾—åˆ°å•è¯æœ‰luceneåQŒlearnedåQŒhadoop, å…³é”®å—æœ‰AND, NOTã€?/p>
å¦‚æžœåœ¨è¯æ³•åˆ†æžä¸å‘çŽ°ä¸åˆæ³•çš„å…³é”®å—ï¼Œåˆ™ä¼šå‡ºçŽ°é”™è¯¯ã€‚å¦‚lucene AMD learnedåQŒå…¶ä¸ç”±äºŽANDæ‹¼é”™åQŒå¯¼è‡´AMDä½œäØ“ä¸€ä¸ªæ™®é€šçš„å•è¯å‚ä¸ŽæŸ¥è¯¢ã€?/p>

è¯æ³•åˆ†æžä¸»è¦æ˜¯æ ¹æ®æŸ¥è¯¢è¯å¥çš„è¯æ³•è§„åˆ™æ¥åÅžæˆä¸€‹‚µè¯æ³•æ ‘ã€?/strong>

å¦‚æžœå‘çŽ°æŸ¥è¯¢è¯å¥ä¸æ»¡‘Œ™¯æ³•è§„åˆ™ï¼Œåˆ™ä¼šæŠ¥é”™ã€‚å¦‚lucene NOT AND learnedåQŒåˆ™ä¼šå‡ºé”™ã€?/p>

è¯è¨€å¤„ç†åŒçƒ¦å¼•è¿‡½E‹ä¸çš„è¯a€å¤„ç†å‡ ä¹Žç›¸åŒã€?/strong>

å¦‚learnedå˜æˆlearn½{‰ã€?/p>

3ã€æœç´¢çƒ¦å¼•ï¼Œå¾—åˆ°½W¦åˆè¯æ³•æ ‘çš„æ–‡æ¡£

æ¤æ¥éª¤æœ‰åˆ†å‡ ž®æ¥åQ?/p>
é¦–å…ˆåQŒåœ¨åå‘ç´¢å¼•è¡¨ä¸åQŒåˆ†åˆ«æ‰¾å‡ºåŒ…å«luceneåQŒlearnåQŒhadoopçš„æ–‡æ¡£é“¾è¡¨ã€?strong>

å…¶æ¬¡åQŒå¯¹åŒ…å«luceneåQŒlearnçš„é“¾è¡¨è¿›è¡Œåˆòq¶æ“ä½œï¼Œå¾—åˆ°æ—¢åŒ…å«luceneåˆåŒ…å«learnçš„æ–‡æ¡£é“¾è¡¨ã€?strong>

ç„¶åŽåQŒå°†æ¤é“¾è¡¨ä¸Žhadoopçš„æ–‡æ¡£é“¾è¡¨è¿›è¡Œå·®æ“ä½œåQŒåŽ»é™¤åŒ…å«hadoopçš„æ–‡æ¡£ï¼Œä»Žè€Œå¾—åˆ°æ—¢åŒ…å«luceneåˆåŒ…å«learnè€Œä¸”ä¸åŒ…å«hadoopçš„æ–‡æ¡£é“¾è¡¨ã€?strong>

æœ€åŽï¼Œæ¤æ–‡æ¡£é“¾è¡¨å°±æ˜¯æˆ‘ä»¬è¦æ‰„¡š„æ–‡æ¡£ã€?

4ã€æ ¹æ®å¾—åˆ°çš„æ–‡æ¡£å’ŒæŸ¥è¯¢è¯å¥çš„ç›¸å…³æ€§ï¼Œå¯¹ç»“æžœè¿›è¡ŒæŽ’åºã€?/span>

è™½ç„¶åœ¨ä¸Šä¸€æ¥ï¼Œæˆ‘ä»¬å¾—åˆ°äº†æƒ³è¦çš„æ–‡æ¡£åQŒç„¶è€Œå¯¹äºŽæŸ¥è¯¢ç»“æžœåº”è¯¥æŒ‰ç…§ä¸ŽæŸ¥è¯¢è¯å¥çš„ç›¸å…Ïx€§è¿›è¡ŒæŽ’åºï¼Œ‘Šç›¸å…Œ™€…è¶Šé å‰ã€?/p>

å¦‚ä½•è®¡ç®—æ–‡æ¡£å’ŒæŸ¥è¯¢è¯å¥çš„ç›¸å…³æ€§å‘¢åQ?/span>

ä¸å¦‚æˆ‘ä»¬æŠŠæŸ¥è¯¢è¯å¥çœ‹ä½œä¸€ç‰‡çŸž®çš„æ–‡æ¡£åQŒå¯¹æ–‡æ¡£ä¸Žæ–‡æ¡£ä¹‹é—´çš„ç›¸å…³æ€?relevance)˜q›è¡Œæ‰“åˆ†(scoring)åQŒåˆ†æ•°é«˜çš„ç›¸å…Ïx€§å¥½åQŒå°±åº”è¯¥æŽ’åœ¨å‰é¢ã€?/p>

é‚£ä¹ˆåˆæ€Žä¹ˆå¯ÒŽ–‡æ¡£ä¹‹é—´çš„å…³ç³»˜q›è¡Œæ‰“åˆ†å‘¢ï¼Ÿ

é¦–å…ˆåQŒä¸€ä¸ªæ–‡æ¡£æœ‰å¾ˆå¤šè¯?Term)¾l„æˆ åQ?/span> å¦‚search, lucene, full-text, this, a, what½{‰ã€?/p>
å…¶æ¬¡å¯¹äºŽæ–‡æ¡£ä¹‹é—´çš„å…³¾p»ï¼Œä¸åŒçš„Termé‡è¦æ€§ä¸å?/strong> åQ?/span> æ¯”å¦‚å¯¹äºŽæœ¬ç¯‡æ–‡æ¡£åQŒsearch, Lucene, full-textž®Þq›¸å¯šw‡è¦ä¸€äº›ï¼Œthis, a , whatå¯èƒ½ç›¸å¯¹ä¸é‡è¦ä¸€äº›ã€‚æ‰€ä»¥å¦‚æžœä¸¤½‹‡æ–‡æ¡£éƒ½åŒ…å«search, LuceneåQŒfulltextåQŒè¿™ä¸¤ç¯‡æ–‡æ¡£çš„ç›¸å…Ïx€§å¥½ä¸€äº›ï¼Œç„¶è€Œå°±½Ž—ä¸€½‹‡æ–‡æ¡£åŒ…å«this, a, whatåQŒå¦ä¸€½‹‡æ–‡æ¡£ä¸åŒ…å«this, a, whatåQŒä¹Ÿä¸èƒ½å½±å“ä¸¤ç¯‡æ–‡æ¡£çš„ç›¸å…Ïx€§ã€?/p>
å› è€Œåˆ¤æ–æ–‡æ¡£ä¹‹é—´çš„å…³ç³»åQŒé¦–å…ˆæ‰¾å‡ºå“ªäº›è¯(Term)å¯ÒŽ–‡æ¡£ä¹‹é—´çš„å…³ç³»æœ€é‡è¦åQŒå¦‚search, Lucene, fulltextã€‚ç„¶åŽåˆ¤æ–è¿™äº›è¯(Term)ä¹‹é—´çš„å…³¾p…R€?/p>
æ‰‘Ö‡ºè¯?Term) å¯ÒŽ–‡æ¡£çš„é‡è¦æ€§çš„˜q‡ç¨‹¿UîCØ“è®¡ç®—è¯çš„æƒé‡(Term weight) çš„è¿‡½E‹ã€?/strong>

è®¡ç®—è¯çš„æƒé‡(term weight)æœ‰ä¸¤ä¸ªå‚æ•ŽÍ¼Œ½W¬ä¸€ä¸ªæ˜¯è¯?Term)åQŒç¬¬äºŒä¸ªæ˜¯æ–‡æ¡?Document)ã€?/p>
è¯çš„æƒé‡(Term weight)è¡¨ç¤ºæ¤è¯(Term)åœ¨æ¤æ–‡æ¡£ä¸çš„é‡è¦½E‹åº¦åQŒè¶Šé‡è¦çš„è¯(Term)æœ‰è¶Šå¤§çš„æƒé‡(Term weight)åQŒå› è€Œåœ¨è®¡ç®—æ–‡æ¡£ä¹‹é—´çš„ç›¸å…Ïx€§ä¸ž®†å‘æŒ¥æ›´å¤§çš„ä½œç”¨ã€?/p>
åˆ¤æ–è¯?Term) ä¹‹é—´çš„å…³¾pÖM»Žè€Œå¾—åˆ°æ–‡æ¡£ç›¸å…Ïx€§çš„˜q‡ç¨‹åº”ç”¨ä¸€¿Uå«åšå‘é‡ç©ºé—´æ¨¡åž‹çš„½Ž—æ³•(Vector Space Model) ã€?/strong>

ä¸‹é¢ä»”ç»†åˆ†æžä¸€ä¸‹è¿™ä¸¤ä¸ª˜q‡ç¨‹åQ?/p>
1. è®¡ç®—æƒé‡(Term weight)çš„è¿‡½E‹ã€?/strong>

å½±å“ä¸€ä¸ªè¯(Term)åœ¨ä¸€½‹‡æ–‡æ¡£ä¸çš„é‡è¦æ€§ä¸»è¦æœ‰ä¸¤ä¸ªå› ç´ åQ?/p>

Term Frequency (tf)åQšå³æ¤Termåœ¨æ¤æ–‡æ¡£ä¸å‡ºçŽîCº†å¤šå°‘‹Æ¡ã€‚tf ‘Šå¤§è¯´æ˜Ž‘Šé‡è¦ã€?
Document Frequency (df)åQšå³æœ‰å¤šž®‘æ–‡æ¡£åŒ…å«æ¬¡Termã€‚df ‘Šå¤§è¯´æ˜Ž‘Šä¸é‡è¦ ã€?/span>

å®ÒŽ˜“ç†è§£å—ï¼Ÿè¯?Term)åœ¨æ–‡æ¡£ä¸å‡ºçŽ°çš„æ¬¡æ•°è¶Šå¤šï¼Œè¯´æ˜Žæ¤è¯(Term)å¯¹è¯¥æ–‡æ¡£‘Šé‡è¦ï¼Œå¦?#8220;æœçƒ¦”˜q™ä¸ªè¯ï¼Œåœ¨æœ¬æ–‡æ¡£ä¸å‡ºçŽ°çš„‹Æ¡æ•°å¾ˆå¤šåQŒè¯´æ˜Žæœ¬æ–‡æ¡£ä¸»è¦ž®±æ˜¯è®²è¿™æ–šw¢çš„äº‹çš„ã€‚ç„¶è€Œåœ¨ä¸€½‹‡è‹±è¯æ–‡æ¡£ä¸åQŒthiså‡ºçŽ°çš„æ¬¡æ•°æ›´å¤šï¼Œž®Þp¯´æ˜Žè¶Šé‡è¦å—ï¼Ÿä¸æ˜¯çš„ï¼Œ˜q™æ˜¯ç”Þq¬¬äºŒä¸ªå› ç´ ˜q›è¡Œè°ƒæ•´åQŒç¬¬äºŒä¸ªå› ç´ è¯´æ˜ŽåQŒæœ‰‘Šå¤šçš„æ–‡æ¡£åŒ…å«æ¤è¯?Term), è¯´æ˜Žæ¤è¯(Term)å¤ªæ™®é€šï¼Œä¸èƒöä»¥åŒºåˆ†è¿™äº›æ–‡æ¡£ï¼Œå› è€Œé‡è¦æ€§è¶Šä½Žã€?/p>

˜q™ä¹Ÿå¦‚æˆ‘ä»¬ç¨‹åºå‘˜æ‰€å¦çš„æŠ€æœ¯ï¼Œå¯¹äºŽ½E‹åºå‘˜æœ¬íw«æ¥è¯ß_¼Œ˜q™é¡¹æŠ€æœ¯æŽŒæ¡è¶Šæ·Þp¶Šå¥½ï¼ˆæŽŒæ¡‘Šæ·±è¯´æ˜ŽèŠ±æ—¶é—´çœ‹çš„è¶Šå¤šï¼Œtf‘Šå¤§åQ‰ï¼Œæ‰‘Ö·¥ä½œæ—¶‘Šæœ‰ç«žäº‰åŠ›ã€‚ç„¶è€Œå¯¹äºŽæ‰€æœ‰ç¨‹åºå‘˜æ¥è¯´åQŒè¿™™åÒŽŠ€æœ¯æ‡‚å¾—çš„äºø™¶Šž®‘è¶Šå¥½ï¼ˆæ‡‚å¾—çš„ähž®‘dfž®ï¼‰åQŒæ‰¾å·¥ä½œ‘Šæœ‰ç«žäº‰åŠ›ã€‚ähçš„ähå€¼åœ¨äºŽä¸å¯æ›¿ä»£æ€§å°±æ˜¯è¿™ä¸ªé“ç†ã€?/p>

é“ç†æ˜Žç™½äº†ï¼Œæˆ‘ä»¬æ¥çœ‹çœ‹å…¬å¼ï¼š

˜q™ä»…ä»…åªterm weightè®¡ç®—å…¬å¼çš„ç®€å•å…¸åž‹å®žçŽ°ã€‚å®žçŽ°å…¨æ–‡æ£€ç´¢ç³»¾lŸçš„äºÞZ¼šæœ‰è‡ªå·Þqš„å®žçŽ°åQŒLucenež®×ƒ¸Žæ¤ç¨æœ‰ä¸åŒã€?/p>
2. åˆ¤æ–Termä¹‹é—´çš„å…³¾pÖM»Žè€Œå¾—åˆ°æ–‡æ¡£ç›¸å…Ïx€§çš„˜q‡ç¨‹åQŒä¹Ÿå›_‘é‡ç©ºé—´æ¨¡åž‹çš„½Ž—æ³•(VSM)ã€?/strong>

æˆ‘ä»¬æŠŠæ–‡æ¡£çœ‹ä½œä¸€¾pÕdˆ—è¯?Term)åQŒæ¯ä¸€ä¸ªè¯(Term)éƒ½æœ‰ä¸€ä¸ªæƒé‡?Term weight)åQŒä¸åŒçš„è¯?Term)æ ÒŽ®è‡ªå·±åœ¨æ–‡æ¡£ä¸çš„æƒé‡æ¥å½±å“æ–‡æ¡£ç›¸å…³æ€§çš„æ‰“åˆ†è®¡ç®—ã€?/p>
äºŽæ˜¯æˆ‘ä»¬æŠŠæ‰€æœ‰æ¤æ–‡æ¡£ä¸è¯(term)çš„æƒé‡?term weight) çœ‹ä½œä¸€ä¸ªå‘é‡ã€?/p>
Document = {term1, term2, …… ,term N}

Document Vector = {weight1, weight2, …… ,weight N}

åŒæ ·æˆ‘ä»¬æŠŠæŸ¥è¯¢è¯å¥çœ‹ä½œä¸€ä¸ªç®€å•çš„æ–‡æ¡£åQŒä¹Ÿç”¨å‘é‡æ¥è¡¨ç¤ºã€?/p>
Query = {term1, term 2, …… , term N}

Query Vector = {weight1, weight2, …… , weight N}

æˆ‘ä»¬æŠŠæ‰€æœ‰æœç´¢å‡ºçš„æ–‡æ¡£å‘é‡åŠæŸ¥è¯¢å‘é‡æ”‘Öˆ°ä¸€ä¸ªN¾l´ç©ºé—´ä¸åQŒæ¯ä¸ªè¯(term)æ˜¯ä¸€¾l´ã€?/p>

æˆ‘ä»¬è®¤äØ“ä¸¤ä¸ªå‘é‡ä¹‹é—´çš„å¤¹è§’è¶Šž®ï¼Œç›¸å…³æ€§è¶Šå¤§ã€?/p>
æ‰€ä»¥æˆ‘ä»¬è®¡½Ž—å¤¹è§’çš„ä½™åëuå€ég½œä¸ºç›¸å…Ïx€§çš„æ‰“åˆ†åQŒå¤¹è§’è¶Šž®ï¼Œä½™åëuå€ÆD¶Šå¤§ï¼Œæ‰“åˆ†‘Šé«˜åQŒç›¸å…Ïx€§è¶Šå¤§ã€?/p>
æœ‰ähå¯èƒ½ä¼šé—®åQŒæŸ¥è¯¢è¯å¥ä¸€èˆ¬æ˜¯å¾ˆçŸçš„ï¼ŒåŒ…å«çš„è¯(Term)æ˜¯å¾ˆž®‘çš„åQŒå› è€ŒæŸ¥è¯¢å‘é‡çš„¾l´æ•°å¾ˆå°åQŒè€Œæ–‡æ¡£å¾ˆé•¿ï¼ŒåŒ…å«è¯?Term)å¾ˆå¤šåQŒæ–‡æ¡£å‘é‡ç»´æ•°å¾ˆå¤§ã€‚ä½ çš„å›¾ä¸ä¸¤è€…ç»´æ•°æ€Žä¹ˆéƒ½æ˜¯Nå‘¢ï¼Ÿ

åœ¨è¿™é‡Œï¼Œæ—¢ç„¶è¦æ”¾åˆ°ç›¸åŒçš„å‘é‡½Iºé—´åQŒè‡ªç„¶ç»´æ•°æ˜¯ç›¸åŒçš„ï¼Œä¸åŒæ—Óž¼Œå–äºŒè€…çš„òq‰™›†åQŒå¦‚æžœä¸å«æŸä¸ªè¯(Term)æ—Óž¼Œåˆ™æƒé‡?Term Weight)ä¸?ã€?/p>
ç›¸å…³æ€§æ‰“åˆ†å…¬å¼å¦‚ä¸‹ï¼š

æ ÒŽ®˜q™ä¸ªå…¬å¼ž®Þpƒ½½Ž—å‡ºæ–‡æ¡£ä¸ŽæŸ¥è¯¢ä¹‹é—´çš„ç›æ€¼¼½E‹åº¦äº†ã€?/p>

å››ã€æ€È»“

å¯¹ä¸Š˜q°çƒ¦å¼•åˆ›å»ºå’Œæœçƒ¦˜q‡ç¨‹æ‰€ä¸€ä¸ªæ€È»“åQŒå¦‚å›¾ï¼š

æ¤å›¾å‚ç…§http://www.lucene.com.cn/about.htm ä¸æ–‡ç« ã€Šå¼€æ”¾æºä»£ç çš„å…¨æ–‡æ£€ç´¢å¼•æ“ŽLuceneã€?/p>

1. ç´¢å¼•˜q‡ç¨‹åQ?/strong>

a æœ‰ä¸€¾pÕdˆ—è¢«çƒ¦å¼•æ–‡ä»?/strong>

b) è¢«çƒ¦å¼•æ–‡ä»¶ç»˜q‡è¯æ³•åˆ†æžå’Œè¯è¨€å¤„ç†å½¢æˆä¸€¾pÕdˆ—è¯?Term) ã€?/strong>

c) ¾lè¿‡ç´¢å¼•åˆ›å¾å½¢æˆè¯å…¸å’Œåå‘çƒ¦å¼•è¡¨ã€?/strong>

d) é€šè¿‡ç´¢å¼•å˜å‚¨ž®†çƒ¦å¼•å†™å…¥ç¡¬ç›˜ã€?/strong>

2. æœçƒ¦˜q‡ç¨‹åQ?/strong>

a) ç”¨æˆ·è¾“å…¥æŸ¥è¯¢è¯å¥ã€?/strong>

b) å¯ÒŽŸ¥è¯¢è¯å¥ç»˜q‡è¯æ³•åˆ†æžå’Œè¯è¨€åˆ†æžå¾—åˆ°ä¸€¾pÕdˆ—è¯?Term) ã€?/strong>

c) é€šè¿‡è¯æ³•åˆ†æžå¾—åˆ°ä¸€ä¸ªæŸ¥è¯¢æ ‘ã€?/strong>

d) é€šè¿‡ç´¢å¼•å˜å‚¨ž®†çƒ¦å¼•è¯»å…¥åˆ°å†…å˜ã€?/strong>

e) åˆ©ç”¨æŸ¥è¯¢æ ‘æœç´¢çƒ¦å¼•ï¼Œä»Žè€Œå¾—åˆ°æ¯ä¸ªè¯(Term) çš„æ–‡æ¡£é“¾è¡¨ï¼Œå¯ÒŽ–‡æ¡£é“¾è¡¨è¿›è¡Œäº¤åQŒå·®åQŒåÆˆå¾—åˆ°¾l“æžœæ–‡æ¡£ã€?/strong>

f) ž®†æœç´¢åˆ°çš„ç»“æžœæ–‡æ¡£å¯¹æŸ¥è¯¢çš„ç›¸å…Ïx€§è¿›è¡ŒæŽ’åºã€?/strong>

g) ˜q”å›žæŸ¥è¯¢¾l“æžœ¾l™ç”¨æˆ—÷€?/strong>

ä½•å…‹å‹?/a> 2010-10-04 10:36 å‘è¡¨è¯„è®º
]]>

狠狠久久亚洲欧美专区_中文字幕亚洲综合久久202_国产精品亚洲第五区在线_日本免费网站视频

Ö÷Õ¾Ö©Öë³ØÄ£°å£º ÍÅ·çÏØ| ¸ßÇå| Æ½Ô¶ÏØ| ÎýÁÖºÆÌØÊÐ| ·ðÆºÏØ| ÏÌÑôÊÐ| ÍÂÂ³·¬ÊÐ| ÐÞÎäÏØ| ×¯ÀËÏØ| À³ÎßÊÐ| ¿üÍÍÊÐ| Ì¨¶«ÊÐ| ½¨ºþÏØ| Ï²µÂÏØ| ÐÂçÏØ| Ã÷Ë®ÏØ| Ì¨Ç°ÏØ| ËçÖÐÏØ| ÐÂÏçÏØ| ãäÁêÏØ| ½±±Çø| ÅîÀ³ÊÐ| ·Ê¶«ÏØ| ¸·ÄþÏØ| ÄÇÇúÏØ| ÒÊË®ÏØ| ¼ÎÓø¹ØÊÐ| ¹¤²¼½´ïÏØ| Ã¼É½ÊÐ| ¾²°²Çø| ÑÀ¿ËÊ¯ÊÐ| ÈÊ»³ÊÐ| ±¦Ó¦ÏØ| ¾£ÃÅÊÐ| ÉÌÂåÊÐ| ½É½ÊÐ| ½ðËþÏØ| ¸ß±®µêÊÐ| ÌìÈ«ÏØ| ÓñÁÖÊÐ| ÉÌÂåÊÐ|

1. è®¡ç®—æƒé‡(Term weight)çš„è¿‡½E‹ã€?/strong>

2. åˆ¤æ–­Termä¹‹é—´çš„å…³¾pÖM»Žè€Œå¾—åˆ°æ–‡æ¡£ç›¸å…Ïx€§çš„˜q‡ç¨‹åQŒä¹Ÿå›_‘é‡ç©ºé—´æ¨¡åž‹çš„½Ž—æ³•(VSM)ã€?/strong>

1. è®¡ç®—æƒé‡(Term weight)çš„è¿‡½E‹ã€?/strong>

2. åˆ¤æ–Termä¹‹é—´çš„å…³¾pÖM»Žè€Œå¾—åˆ°æ–‡æ¡£ç›¸å…Ïx€§çš„˜q‡ç¨‹åQŒä¹Ÿå›_‘é‡ç©ºé—´æ¨¡åž‹çš„½Ž—æ³•(VSM)ã€?/strong>