Luceneæ•°æ®å˜å‚¨¾l“æž„ä¸çš„VIntåQˆå¯å˜é•¿åº¦æ•´åž‹ï¼‰</h1> <p>persister — Tue, 02 Feb 2010 03:08:00 GMT</p>  <p> A variable-length format for positive integers is defined where the high-order bit of each byte indicates whether more bytes remain to be read. The low-order seven bits are appended as increasingly more significant bits in the resulting integer value. Thus values from zero to 127 may be stored in a single byte, values from 128 to 16,383 may be stored in two bytes, and so on. <br> </p> <p>å¯å˜æ ¼å¼çš„æ•´åž‹å®šä¹‰ï¼šæœ€é«˜ä½è¡¨ç¤ºæ˜¯å¦˜q˜æœ‰å—èŠ‚è¦è¯»å–ï¼Œä½Žä¸ƒä½å°±æ˜¯å°±æ˜¯å…·ä½“çš„æœ‰æ•ˆä½ï¼Œæ·ÕdŠ åˆ?/p> </p><p>¾l“æžœæ•°æ®ä¸ã€‚æ¯”å¦?0000001 æœ€é«˜ä½è¡¨ç¤º0åQŒé‚£ä¹ˆè¯´æ˜Žè¿™ä¸ªæ•°ž®±æ˜¯ä¸€ä¸ªå—èŠ‚è¡¨½Cºï¼Œæœ‰æ•ˆä½æ˜¯åŽé¢çš„ä¸ƒä½?000001åQŒå€égØ“1ã€?0000010 00000001 ½W¬ä¸€ä¸ªå—èŠ‚æœ€é«˜ä½ä¸?åQŒè¡¨½CºåŽé¢è¿˜æœ‰å—èŠ‚ï¼Œ½W¬äºŒä½æœ€é«˜ä½0è¡¨ç¤ºåˆ°æ¤ä¸ºæ¢äº†ï¼Œå›_°±æ˜¯ä¸¤ä¸ªå—èŠ‚ï¼Œé‚£ä¹ˆå…·ä½“çš„å€¼æ³¨æ„ï¼Œæ˜¯ä»Žæœ€åŽä¸€ä¸ªå—èŠ‚çš„ä¸ƒä½æœ‰æ•ˆæ•°æ”¾åœ¨æœ€å‰é¢åQŒä¾‹Æ¡æ”¾¾|®ï¼Œæœ€åŽæ˜¯½W¬ä¸€ä¸ªè‡ªå·Þqš„ä¸ƒä½æœ‰æ•ˆä½ï¼Œæ‰€ä»¥è¿™ä¸ªæ•°è¡¨ç¤º 0000001 0000010åQŒæ¢½Ž—æˆæ•´æ•°ž®±æ˜¯130<br> </p> <p><strong>VInt Encoding Example</strong></p> <table> <tbody> <tr> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p align="RIGHT"><strong>Value</strong> </p> </font> </td> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p align="RIGHT"><strong>First byte</strong> </p> </font> </td> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p align="RIGHT"><strong>Second byte</strong> </p> </font> </td> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p align="RIGHT"><strong>Third byte</strong> </p> </font> </td> </tr> <tr> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p align="RIGHT">0 </p> </font> </td> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p style="margin-left: 0.11cm; margin-right: 0.01cm;" align="RIGHT"> 00000000 </p> </font> </td> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p style="margin-left: -0.07cm; margin-right: 0.01cm;" align="RIGHT"><br> </p> </font> </td> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p style="margin-left: -0.47cm; margin-right: 0.01cm;" align="RIGHT"><br> </p> </font> </td> </tr> <tr> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p align="RIGHT">1 </p> </font> </td> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p style="margin-left: 0.11cm; margin-right: 0.01cm;" align="RIGHT"> 00000001 </p> </font> </td> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p style="margin-left: -0.07cm; margin-right: 0.01cm;" align="RIGHT"><br> </p> </font> </td> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p style="margin-left: -0.47cm; margin-right: 0.01cm;" align="RIGHT"><br> </p> </font> </td> </tr> <tr> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p align="RIGHT">2 </p> </font> </td> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p style="margin-left: 0.11cm; margin-right: 0.01cm;" align="RIGHT"> 00000010 </p> </font> </td> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p style="margin-left: -0.07cm; margin-right: 0.01cm;" align="RIGHT"><br> </p> </font> </td> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p style="margin-left: -0.47cm; margin-right: 0.01cm;" align="RIGHT"><br> </p> </font> </td> </tr> <tr> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p align="RIGHT">... </p> </font> </td> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p style="margin-left: 0.11cm; margin-right: 0.01cm;" align="RIGHT"><br> </p> </font> </td> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p style="margin-left: -0.07cm; margin-right: 0.01cm;" align="RIGHT"><br> </p> </font> </td> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p style="margin-left: -0.47cm; margin-right: 0.01cm;" align="RIGHT"><br> </p> </font> </td> </tr> <tr> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p align="RIGHT">127 </p> </font> </td> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p style="margin-left: 0.11cm; margin-right: 0.01cm;" align="RIGHT"> 01111111 </p> </font> </td> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p style="margin-left: -0.07cm; margin-right: 0.01cm;" align="RIGHT"><br> </p> </font> </td> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p style="margin-left: -0.47cm; margin-right: 0.01cm;" align="RIGHT"><br> </p> </font> </td> </tr> <tr> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p align="RIGHT">128 </p> </font> </td> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p style="margin-left: 0.11cm; margin-right: 0.01cm;" align="RIGHT"> 10000000 </p> </font> </td> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p style="margin-left: -0.07cm; margin-right: 0.01cm;" align="RIGHT"> 00000001 </p> </font> </td> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p style="margin-left: -0.47cm; margin-right: 0.01cm;" align="RIGHT"><br> </p> </font> </td> </tr> <tr> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p align="RIGHT">129 </p> </font> </td> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p style="margin-left: 0.11cm; margin-right: 0.01cm;" align="RIGHT"> 10000001 </p> </font> </td> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p style="margin-left: -0.07cm; margin-right: 0.01cm;" align="RIGHT"> 00000001 </p> </font> </td> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p style="margin-left: -0.47cm; margin-right: 0.01cm;" align="RIGHT"><br> </p> </font> </td> </tr> <tr> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p align="RIGHT">130 </p> </font> </td> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p style="margin-left: 0.11cm; margin-right: 0.01cm;" align="RIGHT"> 10000010 </p> </font> </td> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p style="margin-left: -0.07cm; margin-right: 0.01cm;" align="RIGHT"> 00000001 </p> </font> </td> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p style="margin-left: -0.47cm; margin-right: 0.01cm;" align="RIGHT"><br> </p> </font> </td> </tr> <tr> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p align="RIGHT">... </p> </font> </td> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p style="margin-left: 0.11cm; margin-right: 0.01cm;" align="RIGHT"><br> </p> </font> </td> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p style="margin-left: -0.07cm; margin-right: 0.01cm;" align="RIGHT"><br> </p> </font> </td> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p style="margin-left: -0.47cm; margin-right: 0.01cm;" align="RIGHT"><br> </p> </font> </td> </tr> <tr> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p align="RIGHT">16,383 </p> </font> </td> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p style="margin-left: 0.11cm; margin-right: 0.01cm;" align="RIGHT"> 11111111 </p> </font> </td> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p style="margin-left: -0.07cm; margin-right: 0.01cm;" align="RIGHT"> 01111111 </p> </font> </td> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p style="margin-left: -0.47cm; margin-right: 0.01cm;" align="RIGHT"><br> </p> </font> </td> </tr> <tr> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p align="RIGHT">16,384 </p> </font> </td> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p style="margin-left: 0.11cm; margin-right: 0.01cm;" align="RIGHT"> 10000000 </p> </font> </td> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p style="margin-left: -0.07cm; margin-right: 0.01cm;" align="RIGHT"> 10000000 </p> </font> </td> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p style="margin-left: -0.47cm; margin-right: 0.01cm;" align="RIGHT"> 00000001 </p> </font> </td> </tr> <tr> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p align="RIGHT">16,385 </p> </font> </td> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p style="margin-left: 0.11cm; margin-right: 0.01cm;" align="RIGHT"> 10000001 </p> </font> </td> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p style="margin-left: -0.07cm; margin-right: 0.01cm;" align="RIGHT"> 10000000 </p> </font> </td> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p style="margin-left: -0.47cm; margin-right: 0.01cm;" align="RIGHT"> 00000001 </p> </font> </td> </tr> <tr> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p align="RIGHT">... </p> </font> </td> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p style="margin-left: 0.11cm; margin-right: 0.01cm;" align="RIGHT"> <br> </p> </font> </td> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p style="margin-left: -0.07cm; margin-right: 0.01cm;" align="RIGHT"> <br> </p> </font> </td> <td colspan="" rowspan="" valign="top" align="left" bgcolor="#a0ddf0"> <font color="#000000" face="arial,helvetica,sanserif" size="-1"> <p style="margin-left: -0.47cm; margin-right: 0.01cm;" align="RIGHT"> <br> </p> </font> </td> </tr> </tbody> </table> <p><br> </p> <p>Luceneæºä»£ç ä¸˜q›è¡Œå˜å‚¨å’Œè¯»å–æ˜¯˜q™æ ·çš„ã€‚OutputStreamæ˜¯è´Ÿè´£å†™åQ?/p> </p><div style="border: 1px solid #cccccc; padding: 4px 5px 4px 4px; background-color: #eeeeee; font-size: 13px; width: 98%;"><span style="color: #008080;"> 1</span> <span style="color: #000000;"> </span><span style="color: #008000;">/**</span><span style="color: #008000;"> Writes an int in a variable-length format. Writes between one and<br> </span><span style="color: #008080;"> 2</span> <span style="color: #008000;"> * five bytes. Smaller values take fewer bytes. Negative numbers are not<br> </span><span style="color: #008080;"> 3</span> <span style="color: #008000;"> * supported.<br> </span><span style="color: #008080;"> 4</span> <span style="color: #008000;"> * </span><span style="color: #808080;">@see</span><span style="color: #008000;"> InputStream#readVInt()<br> </span><span style="color: #008080;"> 5</span> <span style="color: #008000;"> </span><span style="color: #008000;">*/</span><span style="color: #000000;"><br> </span><span style="color: #008080;"> 6</span> <span style="color: #000000;"> </span><span style="color: #0000ff;">public</span><span style="color: #000000;"> </span><span style="color: #0000ff;">final</span><span style="color: #000000;"> </span><span style="color: #0000ff;">void</span><span style="color: #000000;"> writeVInt(</span><span style="color: #0000ff;">int</span><span style="color: #000000;"> i) </span><span style="color: #0000ff;">throws</span><span style="color: #000000;"> IOException {<br> </span><span style="color: #008080;"> 7</span> <span style="color: #000000;"> </span><span style="color: #0000ff;">while</span><span style="color: #000000;"> ((i </span><span style="color: #000000;">&</span><span style="color: #000000;"> </span><span style="color: #000000;">~</span><span style="color: #000000;">0x7F</span><span style="color: #000000;">) </span><span style="color: #000000;">!=</span><span style="color: #000000;"> </span><span style="color: #000000;">0</span><span style="color: #000000;">) {<br> </span><span style="color: #008080;"> 8</span> <span style="color: #000000;"> writeByte((</span><span style="color: #0000ff;">byte</span><span style="color: #000000;">)((i </span><span style="color: #000000;">&</span><span style="color: #000000;"> </span><span style="color: #000000;">0x7f</span><span style="color: #000000;">) </span><span style="color: #000000;">|</span><span style="color: #000000;"> </span><span style="color: #000000;">0x80</span><span style="color: #000000;">));<br> </span><span style="color: #008080;"> 9</span> <span style="color: #000000;"> i </span><span style="color: #000000;">>>>=</span><span style="color: #000000;"> </span><span style="color: #000000;">7</span><span style="color: #000000;">;<br> </span><span style="color: #008080;">10</span> <span style="color: #000000;"> }<br> </span><span style="color: #008080;">11</span> <span style="color: #000000;"> writeByte((</span><span style="color: #0000ff;">byte</span><span style="color: #000000;">)i);<br> </span><span style="color: #008080;">12</span> <span style="color: #000000;"> }</span></div> <br> InputStreamè´Ÿè´£è¯»ï¼š<br> <div style="border: 1px solid #cccccc; padding: 4px 5px 4px 4px; background-color: #eeeeee; font-size: 13px; width: 98%;"><span style="color: #008080;"> 1</span> <span style="color: #000000;"> </span><span style="color: #008000;">/**</span><span style="color: #008000;"> Reads an int stored in variable-length format. Reads between one and<br> </span><span style="color: #008080;"> 2</span> <span style="color: #008000;"> * five bytes. Smaller values take fewer bytes. Negative numbers are not<br> </span><span style="color: #008080;"> 3</span> <span style="color: #008000;"> * supported.<br> </span><span style="color: #008080;"> 4</span> <span style="color: #008000;"> * </span><span style="color: #808080;">@see</span><span style="color: #008000;"> OutputStream#writeVInt(int)<br> </span><span style="color: #008080;"> 5</span> <span style="color: #008000;"> </span><span style="color: #008000;">*/</span><span style="color: #000000;"><br> </span><span style="color: #008080;"> 6</span> <span style="color: #000000;"> </span><span style="color: #0000ff;">public</span><span style="color: #000000;"> </span><span style="color: #0000ff;">final</span><span style="color: #000000;"> </span><span style="color: #0000ff;">int</span><span style="color: #000000;"> readVInt() </span><span style="color: #0000ff;">throws</span><span style="color: #000000;"> IOException {<br> </span><span style="color: #008080;"> 7</span> <span style="color: #000000;"> </span><span style="color: #0000ff;">byte</span><span style="color: #000000;"> b </span><span style="color: #000000;">=</span><span style="color: #000000;"> readByte();<br> </span><span style="color: #008080;"> 8</span> <span style="color: #000000;"> </span><span style="color: #0000ff;">int</span><span style="color: #000000;"> i </span><span style="color: #000000;">=</span><span style="color: #000000;"> b </span><span style="color: #000000;">&</span><span style="color: #000000;"> </span><span style="color: #000000;">0x7F</span><span style="color: #000000;">;<br> </span><span style="color: #008080;"> 9</span> <span style="color: #000000;"> </span><span style="color: #0000ff;">for</span><span style="color: #000000;"> (</span><span style="color: #0000ff;">int</span><span style="color: #000000;"> shift </span><span style="color: #000000;">=</span><span style="color: #000000;"> </span><span style="color: #000000;">7</span><span style="color: #000000;">; (b </span><span style="color: #000000;">&</span><span style="color: #000000;"> </span><span style="color: #000000;">0x80</span><span style="color: #000000;">) </span><span style="color: #000000;">!=</span><span style="color: #000000;"> </span><span style="color: #000000;">0</span><span style="color: #000000;">; shift </span><span style="color: #000000;">+=</span><span style="color: #000000;"> </span><span style="color: #000000;">7</span><span style="color: #000000;">) {<br> </span><span style="color: #008080;">10</span> <span style="color: #000000;"> b </span><span style="color: #000000;">=</span><span style="color: #000000;"> readByte();<br> </span><span style="color: #008080;">11</span> <span style="color: #000000;"> i </span><span style="color: #000000;">|=</span><span style="color: #000000;"> (b </span><span style="color: #000000;">&</span><span style="color: #000000;"> </span><span style="color: #000000;">0x7F</span><span style="color: #000000;">) </span><span style="color: #000000;"><<</span><span style="color: #000000;"> shift;<br> </span><span style="color: #008080;">12</span> <span style="color: #000000;"> }<br> </span><span style="color: #008080;">13</span> <span style="color: #000000;"> </span><span style="color: #0000ff;">return</span><span style="color: #000000;"> i;<br> </span><span style="color: #008080;">14</span> <span style="color: #000000;"> }</span></div> <br> >>>è¡¨ç¤ºæ— ç¬¦å·å³¿U?br /> <p> </p> <br><br><div align="right"><a style="text-decoration:none;" href="http://www.aygfsteel.com/persister/" target="_blank">persister</a> 2010-02-02 11:08 <a href="http://www.aygfsteel.com/persister/archive/2010/02/02/311642.html#Feedback" target="_blank" style="text-decoration:none;">å‘è¡¨è¯„è®º</a></div>]]> </article> <article> <h1>½W¬ä¸€‹Æ¡å°è¯•Nutch</h1> <p>persister — Thu, 23 Jul 2009 07:43:00 GMT</p> çŽ¯å¢ƒåQšNutch0.9+Fedora5+tomcat6+JDK6<p></p> <p>tomcatå’Œjdkéƒ½å®‰è£…å¥½åQ?/p> </p><p>äºŒï¼šnutch-0.9.tar.gz<br> ž®†ä¸‹è½½åˆ°çš„tar.gzåŒ…ï¼Œè§£åŽ‹åˆ?optç›®å½•ä¸‹åÆˆæ”¹ååQ?br /> #gunzip -xf nutch-0.9.tar.gz |tar xf<br> #mv nutch-0.9.tar.gz /usr/local/nutch<br> <br> ‹¹‹è¯•çŽ¯å¢ƒæ˜¯å¦è®„¡½®æˆåŠŸåQšè¿è¡Œï¼š/urs/local/nutch/bin/nutchçœ‹ä¸€ä¸‹æœ‰æ²¡æœ‰å‘½ä×oå‚æ•°è¾“å‡ºåQŒå¦‚æžœæœ‰è¯´æ˜Žæ²¡é—®é¢˜ã€?/p> </p><p> æŠ“å–˜q‡ç¨‹åQ?cd /opt/nutch<br> #mkdir urls<br> #vi nutch.txt è¾“å…¥www.aicent.net<br> #vi conf/crawl-urlfilter.txt åŠ å…¥ä»¥ä¸‹ä¿¡æ¯åQšåˆ©ç”¨æ£åˆ™è¡¨è¾‘Ö¼å¯¹ç½‘ç«™urlæŠ“å–½{›é€‰ã€?br /> /**** accept hosts in MY.DOMAIN.NAME******/<br> +^http://([a-z0-9]*\.)*aicent.net/<br> #vi nutch/nutch-site.xmlåQˆç»™è‡ªå·±çš„èœ˜è››å–ä¸€ä¸ªåå—ï¼‰è®„¡½®å¦‚ä¸‹åQ?br /> <configuration><br> <property><br> <name>http.agent.name</name><br> <value>test/unique</value><br> </property><br> </configuration></p> <p> å¼€å§‹æŠ“å–ï¼š#bin/nutch crawl urls -dir crawl -detpth 5 -thread 10 >& crawl.log</p> <p>½{‰å¾…ä¸€ä¼šï¼Œæ—‰™—´ä¾æ®¾|‘ç«™çš„å¤§ž®ï¼Œå’Œè®¾¾|®çš„æŠ“å–æ·±åº¦ã€?/p> </p><p><br> ä¸‰ï¼šapache-tomcat</p> <p> åœ¨è¿™é‡Œï¼Œå½“ä½ çœ‹åˆ°æ¯æ¬¡‹‚€ç´¢çš„™åµé¢ä¸?é‡Œï¼Œéœ€è¦ä¿®æ”¹ä¸€ä¸‹å‚æ•ŽÍ¼Œå› äØ“tomcatä¸çš„nutchçš„æ£€ç´¢èµ\å¾„ä¸å¯šw€ æˆçš„ã€?br /> #vi /usr/local/tomcat/webapps/ROOT/WEB-INF/classes/nutch-site.xml<br> <property><br> <name>searcher.dir</name><br> <value>/opt/nutch/crawl</value>æŠ“å–¾|‘é¡µæ‰€åœ¨çš„è·¯å¾„<br> <description>My path to nutch's searcher dir.</description><br> </property></p> <p> #/opt/tomcat/bin/startup.sh</p> <p><br> OK,æžå®šã€‚ã€‚ã€?/p> </p><p><br> é—®é¢˜æ±‡æ€»ï¼š</p> <p><br> ˜qè¡ŒåQšsh ./bin/nutch crawl urls -dir crawl -depth 3 -threads 60 -topN 100 >&./logs/nutch_log.log</p> <p>1.Exception in thread "main" java.io.IOException: Job failed!<br> at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:604)<br> at org.apache.nutch.crawl.Injector.inject(Injector.java:162)<br> at org.apache.nutch.crawl.Crawl.main(Crawl.java:115)<br> ¾|‘ä¸ŠæŸ¥æœ‰è¯´æ˜¯JDKç‰ˆæœ¬çš„é—®é¢˜ï¼Œä¸èƒ½ç”¨JDK1.6åQŒäºŽæ˜¯å®‰è£?.5ã€‚ä½†æ˜¯è¿˜æ˜¯åŒæ ïLš„é—®é¢˜åQŒå¥‡æ€ªå•Šã€?br /> äºŽæ˜¯¾l§ç®‹googleåQŒå‘çŽ°æœ‰å¦‚ä¸‹çš„å¯èƒ½ï¼š</p> <p>Injector: Converting injected urls to crawl db entries. <br> Exception in thread "main" java.io.IOException: Job failed! <br> at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:604) <br> at org.apache.nutch.crawl.Injector.inject(Injector.java:162) <br> at org.apache.nutch.crawl.Crawl.main(Crawl.java:115)</p> <p>è¯´æ˜ŽåQšä¸€èˆ¬äØ“crawl-urlfilters.txtä¸é…¾|®é—®é¢˜ï¼Œæ¯”å¦‚˜q‡æ×oæ¡äšgåº”äØ“ <br> +^http://www.ihooyo.com ,è€Œé…¾|®æˆäº?http://www.ihooyo.com ˜q™æ ·çš„æƒ…å†µå°±å¼•è“vå¦‚ä¸Šé”™è¯¯ã€?/p> </p><p>ä½†æ˜¯è‡ªå·±çš„é…¾|®æ ¹æœ¬å°±æ²¡æœ‰é—®é¢˜å•Šã€?br /> åœ¨Logsç›®å½•ä¸‹é¢é™¤äº†ç”Ÿæˆnutch_log.log˜q˜è‡ªåŠ¨ç”Ÿæˆä¸€ä¸ªlogæ–‡äšgåQšhadoop.log<br> å‘çŽ°æœ‰é”™è¯¯å‡ºçŽŽÍ¼š</p> <p><br> 2009-07-22 22:20:55,501 INFO crawl.Crawl - crawl started in: crawl<br> 2009-07-22 22:20:55,501 INFO crawl.Crawl - rootUrlDir = urls<br> 2009-07-22 22:20:55,502 INFO crawl.Crawl - threads = 60<br> 2009-07-22 22:20:55,502 INFO crawl.Crawl - depth = 3<br> 2009-07-22 22:20:55,502 INFO crawl.Crawl - topN = 100<br> 2009-07-22 22:20:55,603 INFO crawl.Injector - Injector: starting<br> 2009-07-22 22:20:55,604 INFO crawl.Injector - Injector: crawlDb: crawl/crawldb<br> 2009-07-22 22:20:55,604 INFO crawl.Injector - Injector: urlDir: urls<br> 2009-07-22 22:20:55,605 INFO crawl.Injector - Injector: Converting injected urls to crawl db entries.<br> 2009-07-22 22:20:56,574 INFO plugin.PluginRepository - Plugins: looking in: /opt/nutch/plugins<br> 2009-07-22 22:20:56,720 INFO plugin.PluginRepository - Plugin Auto-activation mode: [true]<br> 2009-07-22 22:20:56,720 INFO plugin.PluginRepository - Registered Plugins:<br> 2009-07-22 22:20:56,720 INFO plugin.PluginRepository - the nutch core extension points (nutch-extensionpoints)<br> 2009-07-22 22:20:56,721 INFO plugin.PluginRepository - Basic Query Filter (query-basic)<br> 2009-07-22 22:20:56,721 INFO plugin.PluginRepository - Basic URL Normalizer (urlnormalizer-basic)<br> 2009-07-22 22:20:56,721 INFO plugin.PluginRepository - Basic Indexing Filter (index-basic)<br> 2009-07-22 22:20:56,721 INFO plugin.PluginRepository - Html Parse Plug-in (parse-html)<br> 2009-07-22 22:20:56,721 INFO plugin.PluginRepository - Basic Summarizer Plug-in (summary-basic)<br> 2009-07-22 22:20:56,721 INFO plugin.PluginRepository - Site Query Filter (query-site)<br> 2009-07-22 22:20:56,721 INFO plugin.PluginRepository - HTTP Framework (lib-http)<br> 2009-07-22 22:20:56,721 INFO plugin.PluginRepository - Text Parse Plug-in (parse-text)<br> 2009-07-22 22:20:56,721 INFO plugin.PluginRepository - Regex URL Filter (urlfilter-regex)<br> 2009-07-22 22:20:56,721 INFO plugin.PluginRepository - Pass-through URL Normalizer (urlnormalizer-pass)<br> 2009-07-22 22:20:56,721 INFO plugin.PluginRepository - Http Protocol Plug-in (protocol-http)<br> 2009-07-22 22:20:56,721 INFO plugin.PluginRepository - Regex URL Normalizer (urlnormalizer-regex)<br> 2009-07-22 22:20:56,721 INFO plugin.PluginRepository - OPIC Scoring Plug-in (scoring-opic)<br> 2009-07-22 22:20:56,721 INFO plugin.PluginRepository - CyberNeko HTML Parser (lib-nekohtml)<br> 2009-07-22 22:20:56,721 INFO plugin.PluginRepository - JavaScript Parser (parse-js)<br> 2009-07-22 22:20:56,721 INFO plugin.PluginRepository - URL Query Filter (query-url)<br> 2009-07-22 22:20:56,721 INFO plugin.PluginRepository - Regex URL Filter Framework (lib-regex-filter)<br> 2009-07-22 22:20:56,721 INFO plugin.PluginRepository - Registered Extension-Points:<br> 2009-07-22 22:20:56,721 INFO plugin.PluginRepository - Nutch Summarizer (org.apache.nutch.searcher.Summarizer)<br> 2009-07-22 22:20:56,721 INFO plugin.PluginRepository - Nutch URL Normalizer (org.apache.nutch.net.URLNormalizer)<br> 2009-07-22 22:20:56,721 INFO plugin.PluginRepository - Nutch Protocol (org.apache.nutch.protocol.Protocol)<br> 2009-07-22 22:20:56,721 INFO plugin.PluginRepository - Nutch Analysis (org.apache.nutch.analysis.NutchAnalyzer)<br> 2009-07-22 22:20:56,721 INFO plugin.PluginRepository - Nutch URL Filter (org.apache.nutch.net.URLFilter)<br> 2009-07-22 22:20:56,722 INFO plugin.PluginRepository - Nutch Indexing Filter (org.apache.nutch.indexer.IndexingFilter)<br> 2009-07-22 22:20:56,722 INFO plugin.PluginRepository - Nutch Online Search Results Clustering Plugin (org.apache.nutch.clustering.OnlineClusterer)<br> 2009-07-22 22:20:56,722 INFO plugin.PluginRepository - HTML Parse Filter (org.apache.nutch.parse.HtmlParseFilter)<br> 2009-07-22 22:20:56,722 INFO plugin.PluginRepository - Nutch Content Parser (org.apache.nutch.parse.Parser)<br> 2009-07-22 22:20:56,722 INFO plugin.PluginRepository - Nutch Scoring (org.apache.nutch.scoring.ScoringFilter)<br> 2009-07-22 22:20:56,722 INFO plugin.PluginRepository - Nutch Query Filter (org.apache.nutch.searcher.QueryFilter)<br> 2009-07-22 22:20:56,722 INFO plugin.PluginRepository - Ontology Model Loader (org.apache.nutch.ontology.Ontology)<br> 2009-07-22 22:20:56,786 WARN regex.RegexURLNormalizer - can't find rules for scope 'inject', using default<br> 2009-07-22 22:20:56,829 WARN mapred.LocalJobRunner - job_2319eh<br> java.lang.RuntimeException: java.net.UnknownHostException: jackliu: jackliu<br> at org.apache.hadoop.io.SequenceFile$Writer.<init>(SequenceFile.java:617)<br> at org.apache.hadoop.io.SequenceFile$Writer.<init>(SequenceFile.java:591)<br> at org.apache.hadoop.io.SequenceFile.createWriter(SequenceFile.java:364)<br> at org.apache.hadoop.io.SequenceFile.createWriter(SequenceFile.java:390)<br> at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.startPartition(MapTask.java:294)<br> at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.sortAndSpillToDisk(MapTask.java:355)<br> at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.access$100(MapTask.java:231)<br> at org.apache.hadoop.mapred.MapTask.run(MapTask.java:180)<br> at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:126)<br> Caused by: java.net.UnknownHostException: jackliu: jackliu<br> at java.net.InetAddress.getLocalHost(InetAddress.java:1353)<br> at org.apache.hadoop.io.SequenceFile$Writer.<init>(SequenceFile.java:614)<br> ... 8 more</p> <p>ä¹Ÿå°±æ˜¯Hosté…ç½®é”™è¯¯åQŒäºŽæ˜¯ï¼š<br> Add the following to your /etc/hosts file<br> 127.0.0.1 jackliu</p> <p>˜q™æ¬¡å†æ¬¡˜qè¡ŒåQŒç»“æžœæˆåŠŸï¼</p> <p> </p> <p>2:http://127.0.0.1:8080/nutch-0.9<br> è¾“å…¥nutch˜q›è¡ŒæŸ¥è¯¢åQŒç»“æžœæŠ¥é”™ï¼š<br> HTTP Status 500 -</p> <p>type Exception report</p> <p>message</p> <p>description The server encountered an internal error () that prevented it from fulfilling this request.</p> <p>exception</p> <p>org.apache.jasper.JasperException: /search.jsp(151,22) Attribute value language + "/include/header.html" is quoted with " which must be escaped when used within the value<br> org.apache.jasper.compiler.DefaultErrorHandler.jspError(DefaultErrorHandler.java:40)<br> org.apache.jasper.compiler.ErrorDispatcher.dispatch(ErrorDispatcher.java:407)<br> org.apache.jasper.compiler.ErrorDispatcher.jspError(ErrorDispatcher.java:198)<br> org.apache.jasper.compiler.Parser.parseQuoted(Parser.java:299)<br> org.apache.jasper.compiler.Parser.parseAttributeValue(Parser.java:249)<br> org.apache.jasper.compiler.Parser.parseAttribute(Parser.java:211)<br> org.apache.jasper.compiler.Parser.parseAttributes(Parser.java:154)<br> org.apache.jasper.compiler.Parser.parseInclude(Parser.java:867)<br> org.apache.jasper.compiler.Parser.parseStandardAction(Parser.java:1134)<br> org.apache.jasper.compiler.Parser.parseElements(Parser.java:1461)<br> org.apache.jasper.compiler.Parser.parse(Parser.java:137)<br> org.apache.jasper.compiler.ParserController.doParse(ParserController.java:255)<br> org.apache.jasper.compiler.ParserController.parse(ParserController.java:103)<br> org.apache.jasper.compiler.Compiler.generateJava(Compiler.java:170)<br> org.apache.jasper.compiler.Compiler.compile(Compiler.java:332)<br> org.apache.jasper.compiler.Compiler.compile(Compiler.java:312)<br> org.apache.jasper.compiler.Compiler.compile(Compiler.java:299)<br> org.apache.jasper.JspCompilationContext.compile(JspCompilationContext.java:586)<br> org.apache.jasper.servlet.JspServletWrapper.service(JspServletWrapper.java:317)<br> org.apache.jasper.servlet.JspServlet.serviceJspFile(JspServlet.java:342)<br> org.apache.jasper.servlet.JspServlet.service(JspServlet.java:267)<br> javax.servlet.http.HttpServlet.service(HttpServlet.java:717)</p> <p>note The full stack trace of the root cause is available in the Apache Tomcat/6.0.20 logs.</p> <p>åˆ†æžåQšæŸ¥çœ‹nutch Webåº”ç”¨æ ¹ç›®å½•ä¸‹çš„search.jspå¯çŸ¥åQŒæ˜¯å¼•å·åŒšw…çš„é—®é¢˜ã€?/p> </p><p><jsp:include page="<%= language + "/include/header.html"%>"/> //line 152 search.jsp</p> <p>½W¬ä¸€ä¸ªå¼•å·å’ŒåŽé¢½W¬ä¸€ä¸ªå‡ºçŽ°çš„å¼•å·˜q›è¡ŒåŒšw…åQŒè€Œä¸æ˜¯å’Œ˜q™ä¸€è¡Œæœ€åŽä¸€ä¸ªå¼•å¯‚¿›è¡ŒåŒ¹é…ï¼Œæ‰€ä»¥é—®é¢˜å°±å‡ºçŽ°äº†ã€?/p> </p><p>è§£å†³æ–ÒŽ³•åQ?/p> </p><p>ž®†è¯¥è¡Œä»£ç ä¿®æ”¹äØ“åQ?lt;jsp:include page="<%= language+urlsuffix %>"/></p> <p>˜q™é‡Œæˆ‘ä»¬å®šä¸€ä¸ªå—½W¦ä¸²urlsuffixåQŒæˆ‘ä»¬æŠŠå®ƒå®šä¹‰åœ¨languageå—ç¬¦ä¸²å®šä¹‰ä¹‹åŽï¼Œ</p> <p> String language = // line 116 search.jsp<br> ResourceBundle.getBundle("org.nutch.jsp.search", request.getLocale())<br> .getLocale().getLanguage();<br> String urlsuffix="/include/header.html";</p> <p>ä¿®æ”¹å®ŒæˆåŽï¼Œä¸ºç¡®ä¿ä¿®æ”ÒŽˆåŠŸï¼Œé‡å¯ä¸€ä¸‹TomcatæœåŠ¡å™¨ï¼Œ˜q›è¡Œæœçƒ¦åQŒä¸å†æŠ¥é”™ã€?/p> </p><p><br> 3.æ— æ³•æŸ¥è¯¢¾l“æžœåQ?br /> å¯ÒŽ¯”nutch_log.logçš„ç»“æžœå‘çŽ°å’Œ¾|‘ä¸Šæè¿°çš„ä¸åŒï¼Œè€Œä¸”crawlé‡Œé¢åªæœ‰ä¸¤ä¸ªæ–‡äšgå¤¹segmentså’ŒcrawldbåQŒåŽæ¥é‡æ–°çˆ¬äº†ä¸€‹Æ?br /> å‘çŽ°˜q™æ¬¡æ˜¯å¥½çš„ï¼Œå¥‡æ€ªä¸çŸ¥é“ä¸ÞZ»€ä¹ˆä¸Š‹Æ¡çˆ¬çš„å¤±è´¥äº†ã€?br /> <br> 4.cached.jsp explain.jsp½{‰éƒ½æœ‰ä¸Šé?çš„é”™è¯¯ï¼Œæ›´æ£˜q‡åŽ»ž®±OKäº†ã€?/p> </p><p>5.ä»Šå¤©èŠ×ƒº†ä¸€ä¸Šåˆå’ŒåŠä¸ªä¸‹åˆçš„æ—‰™—´¾lˆäºŽæžå®šäº†nutchçš„å®‰è£…å’Œé…ç½®äº†ã€‚æ˜Žå¤©ç‘ô¾lå¦ä¹ ã€?/p> <br><br></p><div align="right"><a style="text-decoration:none;" href="http://www.aygfsteel.com/persister/" target="_blank">persister</a> 2009-07-23 15:43 <a href="http://www.aygfsteel.com/persister/archive/2009/07/23/288039.html#Feedback" target="_blank" style="text-decoration:none;">å‘è¡¨è¯„è®º</a></div>]]> </article> <article> <h1>PhraseQueryã€SpanQueryå’ŒPhrasePrefixQuery</h1> <p>persister — Tue, 14 Jul 2009 01:49:00 GMT</p> PhraseQueryä½¿ç”¨ä½ç½®ä¿¡æ¯æ¥è¿›è¡Œç›¸å…ÏxŸ¥è¯¢ï¼Œæ¯”å¦‚TermQueryä½¿ç”¨“æˆ‘ä»¬”å’?#8220;¼œ–å›½”˜q›è¡ŒæŸ¥è¯¢åQŒé‚£ä¹ˆæ–‡æ¡£ä¸å«æœ‰˜q™ä¸¤ä¸ªè¯çš„æ‰€æœ‰è®°å½•éƒ½ä¼šè¢«æŸ¥è¯¢å‡ºæ¥ã€‚ä½†æ˜¯æœ‰ä¸€¿Uæƒ…å†µï¼Œæˆ‘ä»¬å¯èƒ½éœ€è¦æŸ¥è¯?#8220;æˆ‘ä»¬”å’?#8220;ä¸å›½”ä¹‹é—´åªéš”ä¸€ä¸ªå—å’Œä¸¤ä¸ªå—æˆ–è€…ä¸¤ä¸ªå—½{‰ï¼Œè€Œä¸æ˜¯å®ƒä»¬ä¹‹é—´å—è·ç›¸å·®åä¸‡å…«åƒé‡ŒåQŒå°±å¯ä»¥ä½¿ç”¨PhraseQueryã€‚æ¯”å¦‚ä¸‹é¢çš„æƒ…å†µåQ?br /> doc.add(Field.Text("field", "the quick brown fox jumped over the lazy dog"));<br> é‚£ä¹ˆåQ?br /> String[] phrase = new String[] {"quick", "fox"};<br> assertFalse("exact phrase not found", matched(phrase, 0));<br> assertTrue("close enough", matched(phrase, 1));<br> multi-terms:<br> assertFalse("not close enough", matched(new String[] {"quick", "jumped", "lazy"}, 3));<br> assertTrue("just enough", matched(new String[] {"quick", "jumped", "lazy"}, 4));<br> assertFalse("almost but not quite", matched(new String[] {"lazy", "jumped", "quick"}, 7));<br> assertTrue("bingo", matched(new String[] {"lazy", "jumped", "quick"}, 8));<br> <br> æ•°å—è¡¨ç¤ºslopåQŒé€šè¿‡å¦‚ä¸‹æ–¹å¼è®„¡½®åQŒè¡¨½CºæŒ‰ç…§é¡ºåºä»Ž½W¬ä¸€ä¸ªå—ŒDµåˆ°½W¬äºŒä¸ªå—ŒDµä¹‹é—´é—´éš”çš„termä¸ªæ•°ã€?br /> query.setSlop(slop);<p></p> <p>™åºåºå¾ˆé‡è¦ï¼š<br> String[] phrase = new String[] {"fox", "quick"};<br> assertFalse("hop flop", matched(phrase, 2));<br> assertTrue("hop hop slop", matched(phrase, 3));<br> <br> åŽŸç†å¦‚ä¸‹å›¾æ‰€½Cºï¼š<br> <br> <br> å¯¹äºŽæŸ¥è¯¢å…³é”®å—quickå’ŒfoxåQŒåªéœ€è¦fox¿UÕdŠ¨ä¸€ä¸ªä½¾|®å³å¯åŒ¹é…quick brown foxã€‚è€Œå¯¹äºŽfoxå’Œquick˜q™ä¸¤ä¸ªå…³é”®å—<br> éœ€è¦å°†fox¿UÕdŠ¨ä¸‰ä¸ªä½ç½®ã€‚ç§»åŠ¨çš„è·ç¦»‘Šå¤§åQŒé‚£ä¹ˆè¿™™å¹è®°å½•çš„scorež®Þp¶Šž®ï¼Œè¢«æŸ¥è¯¢å‡ºæ¥çš„å¯èƒ½è¡Œå°±‘Šå°äº†ã€?br /> <br> SpanQueryåˆ©ç”¨ä½ç½®ä¿¡æ¯æŸ¥è¯¢æ›´æœ‰æ„æ€çš„æŸ¥è¯¢åQ?br /> <br> SpanQuery type Description<br> SpanTermQuery Used in conjunction with the other span query types. On its own, it’s<br> functionally equivalent to TermQuery.<br> SpanFirstQuery Matches spans that occur within the first part of a field.<br> SpanNearQuery Matches spans that occur near one another.<br> SpanNotQuery Matches spans that don’t overlap one another.<br> SpanOrQuery Aggregates matches of span queries.<br> <br> SpanFirstQueryåQšTo query for spans that occur within the first n positions of a field, use Span-FirstQuery.<br> <br> <br> <br> quick = new SpanTermQuery(new Term("f", "quick"));<br> brown = new SpanTermQuery(new Term("f", "brown"));<br> red = new SpanTermQuery(new Term("f", "red"));<br> fox = new SpanTermQuery(new Term("f", "fox"));<br> lazy = new SpanTermQuery(new Term("f", "lazy"));<br> sleepy = new SpanTermQuery(new Term("f", "sleepy"));<br> dog = new SpanTermQuery(new Term("f", "dog"));<br> cat = new SpanTermQuery(new Term("f", "cat"));<br> <br> SpanFirstQuery sfq = new SpanFirstQuery(brown, 2);<br> assertNoMatches(sfq);<br> sfq = new SpanFirstQuery(brown, 3);<br> assertOnlyBrownFox(sfq);<br> <br> SpanNearQueryåQ?br /> <br> å½¼æ¤ç›”R‚»çš„è·¨åº?</p> <p> <wbr> <wbr> <wbr> <wbr> <wbr> é¦–å…ˆåQŒå¼ºè°ƒä¸€ä¸‹PhraseQueryå¯¹è±¡åQŒè¿™ä¸ªå¯¹è±¡ä¸å±žäºŽè·¨åº¦æŸ¥è¯¢¾c»ï¼Œä½†èƒ½å®Œæˆè·¨åº¦æŸ¥è¯¢åŠŸèƒ½ã€?/p> </p><p> <wbr> <wbr> <wbr> <wbr> <wbr> åŒšw…åˆ°çš„æ–‡æ¡£æ‰€åŒ…å«çš„é¡¹é€šå¸¸æ˜¯å½¼æ¤ç›¸é‚Èš„åQŒè€ƒè™‘åˆ°åŽŸæ–‡æ¡£ä¸åœ¨æŸ¥è¯¢™å¹ä¹‹é—´å¯èƒ½æœ‰ä¸€äº›ä¸é—´é¡¹åQŒæˆ–ä¸ÞZº†èƒ½æŸ¥è¯¢å€’æŽ’çš„é¡¹åQŒPhraseQueryè®„¡½®äº†slopå› ååQ?font color="#ff0000">ä½†æ˜¯˜q™ä¸ªslopå› åæŒ?ä¸ªé¡¹å…è®¸æœ€å¤§é—´éš”è·¼›»ï¼Œä¸æ˜¯ä¼ ç»Ÿæ„ä¹‰ä¸Šçš„è·ç¦»åQŒæ˜¯æŒ‰é¡ºåºç»„æˆç»™å®šçš„çŸè¯åQŒæ‰€éœ€è¦ç§»åŠ¨ä½¾|®çš„‹Æ¡æ•°åQ?font color="#0000ff">˜q™è¡¨½CºPhraseQueryæ˜¯å¿…™åÀLŒ‰ç…§é¡¹åœ¨æ–‡æ¡£ä¸å‡ºçŽ°çš„é¡ºåºè®¡½Ž—è·¨åº¦çš„åQŒå¦‚quick brown foxä¸ºæ–‡æ¡£ï¼Œåˆ™quick fox2ä¸ªé¡¹çš„slopä¸?åQŒquickå‘åŽ¿UÕdŠ¨ä¸€‹Æ?è€Œfox quickéœ€è¦quickå‘åŽ¿UÕdŠ¨3‹Æ¡ï¼Œæ‰€ä»¥slopä¸?</p> <p> <wbr> <wbr> <wbr> <wbr> <wbr> å…¶æ¬¡åQŒæ¥çœ‹ä¸€ä¸‹SpanQueryçš„å¾c»SpanTermQueryã€?/p> </p><p> <wbr> <wbr> <wbr> <wbr> <wbr> å®ƒèƒ½è·¨åº¦æŸ¥è¯¢åQ?font color="#0000ff">òq¶ä¸”ä¸ä¸€å®šéžè¦æŒ‰™å¹åœ¨æ–‡æ¡£ä¸å‡ºçŽ°çš„™åºåºåQŒå¯ä»¥ç”¨ä¸€ä¸ªç‹¬ç«‹çš„æ ‡è®°è¡¨ç¤ºæŸ¥è¯¢å¯¹è±¡å¿…é¡»æŒ‰é¡ºåºï¼Œæˆ–å…è®¸æŒ‰å€’è¿‡æ¥çš„™åºåºå®ŒæˆåŒšw…ã€?font color="#ff0000">åŒšw…çš„è·¨åº¦ä¹Ÿä¸æ˜¯æŒ‡ç§»åŠ¨ä½¾|®çš„‹Æ¡æ•°åQŒæ˜¯æŒ‡ä»Ž½W¬ä¸€ä¸ªè·¨åº¦çš„èµ·å§‹ä½ç½®åˆ°æœ€åŽä¸€ä¸ªè·¨åº¦çš„¾l“æŸä½ç½®ã€?/font></p> <p> <wbr> <wbr> <wbr> <wbr> <wbr> åœ¨SpanNearQueryä¸å°†SpanTermQueryå¯¹è±¡ä½œäØ“SpanQueryå¯¹è±¡ä½¿ç”¨çš„æ•ˆæžœï¼Œä¸Žä‹Éç”¨PharseQueryçš„æ•ˆæžœéžå¸¸ç›¸ä¼¹{€‚åœ¨SpanNearQueryçš„æž„é€ å‡½æ•îC¸çš„ç¬¬ä¸‰ä¸ªå‚æ•°ä¸ºinOrderæ ‡å¿—åQŒè®¾¾|®è¿™ä¸ªæ ‡å¿—ï¼Œè¡¨ç¤ºæŒ‰é¡¹åœ¨æ–‡æ¡£ä¸å‡ºçŽ°çš„é¡ºåºå€’è¿‡æ¥çš„™åºåºã€?/p> </p><p> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr>å¦?the quick brown fox jumps over the lazy dog˜q™ä¸ªæ–‡æ¡£</p> <p> <wbr> <wbr> <wbr> <wbr> <wbr> public void testSpanNearQuery() throws Exception{</p> <p> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> SpanQuery[] quick_brown_dog=new SpanQuery[]{quick,brown,dog};</p> <p> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> SpanNearQuery snq=new SpanNearQuery(quick_brown_dog,0,true);//æŒ‰æ£å¸”R¡ºåº?è·¨åº¦ä¸?,å¯¹ä¸‰ä¸ªé¡¹˜q›è¡ŒæŸ¥è¯¢</p> <p> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> assertNoMatches(snq);//æ— æ³•åŒšw…</p> <p> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> SpanNearQuery snq=new SpanNearQuery(quick_brown_dog,4,true);//æŒ‰æ£å¸”R¡ºåº?è·¨åº¦ä¸?,å¯¹ä¸‰ä¸ªé¡¹˜q›è¡ŒæŸ¥è¯¢</p> <p> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> assertNoMatches(snq);//æ— æ³•åŒšw…</p> <p> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> SpanNearQuery snq=new SpanNearQuery(quick_brown_dog,4,true);//æŒ‰æ£å¸”R¡ºåº?è·¨åº¦ä¸?,å¯¹ä¸‰ä¸ªé¡¹˜q›è¡ŒæŸ¥è¯¢</p> <p> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> assertOnlyBrownFox(snq);//åŒšw…æˆåŠŸ <wbr> <wbr> <wbr> <wbr></p> <p> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr><font color="#cc0099"> <wbr> <wbr> SpanNearQuery snq=new SpanNearQuery(new SpanQuery[]{lazy,fox},3,false);//</font>æŒ‰ç›¸åé¡ºåº?è·¨åº¦ä¸?,å¯¹ä¸‰ä¸ªé¡¹˜q›è¡ŒæŸ¥è¯¢</p> <p> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> assertOnlyBrownFox(snq);//åŒšw…æˆåŠŸ <wbr> <wbr> <wbr></p> <p> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr>//ä¸‹é¢ä½¿ç”¨PhraseQuery˜q›è¡ŒæŸ¥è¯¢åQŒå› ä¸ºæ˜¯æŒ‰é¡ºåºï¼Œæ‰€ä»¥lazyå’Œfoxå¿…é¡»è¦è·¨åº¦äØ“5</p> <p> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> PhraseQuery pq=new PhraseQuery();</p> <p> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> pq.add(new Term("f","lazy"));</p> <p> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> pq.add(new Term("f","lazy"));</p> <p> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> pq.setslop(4);</p> <p> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr>assertNoMatches(pq);//è·¨åº¦4æ— æ³•åŒšw…</p> <p> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> //PharseQuery,slopå› åä¸?</p> <p> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> pq.setSlop(5);</p> <p> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> assertOnlyBrownFox(pq); <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr> <wbr></p> <p> <wbr> <wbr> <wbr> <wbr> <wbr> }<br> <br> <br> 3.PhrasePrefixQuery ä¸»è¦ç”¨æ¥˜q›è¡ŒåŒä¹‰è¯æŸ¥è¯¢çš„åQ?br /> IndexWriter writer = new IndexWriter(directory, new WhitespaceAnalyzer(), true);<br> Document doc1 = new Document();<br> doc1.add(Field.Text("field", "the quick brown fox jumped over the lazy dog"));<br> writer.addDocument(doc1);<br> Document doc2 = new Document();<br> doc2.add(Field.Text("field","the fast fox hopped over the hound"));<br> writer.addDocument(doc2);<br> <br> PhrasePrefixQuery query = new PhrasePrefixQuery();<br> query.add(new Term[] {new Term("field", "quick"), new Term("field", "fast")});<br> query.add(new Term("field", "fox"));<br> <br> Hits hits = searcher.search(query);<br> assertEquals("fast fox match", 1, hits.length());<br> query.setSlop(1);<br> hits = searcher.search(query);<br> assertEquals("both match", 2, hits.length());</p> <br><br><div align="right"><a style="text-decoration:none;" href="http://www.aygfsteel.com/persister/" target="_blank">persister</a> 2009-07-14 09:49 <a href="http://www.aygfsteel.com/persister/archive/2009/07/14/286634.html#Feedback" target="_blank" style="text-decoration:none;">å‘è¡¨è¯„è®º</a></div>]]> </article> <article> <h1>æœçƒ¦å¼•æ“Žä¸å¯¹äºŽè¾“å…¥æŸ¥è¯¢å…³é”®è¯çš„ä¸€äº›è€ƒè™‘</h1> <p>persister — Sat, 11 Jul 2009 09:33:00 GMT</p>  <br> 2ã€è¿‘ä¹‰è¯æŸ¥è¯¢ã€?SynonymAnalyzerå’ŒPhrasePrefixQueryéƒ½èƒ½è§£å†³˜q™ä¸ªé—®é¢˜ã€? <br><br><div align="right"><a style="text-decoration:none;" href="http://www.aygfsteel.com/persister/" target="_blank">persister</a> 2009-07-11 17:33 <a href="http://www.aygfsteel.com/persister/archive/2009/07/11/286377.html#Feedback" target="_blank" style="text-decoration:none;">å‘è¡¨è¯„è®º</a></div>]]> </article> <article> <h1>Analyzer</h1> <p>persister — Tue, 07 Jul 2009 07:59:00 GMT</p>  Analyzer Steps taken <br> WhitespaceAnalyzer Splits tokens at whitespace <br> SimpleAnalyzer Divides text at nonletter characters and lowercases <br> StopAnalyzer Divides text at nonletter characters, lowercases, and removes stop words <br> StandardAnalyzer Tokenizes based on a sophisticated grammar that recognizes <br> e-mail addresses, acronyms, Chinese- Japanese-Korean characters, <br> alphanumericsåQ?and more; lowercases;and removes stop words <br> <br><br><div align="right"><a style="text-decoration:none;" href="http://www.aygfsteel.com/persister/" target="_blank">persister</a> 2009-07-07 15:59 <a href="http://www.aygfsteel.com/persister/archive/2009/07/07/285833.html#Feedback" target="_blank" style="text-decoration:none;">å‘è¡¨è¯„è®º</a></div>]]> </article> <article> <h1>Porter stemming algorithm</h1> <p>persister — Mon, 06 Jul 2009 14:47:00 GMT</p>  æ‰€è°?a target="_blank"><strong>Stemming</strong>åQŒå¯ä»¥ç§°ä¸?strong>è¯æ ¹åŒ?/strong>åQŒè¿™é‡Œæœ‰ä¸?strong><a target="_blank">overview</a>ã€‚åœ¨è‹Þp¯˜q™æ ·çš„æ‹‰ä¸è¯¾p»é‡Œé¢ï¼Œå•è¯æœ‰å¤š¿Uå˜å½¢ã€‚æ¯”å¦‚åŠ ä¸?edã€?ingã€?ly½{‰ç‰ã€‚åœ¨åˆ†è¯çš„æ—¶å€™ï¼Œå¦‚æžœèƒ½å¤ŸæŠŠè¿™äº›å˜å½¢å•è¯çš„è¯æ ¹æ‰‘Ö‡ºäº†ï¼Œå¯ÒŽœç´¢ç»“æžœæ˜¯å¾ˆæœ‰å¸®åŠ©çš„ã€‚Stemming½Ž—æ³•æœ‰å¾ˆå¤šäº†åQŒä¸‰å¤§ä¸»‹¹ç®—æ³•æ˜¯<a target="_blank"><strong>Porter stemming algorithm</strong></a>ã€?a target="_blank"><strong>Lovins stemming algorithm</strong>ã€?a target="_blank"><strong>Lancaster (Paice/Husk) stemming algorithm</strong>åQŒè¿˜æœ‰ä¸€äº›æ”¹˜q›çš„æˆ–å…¶å®ƒçš„½Ž—æ³•ã€‚è¿™ä¸ªPorterStemFilteré‡Œé¢è°ƒç”¨çš„ä¸€ä¸ªPorterStemmerž®±æ˜¯<a target="_blank"><strong>Porter Stemming algorithm</strong></a>çš„ä¸€ä¸ªå®žçŽ°ã€? <br><br><div align="right"><a style="text-decoration:none;" href="http://www.aygfsteel.com/persister/" target="_blank">persister</a> 2009-07-06 22:47 <a href="http://www.aygfsteel.com/persister/archive/2009/07/06/285728.html#Feedback" target="_blank" style="text-decoration:none;">å‘è¡¨è¯„è®º</a></div>]]> </article> <article> <h1>Luceneå€’æŽ’ç´¢å¼•åŽŸç†</h1> <p>persister — Wed, 10 Jun 2009 10:08:00 GMT</p>  <br> å€’æŽ’ç´¢å¼•åQšInverted index<br> <br> Luceneæ˜¯ä¸€ä¸ªé«˜æ€§èƒ½çš„javaå…¨æ–‡‹‚€ç´¢å·¥å…·åŒ…åQŒå®ƒä½¿ç”¨çš„æ˜¯å€’æŽ’æ–‡äšgç´¢å¼•¾l“æž„ã€‚è¯¥¾l“æž„åŠç›¸åº”çš„ç”Ÿæˆ½Ž—æ³•å¦‚ä¸‹åQ?br /> <br> 0åQ‰è®¾æœ‰ä¸¤½‹‡æ–‡ç«?å’?<br> æ–‡ç« 1çš„å†…å®¹äØ“åQšTom lives in Guangzhou,I live in Guangzhou too.<br> æ–‡ç« 2çš„å†…å®¹äØ“åQšHe once lived in Shanghai.<br> <br> 1)ç”×ƒºŽluceneæ˜¯åŸºäºŽå…³é”®è¯ç´¢å¼•å’ŒæŸ¥è¯¢çš„åQŒé¦–å…ˆæˆ‘ä»¬è¦å–å¾—˜q™ä¸¤½‹‡æ–‡ç« çš„å…³é”®è¯ï¼Œé€šå¸¸æˆ‘ä»¬éœ€è¦å¦‚ä¸‹å¤„ç†æŽªæ–?br /> a.æˆ‘ä»¬çŽ°åœ¨æœ‰çš„æ˜¯æ–‡ç« å†…å®¹ï¼Œå³ä¸€ä¸ªå—½W¦ä¸²åQŒæˆ‘ä»¬å…ˆè¦æ‰¾å‡ºå—½W¦ä¸²ä¸çš„æ‰€æœ‰å•è¯ï¼Œå›_ˆ†è¯ã€‚è‹±æ–‡å•è¯ç”±äºŽç”¨½Iºæ ¼åˆ†éš”åQŒæ¯”è¾ƒå¥½å¤„ç†ã€‚ä¸æ–‡å•è¯é—´æ˜¯è¿žåœ¨ä¸€èµïLš„éœ€è¦ç‰¹ŒDŠçš„åˆ†è¯å¤„ç†ã€?br /> b.æ–‡ç« ä¸çš„”in”, “once” “too”½{‰è¯æ²¡æœ‰ä»€ä¹ˆå®žé™…æ„ä¹‰ï¼Œä¸æ–‡ä¸çš„“çš?#8221;“æ˜?#8221;½{‰å—é€šå¸¸ä¹Ÿæ— å…·ä½“å«ä¹‰åQŒè¿™äº›ä¸ä»£è¡¨æ¦‚å¿µçš„è¯å¯ä»¥˜q‡æ×oæŽ?br /> c.ç”¨æˆ·é€šå¸¸å¸Œæœ›æŸ?#8220;He”æ—¶èƒ½æŠŠå«“he”åQ?#8220;HE”çš„æ–‡ç« ä¹Ÿæ‰‘Ö‡ºæ¥ï¼Œæ‰€ä»¥æ‰€æœ‰å•è¯éœ€è¦ç»Ÿä¸€å¤§å°å†™ã€?br /> d.ç”¨æˆ·é€šå¸¸å¸Œæœ›æŸ?#8220;live”æ—¶èƒ½æŠŠå«“lives”åQ?#8220;lived”çš„æ–‡ç« ä¹Ÿæ‰‘Ö‡ºæ¥ï¼Œæ‰€ä»¥éœ€è¦æŠŠ“lives”åQ?#8220;lived”˜q˜åŽŸæˆ?#8220;live”<br> e.æ–‡ç« ä¸çš„æ ‡ç‚¹½W¦å·é€šå¸¸ä¸è¡¨½CºæŸ¿Uæ¦‚å¿µï¼Œä¹Ÿå¯ä»¥è¿‡æ»¤æŽ‰<br> åœ¨luceneä¸ä»¥ä¸ŠæŽªæ–½ç”±Analyzer¾cÕd®Œæˆ?br /> <br> ¾lè¿‡ä¸Šé¢å¤„ç†å?br /> æ–‡ç« 1çš„æ‰€æœ‰å…³é”®è¯ä¸ºï¼š[tom] [live] [guangzhou] [i] [live] [guangzhou]<br> æ–‡ç« 2çš„æ‰€æœ‰å…³é”®è¯ä¸ºï¼š[he] [live] [shanghai]<br> <br> 2) æœ‰äº†å…³é”®è¯åŽåQŒæˆ‘ä»¬å°±å¯ä»¥å»ºç«‹å€’æŽ’ç´¢å¼•äº†ã€‚ä¸Šé¢çš„å¯¹åº”å…³ç³»æ˜¯ï¼š“æ–‡ç« å?#8221;å¯?#8220;æ–‡ç« ä¸æ‰€æœ‰å…³é”®è¯”ã€‚å€’æŽ’ç´¢å¼•æŠŠè¿™ä¸ªå…³¾pÕd€’è¿‡æ¥ï¼Œå˜æˆåQ?#8220;å…³é”®è¯?#8221;å¯?#8220;æ‹¥æœ‰è¯¥å…³é”®è¯çš„æ‰€æœ‰æ–‡ç« å·”ã€‚æ–‡ç«?åQ?¾lè¿‡å€’æŽ’åŽå˜æˆ?br /> å…³é”®è¯?nbsp; æ–‡ç« å?br /> guangzhou 1<br> he 2<br> i 1<br> live 1,2<br> shanghai 2<br> tom 1<br> <br> é€šå¸¸ä»…çŸ¥é“å…³é”®è¯åœ¨å“ªäº›æ–‡ç« ä¸å‡ºçŽ°˜q˜ä¸å¤Ÿï¼Œæˆ‘ä»¬˜q˜éœ€è¦çŸ¥é“å…³é”®è¯åœ¨æ–‡ç« ä¸å‡ºçŽ°‹Æ¡æ•°å’Œå‡ºçŽ°çš„ä½ç½®åQŒé€šå¸¸æœ‰ä¸¤¿Uä½¾|®ï¼ša)å—ç¬¦ä½ç½®åQŒå³è®°å½•è¯¥è¯æ˜¯æ–‡ç« ä¸½W¬å‡ ä¸ªå—½W¦ï¼ˆä¼˜ç‚¹æ˜¯å…³é”®è¯äº®æ˜¾æ—¶å®šä½å¿«åQ‰ï¼›b)å…³é”®è¯ä½¾|®ï¼ŒåŒ™®°å½•è¯¥è¯æ˜¯æ–‡ç« ä¸ç¬¬å‡ ä¸ªå…³é”®è¯ï¼ˆä¼˜ç‚¹æ˜¯èŠ‚¾U¦çƒ¦å¼•ç©ºé—´ã€è¯¾l„ï¼ˆphaseåQ‰æŸ¥è¯¢å¿«åQ‰ï¼Œluceneä¸è®°å½•çš„ž®±æ˜¯˜q™ç§ä½ç½®ã€?br /> <br> åŠ ä¸Š“å‡ºçŽ°é¢‘çŽ‡”å’?#8220;å‡ºçŽ°ä½ç½®”ä¿¡æ¯åŽï¼Œæˆ‘ä»¬çš„çƒ¦å¼•ç»“æž„å˜ä¸ºï¼š<br> å…³é”®è¯?nbsp; æ–‡ç« å·[å‡ºçŽ°é¢‘çŽ‡] å‡ºçŽ°ä½ç½®<br> guangzhou 1[2] 3åQ?<br> he 2[1] 1<br> i 1[1] 4<br> live 1[2],2[1] 2åQ?åQ?<br> shanghai 2[1] 3<br> tom 1[1] 1<br> <br> ä»¥live˜q™è¡Œä¸ÞZ¾‹æˆ‘ä»¬è¯´æ˜Žä¸€ä¸‹è¯¥¾l“æž„åQšliveåœ¨æ–‡ç«?ä¸å‡ºçŽîCº†2‹Æ¡ï¼Œæ–‡ç« 2ä¸å‡ºçŽîCº†ä¸€‹Æ¡ï¼Œå®ƒçš„å‡ºçŽ°ä½ç½®ä¸?#8220;2,5,2”˜q™è¡¨½CÞZ»€ä¹ˆå‘¢åQŸæˆ‘ä»¬éœ€è¦ç»“åˆæ–‡ç« å·å’Œå‡ºçŽ°é¢‘çŽ‡æ¥åˆ†æžåQŒæ–‡ç«?ä¸å‡ºçŽîCº†2‹Æ¡ï¼Œé‚£ä¹ˆ“2,5”ž®Þp¡¨½Cºliveåœ¨æ–‡ç«?ä¸å‡ºçŽ°çš„ä¸¤ä¸ªä½ç½®åQŒæ–‡ç«?ä¸å‡ºçŽîCº†ä¸€‹Æ¡ï¼Œå‰©ä¸‹çš?#8220;2”ž®Þp¡¨½Cºliveæ˜¯æ–‡ç«?ä¸ç¬¬2ä¸ªå…³é”®å—ã€?br /> <br> ä»¥ä¸Šž®±æ˜¯luceneç´¢å¼•¾l“æž„ä¸æœ€æ ¸å¿ƒçš„éƒ¨åˆ†ã€‚æˆ‘ä»¬æ³¨æ„åˆ°å…³é”®å—æ˜¯æŒ‰å—½W¦é¡ºåºæŽ’åˆ—çš„åQˆluceneæ²¡æœ‰ä½¿ç”¨Bæ ‘ç»“æž„ï¼‰åQŒå› æ¤luceneå¯ä»¥ç”¨äºŒå…ƒæœç´¢ç®—æ³•å¿«é€Ÿå®šä½å…³é”®è¯ã€?br /> <br> å®žçŽ°æ—?nbsp;lucenež®†ä¸Šé¢ä¸‰åˆ—åˆ†åˆ«ä½œä¸ø™¯å…¸æ–‡ä»Óž¼ˆTerm DictionaryåQ‰ã€é¢‘çŽ‡æ–‡ä»?frequencies)ã€ä½¾|®æ–‡ä»?positions)ä¿å˜ã€‚å…¶ä¸è¯å…¸æ–‡ä»¶ä¸ä»…ä¿å˜æœ‰æ¯ä¸ªå…³é”®è¯ï¼Œ˜q˜ä¿ç•™äº†æŒ‡å‘é¢‘çŽ‡æ–‡äšgå’Œä½¾|®æ–‡ä»¶çš„æŒ‡é’ˆåQŒé€šè¿‡æŒ‡é’ˆå¯ä»¥æ‰‘Öˆ°è¯¥å…³é”®å—çš„é¢‘çŽ‡ä¿¡æ¯å’Œä½ç½®ä¿¡æ¯ã€?br /> <br> Luceneä¸ä‹Éç”¨äº†fieldçš„æ¦‚å¿µï¼Œç”¨äºŽè¡¨è¾¾ä¿¡æ¯æ‰€åœ¨ä½¾|®ï¼ˆå¦‚æ ‡é¢˜ä¸åQŒæ–‡ç« ä¸åQŒurlä¸ï¼‰åQŒåœ¨å»ºçƒ¦å¼•ä¸åQŒè¯¥fieldä¿¡æ¯ä¹Ÿè®°å½•åœ¨è¯å…¸æ–‡äšgä¸ï¼Œæ¯ä¸ªå…³é”®è¯éƒ½æœ‰ä¸€ä¸ªfieldä¿¡æ¯(å› äØ“æ¯ä¸ªå…³é”®å—ä¸€å®šå±žäºŽä¸€ä¸ªæˆ–å¤šä¸ªfield)ã€?br /> <br> ä¸ÞZº†å‡å°ç´¢å¼•æ–‡äšgçš„å¤§ž®ï¼ŒLuceneå¯¹çƒ¦å¼•è¿˜ä½¿ç”¨äº†åŽ‹¾~©æŠ€æœ¯ã€‚é¦–å…ˆï¼Œå¯¹è¯å…¸æ–‡ä»¶ä¸çš„å…³é”®è¯˜q›è¡Œäº†åŽ‹¾~©ï¼Œå…³é”®è¯åŽ‹¾~©äØ“<å‰ç¼€é•¿åº¦åQŒåŽ¾~€>åQŒä¾‹å¦‚ï¼šå½“å‰è¯äØ““é˜¿æ‹‰ä¼¯è¯”åQŒä¸Šä¸€ä¸ªè¯ä¸?#8220;é˜¿æ‹‰ä¼?#8221;åQŒé‚£ä¹?#8220;é˜¿æ‹‰ä¼¯è¯”åŽ‹ç¾ƒä¸?lt;3åQŒè¯>ã€‚å…¶‹Æ¡å¤§é‡ç”¨åˆ°çš„æ˜¯å¯¹æ•°å—çš„åŽ‹¾~©ï¼Œæ•°å—åªä¿å˜ä¸Žä¸Šä¸€ä¸ªå€¼çš„å·®å€û|¼ˆ˜q™æ ·å¯ä»¥å‡å°æ•°å—çš„é•¿åº¦ï¼Œ˜q›è€Œå‡ž®‘ä¿å˜è¯¥æ•°å—éœ€è¦çš„å—èŠ‚æ•ŽÍ¼‰ã€‚ä¾‹å¦‚å½“å‰æ–‡ç« å·æ˜?6389åQˆä¸åŽ‹ç¾ƒè¦ç”¨3ä¸ªå—èŠ‚ä¿å˜ï¼‰åQŒä¸Šä¸€æ–‡ç« åäh˜¯16382åQŒåŽ‹¾~©åŽä¿å˜7åQˆåªç”¨ä¸€ä¸ªå—èŠ‚ï¼‰ã€?br /> <br> ä¸‹é¢æˆ‘ä»¬å¯ä»¥é€šè¿‡å¯¹è¯¥ç´¢å¼•çš„æŸ¥è¯¢æ¥è§£é‡Šä¸€ä¸‹äØ“ä»€ä¹ˆè¦å»ºç«‹ç´¢å¼•ã€?br /> å‡è®¾è¦æŸ¥è¯¢å•è¯?nbsp;“live”åQŒluceneå…ˆå¯¹è¯å…¸äºŒå…ƒæŸ¥æ‰¾ã€æ‰¾åˆ°è¯¥è¯ï¼Œé€šè¿‡æŒ‡å‘é¢‘çŽ‡æ–‡äšgçš„æŒ‡é’ˆè¯»å‡ºæ‰€æœ‰æ–‡ç« å·åQŒç„¶åŽè¿”å›žç»“æžœã€‚è¯å…”R€šå¸¸éžå¸¸ž®ï¼Œå› è€Œï¼Œæ•´ä¸ª˜q‡ç¨‹çš„æ—¶é—´æ˜¯æ¯«ç§’¾U§çš„ã€?br /> è€Œç”¨æ™®é€šçš„™åºåºåŒšw…½Ž—æ³•åQŒä¸å»ºçƒ¦å¼•ï¼Œè€Œæ˜¯å¯ÒŽ‰€æœ‰æ–‡ç« çš„å†…å®¹˜q›è¡Œå—ç¬¦ä¸²åŒ¹é…ï¼Œ˜q™ä¸ª˜q‡ç¨‹ž®†ä¼šç›¸å½“¾~“æ…¢åQŒå½“æ–‡ç« æ•°ç›®å¾ˆå¤§æ—Óž¼Œæ—‰™—´å¾€å¾€æ˜¯æ— æ³•å¿å—çš„ã€?br /> <br> è‡ªæˆ‘è¯„è®ºåQ?br /> ˜q˜å¯ä»¥å‚è€ƒhttp://zh.wikipedia.org/wiki/%E5%80%92%E6%8E%92%E7%B4%A2%E5%BC%95<br> <br> <br> äºŒå…ƒæœçƒ¦½Ž—æ³•<br> åœ¨æŽ’å¥½åºçš„æ•°¾l„ä¸æ‰‘Öˆ°ç‰¹å®šçš„å…ƒç´ ã€?br /> é¦–å…ˆ, æ¯”è¾ƒæ•°ç»„ä¸é—´çš„å…ƒç´ ï¼Œå¦‚æžœç›¸åŒåQŒåˆ™˜q”å›žæ¤å…ƒç´ çš„æŒ‡é’ˆåQŒè¡¨½Cºæ‰¾åˆîCº†ã€?å¦‚æžœä¸ç›¸åŒï¼Œ æ¤å‡½æ•°å°±ä¼šç‘ô¾læœç´¢å…¶ä¸å¤§ž®ç›¸½W¦çš„ä¸€åŠï¼Œç„¶åŽ¾l§ç®‹ä¸‹åŽ»ã€‚å¦‚æžœå‰©ä¸‹çš„æ•°ç»„é•¿åº¦ä¸?åQŒåˆ™è¡¨ç¤ºæ‰¾ä¸åˆŽÍ¼Œé‚£ä¹ˆå‡½æ•°ž®×ƒ¼š¾l“æŸã€?br /> æ¤ç®—æ³•å‡½æ•°å¦‚ä¸‹ï¼š<br> <pre>int *binarySearch(int val, int array[], int n)<br> {<br> int m = n/2;<br> if(n <= 0) return NULL;<br> if(val == array[m]) return array + m;<br> if(val < array[m]) return binarySearch(val, array, m);<br> else return binarySearch(val, array+m+1, n-m-1);<br> }</pre> <p><br> å¯¹äºŽæœ‰nä¸ªå…ƒç´ çš„æ•°ç»„æ¥è¯´åQŒäºŒå…ƒæœç´¢ç®—æ³•è¿›è¡Œæœ€å¤?+log2(n)‹Æ¡æ¯”è¾ƒã€?å¦‚æžœæœ‰ä¸€ç™¾ä¸‡å…ƒç´ åQŒå¤§æ¦‚æ¯”è¾?0‹Æ¡ï¼Œä¹Ÿå°±æ˜¯æœ€å¤?0‹Æ¡é€’å½’æ‰§è¡ŒbinarySearch()å‡½æ•°ã€?/p> <br> <br><br></p><div align="right"><a style="text-decoration:none;" href="http://www.aygfsteel.com/persister/" target="_blank">persister</a> 2009-06-10 18:08 <a href="http://www.aygfsteel.com/persister/archive/2009/06/10/281201.html#Feedback" target="_blank" style="text-decoration:none;">å‘è¡¨è¯„è®º</a></div>]]> </article> <article> <h1>Luceneå¦ä¹ index</h1> <p>persister — Tue, 09 Jun 2009 15:33:00 GMT</p> 1.Adding documents to an indexåQ?br /> protected String[] keywords = {"1", "2"};<br> protected String[] unindexed = {"Netherlands", "Italy"};<br> protected String[] unstored = {"Amsterdam has lots of bridges", "Venice has lots of canals"};<br> protected String[] text = {"Amsterdam", "Venice"};<br> Directory dir = FSDirectory.getDirectory(indexDir, true);<br> IndexWriter writer = new IndexWriter(dir, new SimpleAnalyzer(), true);<br> writer.setUseCompoundFile(true);<br> for (int i = 0; i < keywords.length; i++) {<br> Document doc = new Document();<br> doc.add(Field.Keyword("id", keywords[i]));<br> doc.add(Field.UnIndexed("country", unindexed[i]));<br> doc.add(Field.UnStored("contents", unstored[i]));<br> doc.add(Field.Text("city", text[i]));<br> writer.addDocument(doc);<br> }<br> writer.optimize();<br> writer.close();<br> 2.Removing Documents from an indexåQ?br /> IndexReader reader = IndexReader.open(dir);<br> reader.delete(1);<br> ä¸Šé¢çš„æ–¹å¼ä¸€‹Æ¡åªèƒ½åˆ é™¤ä¸€ä¸ªdocumentåQŒä¸‹é¢çš„æ–ÒŽ³•å¯ä»¥åˆ é™¤å¤šä¸ªæ»¡èƒöæ¡äšgçš„document<br> IndexReader reader = IndexReader.open(dir);<br> reader.delete(new Term("city", "Amsterdam"));<br> reader.close();<p></p> <p>3.Index dates<br> Document doc = new Document();<br> doc.add(Field.Keyword("indexDate", new Date()));</p> <p>4.Tuning indexing performance<br> IndexWriter System property Default value Description<br> --------------------------------------------------------------------------------------------------<br> mergeFactor org.apache.lucene.mergeFactor 10 Controls segment merge frequency and size<br> maxMergeDocs org.apache.lucene.maxMergeDocs Integar.MAX_VALUE Limits the number of documents per segement<br> minMergeDocs org.apache.lucene.minMergeDocs 10 Controls the amount of RAM used when indexing</p> <p>mergeFactoræŽ§åˆ¶å†™å…¥¼‹¬ç›˜å‰å†…å˜ä¸¾~“å˜çš„documentæ•°é‡åQŒåŒæ—¶æŽ§åˆ¶merge index segmentsçš„é¢‘çŽ‡ã€‚å…¶é»˜è®¤å€¼æ˜¯10åQŒå³å˜æ»¡10ä¸?br /> documentsåŽå°±å¿…é¡»å†™å…¥¼‹¬ç›˜åQŒè€Œä¸”å¦‚æžœsegmentçš„æ•°é‡è¾¾åˆ?0çš„çñ”æ•°çš„æ—¶å€™ä¼šmergeæˆä¸€ä¸ªsegmentåQŒå½“ç„¶maxMergeDocsé™åˆ¶äº†æ¯ä¸?br /> segmentæœ€å¤§èƒ½å¤Ÿä¿å˜çš„documentæ•°é‡ã€‚mergeFactor‘Šå¤§çš„è¯ž®Þp¶Šèƒ½åˆ©ç”¨RAMåQŒæé«˜indexçš„æ•ˆçŽ‡ï¼Œä½†æ˜¯mergeFactor‘Šé«˜ä¹Ÿå°±æ„å‘³ç€<br> mergeçš„é¢‘çŽ‡å°±‘Šä½ŽåQŒä¼šå¯èƒ½å¯ÆD‡´segmentsçš„æ•°é‡å¾ˆå¤§ï¼ˆå› äØ“æ²¡æœ‰mergeåQ‰ï¼Œ˜q™æ ·searchçš„æ—¶å€™å°±éœ€è¦æ‰“å¼€æ›´å¤šçš„segmentæ–‡äšgåQŒä¹Ÿž®?br /> é™ä½Žäº†searchçš„æ•ˆçŽ‡ã€‚minMergeDocs is another IndexWriter instance variable that affects indexing performance. Its <br> value controls how many Documents have to be buffered before they’re merged to a segment.ä¹Ÿå³æ˜¯è¯´minMergeDocsä¹Ÿå…·æœ?br /> mergeFactoræŽ§åˆ¶¾~“å˜documentæ•°é‡çš„åŠŸèƒ½ã€?/p> </p><p>5.RAMDirectoryå¸®åŠ©åˆ©ç”¨RAMåQŒä¹Ÿå¯ä»¥é‡‡ç”¨é›†ç¾¤æˆ–è€…å¤š¾U¿ç¨‹çš„æ–¹å¼å……åˆ†åˆ©ç”¨ç¡¬ä»¶å’Œè½¯äšgèµ„æºåQŒæé«˜indexçš„æ•ˆçŽ‡ã€?/p> </p><p>6.æœ‰æ—¶å€™å¯¹äºŽæ¯ä¸ªfieldå¯èƒ½å¸Œæœ›æŽ§åˆ¶å…¶å¤§ž®ï¼Œæ¯”å¦‚åªå¯¹å‰?000ä¸ªtermåšindexåQŒè¿™ä¸ªæ—¶å€™å°±éœ€è¦ä‹Éç”¨maxFieldLengthæ¥æŽ§åˆ¶ã€?/p> </p><p>7.IndexWriter’s optimize()æ–ÒŽ³•ž®±æ˜¯ž®†segments˜q›è¡ŒmergeåQŒé™ä½Žsegmentsçš„æ•°é‡ä»Žè€Œå‡ž®‘searchçš„æ—¶å€™è¯»å–indexçš„æ—¶é—´ã€?/p> </p><p>8.æ³¨æ„å¤šçº¿½E‹çŽ¯å¢ƒä¸‹çš„å·¥ä½œï¼šan index-modifying IndexReader operation can’t be executed <br> while an index-modifying IndexWriter operation is in progress.ä¸ÞZº†é˜²æ¢è¯¯ç”¨åQŒLuceneåœ¨ä‹Éç”¨æŸäº›APIæ—¶ä¼š¾l?br /> indexä¸Šé”ã€?/p> <br><br></p><div align="right"><a style="text-decoration:none;" href="http://www.aygfsteel.com/persister/" target="_blank">persister</a> 2009-06-09 23:33 <a href="http://www.aygfsteel.com/persister/archive/2009/06/09/281032.html#Feedback" target="_blank" style="text-decoration:none;">å‘è¡¨è¯„è®º</a></div>]]> </article> <article> <h1>Luceneçš„Query</h1> <p>persister — Mon, 08 Jun 2009 02:05:00 GMT</p> LuceneåŸºæœ¬çš„æŸ¥è¯¢è¯å¥ï¼š<br> Searcher searcher = new IndexSearcher(dbpath);<br> Query query = QueryParser.parse(searchkey, searchfield,<br> new StandardAnalyzer());<br> Hits hits = searcher.search(query);<br> ä¸‹é¢æ˜¯Queryçš„å„¿UåæŸ¥è¯¢åQŒä»–ä»¬æ–—é±¼QueryParseréƒ½æœ‰å¯¹åº”å…³ç³»ã€?/p> <p>1.TermQueryå¸¸ç”¨åQŒå¯¹ä¸€ä¸ªTermåQˆæœ€ž®çš„ç´¢å¼•å—ï¼ŒåŒ…å«ä¸€ä¸ªfieldåå—å’Œå€û|¼‰˜q›è¡Œç´¢å¼•æŸ¥è¯¢ã€?br /> Termç›´æŽ¥ä¸ŽQueryParser.parseé‡Œé¢çš„keyå’Œfieldç›´æŽ¥å¯¹åº”ã€?/p> </p><p> IndexSearcher searcher = new IndexSearcher(directory);<br> Term t = new Term("isbn", "1930110995");<br> Query query = new TermQuery(t);<br> Hits hits = searcher.search(query);</p> <p>2.RangeQueryç”¨äºŽåŒºé—´æŸ¥è¯¢,RangeQueryçš„ç¬¬ä¸‰ä¸ªå‚æ•°è¡¨ç¤ºæ˜¯å¼€åŒºé—´˜q˜æ˜¯é—åŒºé—´ã€?br /> QueryParserä¼šæž„å»ÞZ»Žbeginåˆ°endä¹‹é—´çš„Nä¸ªæŸ¥è¯¢è¿›è¡ŒæŸ¥è¯¢ã€?/p> </p><p> Term begin, end;<br> Searcher searcher = new IndexSearcher(dbpath);<br> begin = new Term("pubmonth","199801");<br> end = new Term("pubmonth","199810");<br> RangeQuery query = new RangeQuery(begin, end, true);<br> </p> <p>RangeQueryæœ¬è´¨æ˜¯æ¯”è¾ƒå¤§ž®ã€‚æ‰€ä»¥å¦‚ä¸‹æŸ¥è¯¢ä¹Ÿæ˜¯å¯ä»¥çš„åQŒä½†æ˜¯æ„ä¹‰å°±äºŽä¸Šé¢ä¸å¤§ä¸€æ ·äº†åQŒæ€ÖM¹‹æ˜¯å¤§ž®çš„æ¯”è¾ƒ<br> è®‘Ö®šäº†ä¸€ä¸ªåŒºé—ß_¼Œåœ¨åŒºé—´å†…çš„éƒ½èƒ½å¤Ÿæœçƒ¦å‡ºæ¥åQŒè¿™é‡Œå°±å˜åœ¨ä¸€ä¸ªæ¯”è¾ƒå¤§ž®çš„åŽŸåˆ™åQŒæ¯”å¦‚å—½W¦ä¸²ä¼šé¦–å…ˆæ¯”è¾ƒç¬¬ä¸€ä¸ªå—½W¦ï¼Œ˜q™æ ·ä¸Žå—½W¦é•¿åº¦æ²¡æœ‰å…³¾p…R€?br /> begin = new Term("pubmonth","19");<br> end = new Term("pubmonth","20");<br> RangeQuery query = new RangeQuery(begin, end, true);<br> <br> <br> 3.PrefixQuery.å¯¹äºŽTermQueryåQŒå¿…™åÕd®Œå…¨åŒ¹é…ï¼ˆç”¨Field.Keywordç”Ÿæˆçš„å—ŒDµï¼‰æ‰èƒ½å¤ŸæŸ¥è¯¢å‡ºæ¥ã€?br /> ˜q™å°±åˆ¶çº¦äº†æŸ¥è¯¢çš„ç‰|´»æ€§ï¼ŒPrefixQueryåªéœ€è¦åŒ¹é…valueçš„å‰é¢ä“Qä½•å—ŒDµå³å¯ã€‚å¦‚Fieldä¸ºnameåQŒè®°å½?br /> ä¸é‚£ä¹ˆæœ‰jackliu,jackwu,jackli,é‚£ä¹ˆä½¿ç”¨jackž®±å¯ä»¥æŸ¥è¯¢å‡ºæ‰€æœ‰çš„è®°å½•ã€‚QueryParser creates a PrefixQuery<br> for a term when it ends with an asterisk (*) in query expressions.</p> <p> IndexSearcher searcher = new IndexSearcher(directory);<br> Term term = new Term("category", "/technology/computers/programming");<br> PrefixQuery query = new PrefixQuery(term);<br> Hits hits = searcher.search(query);</p> <p>4.BooleanQuery.ä¸Šé¢æ‰€æœ‰çš„æŸ¥è¯¢éƒ½æ˜¯åŸÞZºŽå•ä¸ªfieldçš„æŸ¥è¯¢ï¼Œå¤šä¸ªfieldæ€Žä¹ˆæŸ¥è¯¢å‘¢ï¼ŒBooleanQuery<br> ž®±æ˜¯è§£å†³å¤šä¸ªæŸ¥è¯¢çš„é—®é¢˜ã€‚é€šè¿‡add(Query query, boolean required, boolean prohibited)åŠ å…¥<br> å¤šä¸ªæŸ¥è¯¢.é€šè¿‡BooleanQueryçš„åµŒå¥—å¯ä»¥ç»„åˆéžå¸¸å¤æ‚çš„æŸ¥è¯¢ã€?br /> <br> IndexSearcher searcher = new IndexSearcher(directory);<br> TermQuery searchingBooks =<br> new TermQuery(new Term("subject","search"));</p> <p> RangeQuery currentBooks =<br> new RangeQuery(new Term("pubmonth","200401"),<br> new Term("pubmonth","200412"),true);<br> <br> BooleanQuery currentSearchingBooks = new BooleanQuery();<br> currentSearchingBooks.add(searchingBook s, true, false);<br> currentSearchingBooks.add(currentBooks, true, false);<br> Hits hits = searcher.search(currentSearchingBooks);</p> <p>BooleanQueryçš„addæ–ÒŽ³•æœ‰ä¸¤ä¸ªbooleanå‚æ•°åQ?br /> trueåQ†falseåQšè¡¨æ˜Žå½“å‰åŠ å…¥çš„åå¥æ˜¯å¿…™å»è¦æ»¡èƒöçš„ï¼›<br> falseåQ†trueåQšè¡¨æ˜Žå½“å‰åŠ å…¥çš„åå¥æ˜¯ä¸å¯ä»¥è¢«æ»¡‘³çš„åQ?br /> falseåQ†falseåQšè¡¨æ˜Žå½“å‰åŠ å…¥çš„åå¥æ˜¯å¯é€‰çš„åQ?br /> trueåQ†trueåQšé”™è¯¯çš„æƒ…å†µã€?/p> </p><p>QueryParser handily constructs BooleanQuerys when multiple terms are specified.<br> Grouping is done with parentheses, and the prohibited and required flags are<br> set when the –, +, AND, OR, and NOT operators are specified.</p> <p>5.PhraseQuery˜q›è¡Œæ›´äØ“¾_„¡¡®çš„æŸ¥æ‰¾ã€‚å®ƒèƒ½å¤Ÿå¯¹çƒ¦å¼•æ–‡æœ¬ä¸çš„ä¸¤ä¸ªæˆ–æ›´å¤šçš„å…³é”®è¯çš„ä½¾|®è¿›è¡?br /> é™å®šã€‚å¦‚æœæŸ¥åŒ…å«Aå’ŒBòq¶ä¸”Aã€Bä¹‹é—´˜q˜æœ‰ä¸€ä¸ªæ–‡å—ã€‚Terms surrounded by double quotes in <br> QueryParser parsed expressions are translated into a PhraseQuery.<br> The slop factor defaults to zero, but you can adjust the slop factor <br> by adding a tilde (~) followed by an integer. <br> For example, the expression "quick fox"~3</p> <p>6.WildcardQuery.WildcardQueryæ¯”PrefixQueryæä¾›äº†æ›´¾l†çš„æŽ§åˆ¶å’Œæ›´å¤§çš„ç‰|´»æ€§ï¼Œ˜q™ä¸ªæœ€å®ÒŽ˜“<br> ç†è§£å’Œä‹Éç”¨ã€?/p> </p><p>7.FuzzyQuery.˜q™ä¸ªQueryæ¯”è¾ƒç‰¹åˆ«åQŒå®ƒä¼šæŸ¥è¯¢ä¸Žå…³é”®å—é•¿å¾—å¾ˆåƒçš„å…¶ä»–è®°å½•ã€‚QueryParser <br> supports FuzzyQuery by suffixing a term with a tilde (~),for exmaple wuzza~.</p> <p> public void testFuzzy() throws Exception {<br> indexSingleFieldDocs(new Field[] {<br> Field.Text("contents", "fuzzy"),<br> Field.Text("contents", "wuzzy")<br> });<br> IndexSearcher searcher = new IndexSearcher(directory);<br> Query query = new FuzzyQuery(new Term("contents", "wuzza"));<br> Hits hits = searcher.search(query);<br> assertEquals("both close enough", 2, hits.length());<br> assertTrue("wuzzy closer than fuzzy",<br> hits.score(0) != hits.score(1));<br> assertEquals("wuzza bear","wuzzy", hits.doc(0).get("contents"));<br> }<br> </p> <br><br><div align="right"><a style="text-decoration:none;" href="http://www.aygfsteel.com/persister/" target="_blank">persister</a> 2009-06-08 10:05 <a href="http://www.aygfsteel.com/persister/archive/2009/06/08/280567.html#Feedback" target="_blank" style="text-decoration:none;">å‘è¡¨è¯„è®º</a></div>]]> </article> <article> <h1>Luceneå¦ä¹ </h1> <p>persister — Fri, 06 Mar 2009 03:03:00 GMT</p>  åŠ æ·±äº†æˆ‘å¯ÒŽ£€ç´¢çš„ç†è§£<br> åœ¨å…¨æ–‡æ£€ç´¢ä¸åQŒå¯ä»¥å’Œæ•°æ®åº“è¿›è¡Œä¸€ä¸ªç®€å•çš„å¯ÒŽ¯”<br> å…¨æ–‡‹‚€ç´¢æ²¡æœ‰è¡¨çš„æ¦‚å¿µï¼Œä¹Ÿå°±æ²¡æœ‰å›ºå®šçš„fieldsåQŒä½†æ˜¯æœ‰è®°å½•åQŒæ¯ä¸€ä¸ªè®°å½•å°±æ˜¯ä¸€ä¸ªDocumentå¯¹è±¡<br> æ¯ä¸€ä¸ªdocumentéƒ½å¯ä»¥æœ‰è‡ªå·±ä¸åŒçš„fieldsåQŒå¦‚ä¸‹ï¼š<br> <br> Document doc = new Document(); <br> <br> doc.add(Field.Keyword("filename",file.getAbsolutePath())); <br> <br> //ä»¥ä¸‹ä¸¤å¥åªèƒ½å–ä¸€å?å‰è€…æ˜¯ç´¢å¼•ä¸å˜å‚?åŽè€…æ˜¯ç´¢å¼•ä¸”å˜å‚?<br> //doc.add(Field.Text("content",new FileReader(file))); <br> doc.add(Field.Text("content",this.chgFileToString(file))); <br> <br> indexWriter.addDocument(doc); <br> <br> åœ¨æŸ¥è¯¢çš„æ—¶å€™ï¼Œéœ€è¦ä¸‰ä¸ªé‡è¦çš„å‚æ•°<br> é¦–å…ˆæ˜¯åº“è·¯å¾„åQŒå³åœ¨å“ªä¸ªåº“é‡Œé¢˜q›è¡Œ‹‚€ç´¢ï¼ˆç›¸å½“äºŽdatabaseçš„èµ\å¾„ï¼‰åQ?br /> <br> Searcher searcher = new IndexSearcher(dbpath); <br> <br> ç„¶åŽž®±æ˜¯ä½ ä»¥å“ªä¸ªå—æ®µåQŒæŸ¥è¯¢ä»€ä¹ˆå…³é”®è¯åQŒå› ä¸ºæ ¹æ®å—ŒDµå°±å¯ä»¥å¾—åˆ°å—æ®µå¯¹åº”çš„å†…å®?br /> åœ¨å¾—åˆ°çš„å†…å®¹ä¸æ£€ç´¢ä½ çš„å…³é”®è¯åQŒè¿™ä¸ªç¯æ»sqlè¯å¥åQŒåªä¸è¿‡æ²¡æœ‰è¡¨çš„æ¦‚å¿µ<br> Query query <br> = QueryParser.parse(searchkey,searchfield,new StandardAnalyzer()); <br> <br> ç„¶åŽå¼€å§‹æŸ¥è¯¢ï¼ŒæŸ¥è¯¢çš„ç»“æžœå°±æ˜¯documentçš„é›†åˆï¼š<br> Hits hits = searcher.search(query); <br> <br> å¯¹å¾—åˆ°çš„é›†åˆ˜q›è¡Œå¤„ç†åQ?br /> <br> if(hits != null)<br> { <br> list = new ArrayList(); <br> int temp_hitslength = hits.length(); <br> Document doc = null; <br> for(int i = 0;i < temp_hitslength; i++){ <br> doc = hits.doc(i); <br> //list.add(doc.get("filename")); <br> list.add(doc.get("content"));<br> } <br> } <br> <br> é™„å¸¸ç”¨FieldåQ?span style="font-size: 10pt; color: black; font-family: å®‹ä½“;"><br> <br> å¸¸ç”¨çš?/span><span style="font-size: 10pt; color: black; font-family: 'Courier New';">Field</span><span style="font-size: 10pt; color: black; font-family: å®‹ä½“;">æ–ÒŽ³•å¦‚ä¸‹åQ?/span><br> <br> <span style="font-size: 10pt; color: black; font-family: 'Courier New';"><br> <table border="1" cellpadding="0"> <tbody> <tr> <td style="padding: 0.75pt; width: 159.05pt;" width="212"> <p style="margin: 12pt 0cm 6pt; text-indent: 24pt; line-height: 16.5pt; text-align: center;" align="center"><span style="font-size: 10pt; color: black; font-family: å®‹ä½“;">æ–ÒŽ³•</span></p> </td> <td style="padding: 0.75pt; width: 56.2pt;" width="75"> <p style="margin: 12pt 0cm 6pt; text-indent: 24pt; line-height: 16.5pt; text-align: center;" align="center"><span style="font-size: 10pt; color: black; font-family: å®‹ä½“;">åˆ‡è¯</span></p> </td> <td style="padding: 0.75pt; width: 52.5pt;" width="70"> <p style="margin: 12pt 0cm 6pt; text-indent: 24pt; line-height: 16.5pt; text-align: center;" align="center"><span style="font-size: 10pt; color: black; font-family: å®‹ä½“;">ç´¢å¼•</span></p> </td> <td style="padding: 0.75pt; width: 52.5pt;" width="70"> <p style="margin: 12pt 0cm 6pt; text-indent: 24pt; line-height: 16.5pt; text-align: center;" align="center"><span style="font-size: 10pt; color: black; font-family: å®‹ä½“;">å˜å‚¨</span></p> </td> <td style="padding: 0.75pt; width: 92.05pt;" width="123"> <p style="margin: 12pt 0cm 6pt; text-indent: 24pt; line-height: 16.5pt; text-align: center;" align="center"><span style="font-size: 10pt; color: black; font-family: å®‹ä½“;">ç”¨é€?/span></span></p> </td> </tr> <tr> <td style="padding: 0.75pt; width: 159.05pt;" width="212"> <p style="margin: 12pt 0cm 6pt; text-indent: 24pt; line-height: 16.5pt; text-align: center;" align="center"><span style="font-size: 10pt; color: black; font-family: 'Courier New';">Field.Text(String name, String value)</span></p> </td> <td style="padding: 0.75pt; width: 56.2pt;" width="75"> <p style="margin: 12pt 0cm 6pt; text-indent: 24pt; line-height: 16.5pt; text-align: center;" align="center"><span style="font-size: 10pt; color: black; font-family: 'Courier New';">Yes</span></p> </td> <td style="padding: 0.75pt; width: 52.5pt;" width="70"> <p style="margin: 12pt 0cm 6pt; text-indent: 24pt; line-height: 16.5pt; text-align: center;" align="center"><span style="font-size: 10pt; color: black; font-family: 'Courier New';">Yes</span></p> </td> <td style="padding: 0.75pt; width: 52.5pt;" width="70"> <p style="margin: 12pt 0cm 6pt; text-indent: 24pt; line-height: 16.5pt; text-align: center;" align="center"><span style="font-size: 10pt; color: black; font-family: 'Courier New';">Yes</span></p> </td> <td style="padding: 0.75pt; width: 92.05pt;" valign="top" width="123"> <p style="margin: 12pt 0cm 6pt; text-indent: 24pt; line-height: 16.5pt; text-align: center;" align="center"><span style="font-size: 10pt; color: black; font-family: å®‹ä½“;">åˆ‡åˆ†è¯çƒ¦å¼•åÆˆå˜å‚¨åQŒæ¯”å¦‚ï¼šæ ‡é¢˜åQŒå†…å®¹å—ŒD?/span></span></p> </td> </tr> <tr> <td style="padding: 0.75pt; width: 159.05pt;" width="212"> <p style="margin: 12pt 0cm 6pt; text-indent: 24pt; line-height: 16.5pt; text-align: center;" align="center"><span style="font-size: 10pt; color: black; font-family: 'Courier New';">Field.Text(String name, Reader value)</span></p> </td> <td style="padding: 0.75pt; width: 56.2pt;" width="75"> <p style="margin: 12pt 0cm 6pt; text-indent: 24pt; line-height: 16.5pt; text-align: center;" align="center"><span style="font-size: 10pt; color: black; font-family: 'Courier New';">Yes</span></p> </td> <td style="padding: 0.75pt; width: 52.5pt;" width="70"> <p style="margin: 12pt 0cm 6pt; text-indent: 24pt; line-height: 16.5pt; text-align: center;" align="center"><span style="font-size: 10pt; color: black; font-family: 'Courier New';">Yes</span></p> </td> <td style="padding: 0.75pt; width: 52.5pt;" width="70"> <p style="margin: 12pt 0cm 6pt; text-indent: 24pt; line-height: 16.5pt; text-align: center;" align="center"><span style="font-size: 10pt; color: black; font-family: 'Courier New';">No</span></p> </td> <td style="padding: 0.75pt; width: 92.05pt;" valign="top" width="123"> <p style="margin: 12pt 0cm 6pt; text-indent: 24pt; line-height: 16.5pt; text-align: center;" align="center"><span style="font-size: 10pt; color: black; font-family: å®‹ä½“;">åˆ‡åˆ†è¯çƒ¦å¼•ä¸å˜å‚¨åQŒæ¯”å¦‚ï¼š</span><span style="font-size: 10pt; color: black; font-family: 'Courier New';">META</span><span style="font-size: 10pt; color: black; font-family: å®‹ä½“;">ä¿¡æ¯åQ?/span></span></p> <p style="margin: 12pt 0cm 6pt; text-indent: 24pt; line-height: 16.5pt; text-align: center;" align="center"><span style="font-size: 10pt; color: black; font-family: å®‹ä½“;">ä¸ç”¨äºŽè¿”å›žæ˜¾½Cºï¼Œä½†éœ€è¦è¿›è¡Œæ£€ç´¢å†…å®?/span></span></p> </td> </tr> <tr> <td style="padding: 0.75pt; width: 159.05pt;" width="212"> <p style="margin: 12pt 0cm 6pt; text-indent: 24pt; line-height: 16.5pt; text-align: center;" align="center"><span style="font-size: 10pt; color: black; font-family: 'Courier New';">Field.Keyword(String name, String value)</span></p> </td> <td style="padding: 0.75pt; width: 56.2pt;" width="75"> <p style="margin: 12pt 0cm 6pt; text-indent: 24pt; line-height: 16.5pt; text-align: center;" align="center"><span style="font-size: 10pt; color: black; font-family: 'Courier New';">No</span></p> </td> <td style="padding: 0.75pt; width: 52.5pt;" width="70"> <p style="margin: 12pt 0cm 6pt; text-indent: 24pt; line-height: 16.5pt; text-align: center;" align="center"><span style="font-size: 10pt; color: black; font-family: 'Courier New';">Yes</span></p> </td> <td style="padding: 0.75pt; width: 52.5pt;" width="70"> <p style="margin: 12pt 0cm 6pt; text-indent: 24pt; line-height: 16.5pt; text-align: center;" align="center"><span style="font-size: 10pt; color: black; font-family: 'Courier New';">Yes</span></p> </td> <td style="padding: 0.75pt; width: 92.05pt;" valign="top" width="123"> <p style="margin: 12pt 0cm 6pt; text-indent: 24pt; line-height: 16.5pt; text-align: center;" align="center"><span style="font-size: 10pt; color: black; font-family: å®‹ä½“;">ä¸åˆ‡åˆ†çƒ¦å¼•åÆˆå˜å‚¨åQŒæ¯”å¦‚ï¼šæ—¥æœŸå—æ®µ</span></p> </td> </tr> <tr> <td style="padding: 0.75pt; width: 159.05pt;" width="212"> <p style="margin: 12pt 0cm 6pt; text-indent: 24pt; line-height: 16.5pt; text-align: center;" align="center"><span style="font-size: 10pt; color: black; font-family: 'Courier New';">Field.UnIndexed(String name, String value)</span></p> </td> <td style="padding: 0.75pt; width: 56.2pt;" width="75"> <p style="margin: 12pt 0cm 6pt; text-indent: 24pt; line-height: 16.5pt; text-align: center;" align="center"><span style="font-size: 10pt; color: black; font-family: 'Courier New';">No</span></p> </td> <td style="padding: 0.75pt; width: 52.5pt;" width="70"> <p style="margin: 12pt 0cm 6pt; text-indent: 24pt; line-height: 16.5pt; text-align: center;" align="center"><span style="font-size: 10pt; color: black; font-family: 'Courier New';">No</span></p> </td> <td style="padding: 0.75pt; width: 52.5pt;" width="70"> <p style="margin: 12pt 0cm 6pt; text-indent: 24pt; line-height: 16.5pt; text-align: center;" align="center"><span style="font-size: 10pt; color: black; font-family: 'Courier New';">Yes</span></p> </td> <td style="padding: 0.75pt; width: 92.05pt;" valign="top" width="123"> <p style="margin: 12pt 0cm 6pt; text-indent: 24pt; line-height: 16.5pt; text-align: center;" align="center"><span style="font-size: 10pt; color: black; font-family: å®‹ä½“;">ä¸çƒ¦å¼•ï¼Œåªå˜å‚¨ï¼Œæ¯”å¦‚åQšæ–‡ä»¶èµ\å¾?/span></span></p> </td> </tr> <tr> <td style="padding: 0.75pt; width: 159.05pt;" width="212"> <p style="margin: 12pt 0cm 6pt; text-indent: 24pt; line-height: 16.5pt; text-align: center;" align="center"><span style="font-size: 10pt; color: black; font-family: 'Courier New';">Field.UnStored(String name, String value)</span></p> </td> <td style="padding: 0.75pt; width: 56.2pt;" width="75"> <p style="margin: 12pt 0cm 6pt; text-indent: 24pt; line-height: 16.5pt; text-align: center;" align="center"><span style="font-size: 10pt; color: black; font-family: 'Courier New';">Yes</span></p> </td> <td style="padding: 0.75pt; width: 52.5pt;" width="70"> <p style="margin: 12pt 0cm 6pt; text-indent: 24pt; line-height: 16.5pt; text-align: center;" align="center"><span style="font-size: 10pt; color: black; font-family: 'Courier New';">Yes</span></p> </td> <td style="padding: 0.75pt; width: 52.5pt;" width="70"> <p style="margin: 12pt 0cm 6pt; text-indent: 24pt; line-height: 16.5pt; text-align: center;" align="center"><span style="font-size: 10pt; color: black; font-family: 'Courier New';">No</span></p> </td> <td style="padding: 0.75pt; width: 92.05pt;" valign="top" width="123"> <p style="margin: 12pt 0cm 6pt; text-indent: 24pt; line-height: 16.5pt; text-align: center;" align="center"><span style="font-size: 10pt; color: black; font-family: å®‹ä½“;">åªå…¨æ–‡çƒ¦å¼•ï¼Œä¸å˜å‚?/span></span></p> </td> </tr> </tbody> </table> </span><span style="font-size: 10pt; color: black; font-family: å®‹ä½“;"><br> åˆ‡åˆ†è¯? ž®±æ˜¯æŒ‡å¯¹æ–‡æœ¬˜q›è¡Œåˆ‡è¯åQŒç”¨äºŽè¿›è¡Œçƒ¦å¼•ï¼Œä¸Šé¢å¯ä»¥çœ‹åˆ°åˆ‡åˆ†çš„éƒ½ä¼šè¿›è¡Œçƒ¦å¼•ï¼›ç´¢å¼•å³ç”¨äºŽé€šè¿‡æœçƒ¦è¯è¿›è¡ŒæŸ¥è¯¢ï¼›å˜å‚¨è¡¨ç¤ºæ˜¯å¦å˜å‚¨å†…å®¹æœ¬èínã€‚ä¸Šé¢çš„ Field.Keywordæ–ÒŽ³•ž®×ƒ¸åˆ‡åˆ†ä½†æ˜¯å¯ä»¥ç´¢å¼•åQŒæ‰€ä»¥å¯ä»¥ç”¨˜q™ä¸ªå—æ®µ˜q›è¡ŒæŸ¥è¯¢åQŒè€ŒField.UnIndexedž®×ƒ¸èƒ½è¿›è¡ŒæŸ¥è¯¢äº†ã€‚ä½†æ˜¯ç”±äº? Field.Keywordä¸åˆ‡åˆ†ï¼Œæ‰€ä»¥å½“ä½¿ç”¨new Term(searchkey,searchfield)˜q›è¡ŒæŸ¥è¯¢æ—Óž¼Œ¾l™å‡ºçš„searchkeyå¿…é¡»ä¸Žvaueå‚æ•°å€¼å®Œå…¨ä¸€è‡´æ‰ä¼šæŸ¥è¯¢å‡ºæ¥ï¼Œè€? Field.Textå’ŒField.UnStoredåˆ™å°±ä¸ä¸€æ ?/span>ã€?br /> <br> <a>Luceneä¸å›½</a>æ˜¯ä¸€ä¸ªéžå¸¸å¥½çš„ç½‘ç«™ï¼Œå¯¹Luceneå†…éƒ¨¾l“æž„˜q›è¡Œäº†è¯¦¾l†çš„åˆ†æžåQŒå¯ä»¥å‚è€ƒã€?br /> <br> <br> <br><br><div align="right"><a style="text-decoration:none;" href="http://www.aygfsteel.com/persister/" target="_blank">persister</a> 2009-03-06 11:03 <a href="http://www.aygfsteel.com/persister/archive/2009/03/06/258147.html#Feedback" target="_blank" style="text-decoration:none;">å‘è¡¨è¯„è®º</a></div>]]></span></span> </article> </main></body></html>