bbmonkey62笨笨猴

          中文分詞

            BlogJava :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理 ::
            2 隨筆 :: 0 文章 :: 38 評論 :: 0 Trackbacks

          我的評論

          re: 對搜索引擎同義詞支持的實驗, 分析模擬 bbmonkey62笨笨猴 2010-08-16 10:02  
          目前所有的搜索引擎都只是按關鍵詞查找內容,最多也只是做了一些很簡單的處理,比如搜索:武大,可能會把武漢大學也搜索出來,但像你這篇文章中提到的,現在還沒有搜索引擎能做到。
          以后的搜索引擎可能會在智能程度提高,但難度也是非常大的。
          寫得很好
          請在2009-04-17下午5點35分以前下過1.1.6版本的朋友們再重新下一遍,由于我之前測試得不夠嚴密,5點35分以前的1.1.6版本在對搜索詞進行處理(segmentKeyExact(key)和segmentKeyFuzzy(key))時,當搜索詞是某種組合的時候會導致比較嚴重的錯誤,其他功能沒有發現問題,非常抱歉,敬請諒解
          @mrzhu
          在建立索引時,lucene是支持索引非文本數據的,我不知道你在索引的時候是怎么用的,但我建議你去看如下內容:
          在org.apache.lucene.document.Field里的構造方法:
          public Field(String name, byte[] value, Store store)
          請留意第二個參數,在建立索引的時候允許非文本的字符,比如大文件類型轉換為byte[]型索引起來,然后你取的時候再做相應的轉換

          我沒做測試,你可以去測試下是否可行,我覺得是可以的。。。
          主站蜘蛛池模板: 湘潭市| 砀山县| 南宫市| 博野县| 介休市| 什邡市| 交口县| 泸溪县| 东台市| 中山市| 尚义县| 平湖市| 龙门县| 舞钢市| 都江堰市| 探索| 曲阳县| 巴楚县| 隆昌县| 隆安县| 东阳市| 新巴尔虎左旗| 淮滨县| 淮安市| 永和县| 个旧市| 吉林省| 灵石县| 怀化市| 分宜县| 乌拉特后旗| 西安市| 肇州县| 深圳市| 石棉县| 江华| 皮山县| 延吉市| 开平市| 泸州市| 江北区|