隨筆-23  評論-58  文章-0  trackbacks-0

          我的評論

          QQ:383138070
          這個現在需要手工分發。
          參考正向最大匹配中文分詞算法
          nut 目前只是一個設計參考,想應用的同學可以直接在上面修改應用。如果計劃應用的話,本人無條件提供技術支持,第一時間根據實際情況修改代碼。
          呵呵,測試代碼有個 Thread.sleep(8*1000); 這是等待初始化的,所以容易誤解為搜索時間很長.
          katta發布的時候應該是還沒有hbase的
          nut 和 katta 是有點像,但是 是兩個完全不一樣的東西
          nut并不用M/R來排序,用M/R來排序的話并發是上不來的

          nut是通過各個搜索服務器來實現本地搜索再在nut client端進行合并排序
          違背了hadoop的設計理念?

          不知道為什么這么說?
          同一組服務器里服務器上的索引是不相同的,同一組服務器共同構成一個完整的大索引

          搜索的時候并不搜索hdfs上的索引,那樣性能非常差,是要分發到搜索服務器上的進行本地搜索
          Nut目前還是alpha版,因需要有大量的機器所以目前還沒有這樣的條件來實際使用該框架
          全局評分的實現大概是這樣的:
          每次搜索要分二次。第一次搜索得到文檔總數和文檔詞頻。第二次搜索再將第一次搜索的結果作為參數。
          所以并發必定會下降一半的。

          這種方式并不好。作者認為比較好的方式是按內容切分索引。這樣兩者都能有比較好的兼顧。nut在下一個版本alpha8時,會采用這種方式。
          是的,nut目前還不能實現全局評分,以后可能會做一個可選的。如果實現全局評分的話,并發會下降一半的
          主站蜘蛛池模板: 武穴市| 榆中县| 涡阳县| 蚌埠市| 长泰县| 六安市| 剑阁县| 佳木斯市| 天柱县| 新河县| 祁门县| 五华县| 宜州市| 宁强县| 杂多县| 安吉县| 辉南县| 湖州市| 藁城市| 时尚| 浪卡子县| 吐鲁番市| 司法| 古浪县| 龙里县| 蒲江县| 涡阳县| 和田县| 沙坪坝区| 启东市| 澜沧| 潢川县| 涿州市| 乳山市| 白沙| 蛟河市| 遂溪县| 西和县| 东乌珠穆沁旗| 牙克石市| 仁怀市|