沙漠中的魚

          欲上天堂,先下地獄
          posts - 0, comments - 56, trackbacks - 0, articles - 119
            BlogJava :: 首頁 ::  :: 聯系 :: 聚合  :: 管理

          Carrot2對文章進行聚類代碼示例

          Posted on 2013-01-08 15:08 沙漠中的魚 閱讀(1258) 評論(0)  編輯  收藏 所屬分類: 其他Java數據挖掘
          public class ClusteringFlyStoneDocument {

              public static void main(String[] args) {
                  
                  final Controller controller = ControllerFactory.createCachingPooling(IDocumentSource.class);
                  //創建需要處理的屬性對象
                  final Map<String, Object> attributes = Maps.newHashMap();
                  
                  //需要處理的文檔集合
                  List<Document> documents = SampleDocumentData.DOCUMENTS_DATA_MINING;
                  
                  //將文檔添加到聚類屬性中
                  CommonAttributesDescriptor.attributeBuilder(attributes).documents(documents);
                  
                  //設置處理的語言()
                  MultilingualClusteringDescriptor.attributeBuilder(attributes).defaultLanguage(LanguageCode.CHINESE_SIMPLIFIED);
                  
                  //設置需要處理的對象,以及聚類的算法
                  final ProcessingResult englishResult = controller.process(attributes, LingoClusteringAlgorithm.class);
                  
                  //獲取結果,打印聚類主題及關聯信息
                  final List<Cluster> clustersByTopic = englishResult.getClusters();
                  System.out.println("=======聚類主題=====");
                  for(Cluster cluster : clustersByTopic){
                      System.out.println("【主題 】" +cluster.getLabel());
                      List<Document> cDocLst = cluster.getAllDocuments();
                      for(Document doc : cDocLst){
                          System.out.println("--------" + doc.getTitle());
                      }
                  }
                   
                  //通過URL進行聚類
                  final ProcessingResult byDomainClusters = controller.process(documents, null,ByUrlClusteringAlgorithm.class);
                  final List<Cluster> clustersByDomain = byDomainClusters.getClusters();
                  System.out.println("=======URL聚類=======");
                  for(Cluster cluster : clustersByDomain){
                      System.out.println("【URL】" +cluster.getLabel());
                      List<Document> cDocLst = cluster.getAllDocuments();
                      for(Document doc : cDocLst){
                          System.out.println("----" + doc.getTitle());
                      }
                  }
              }

          }
          主站蜘蛛池模板: 长阳| 屏东市| 霞浦县| 渝中区| 专栏| 大化| 平武县| 滁州市| 英吉沙县| 富蕴县| 柳州市| 扎兰屯市| 元谋县| 舒城县| 进贤县| 建始县| 松潘县| 喀喇沁旗| 建宁县| 青神县| 安顺市| 仁寿县| 文昌市| 丰都县| 兴业县| 靖西县| 钟祥市| 顺昌县| 桐乡市| 永和县| 思南县| 天长市| 汪清县| 康定县| 乌审旗| 黄平县| 襄垣县| 化州市| 靖远县| 进贤县| 自治县|