沙漠中的魚

          欲上天堂,先下地獄
          posts - 0, comments - 56, trackbacks - 0, articles - 119
            BlogJava :: 首頁 ::  :: 聯系 :: 聚合  :: 管理

          Carrot2對文章進行聚類代碼示例

          Posted on 2013-01-08 15:08 沙漠中的魚 閱讀(1258) 評論(0)  編輯  收藏 所屬分類: 其他Java數據挖掘
          public class ClusteringFlyStoneDocument {

              public static void main(String[] args) {
                  
                  final Controller controller = ControllerFactory.createCachingPooling(IDocumentSource.class);
                  //創建需要處理的屬性對象
                  final Map<String, Object> attributes = Maps.newHashMap();
                  
                  //需要處理的文檔集合
                  List<Document> documents = SampleDocumentData.DOCUMENTS_DATA_MINING;
                  
                  //將文檔添加到聚類屬性中
                  CommonAttributesDescriptor.attributeBuilder(attributes).documents(documents);
                  
                  //設置處理的語言()
                  MultilingualClusteringDescriptor.attributeBuilder(attributes).defaultLanguage(LanguageCode.CHINESE_SIMPLIFIED);
                  
                  //設置需要處理的對象,以及聚類的算法
                  final ProcessingResult englishResult = controller.process(attributes, LingoClusteringAlgorithm.class);
                  
                  //獲取結果,打印聚類主題及關聯信息
                  final List<Cluster> clustersByTopic = englishResult.getClusters();
                  System.out.println("=======聚類主題=====");
                  for(Cluster cluster : clustersByTopic){
                      System.out.println("【主題 】" +cluster.getLabel());
                      List<Document> cDocLst = cluster.getAllDocuments();
                      for(Document doc : cDocLst){
                          System.out.println("--------" + doc.getTitle());
                      }
                  }
                   
                  //通過URL進行聚類
                  final ProcessingResult byDomainClusters = controller.process(documents, null,ByUrlClusteringAlgorithm.class);
                  final List<Cluster> clustersByDomain = byDomainClusters.getClusters();
                  System.out.println("=======URL聚類=======");
                  for(Cluster cluster : clustersByDomain){
                      System.out.println("【URL】" +cluster.getLabel());
                      List<Document> cDocLst = cluster.getAllDocuments();
                      for(Document doc : cDocLst){
                          System.out.println("----" + doc.getTitle());
                      }
                  }
              }

          }
          主站蜘蛛池模板: 辉县市| 介休市| 蕉岭县| 东城区| 湖北省| 汪清县| 临夏县| 肥西县| 巴马| 静海县| 利津县| 东明县| 九龙坡区| 睢宁县| 高密市| 上栗县| 虞城县| 闵行区| 海阳市| 阜阳市| 江源县| 彭阳县| 元谋县| 望城县| 新巴尔虎左旗| 连平县| 佳木斯市| 肃南| 郴州市| 林西县| 潮州市| 晋江市| 秦安县| 淄博市| 江川县| 彰化市| 荆州市| 循化| 贵港市| 富源县| 通辽市|