沙漠中的魚

欲上天堂，先下地獄

posts - 0, comments - 56, trackbacks - 0, articles - 119

Carrot2對文章進行聚類代碼示例

Posted on 2013-01-08 15:08 沙漠中的魚閱讀(1258) 評論(0) 編輯收藏所屬分類: 其他、Java 、數據挖掘

public class ClusteringFlyStoneDocument {

    public static void main(String[] args) {

        final Controller controller = ControllerFactory.createCachingPooling(IDocumentSource.class);
        //創建需要處理的屬性對象
        final Map<String, Object> attributes = Maps.newHashMap();

        //需要處理的文檔集合
        List<Document> documents = SampleDocumentData.DOCUMENTS_DATA_MINING;

        //將文檔添加到聚類屬性中
        CommonAttributesDescriptor.attributeBuilder(attributes).documents(documents);

        //設置處理的語言（）
        MultilingualClusteringDescriptor.attributeBuilder(attributes).defaultLanguage(LanguageCode.CHINESE_SIMPLIFIED);

        //設置需要處理的對象，以及聚類的算法
        final ProcessingResult englishResult = controller.process(attributes, LingoClusteringAlgorithm.class);

        //獲取結果，打印聚類主題及關聯信息
        final List<Cluster> clustersByTopic = englishResult.getClusters();
        System.out.println("=======聚類主題=====");
        for(Cluster cluster : clustersByTopic){
            System.out.println("【主題】" +cluster.getLabel());
            List<Document> cDocLst = cluster.getAllDocuments();
            for(Document doc : cDocLst){
                System.out.println("--------" + doc.getTitle());
            }
        }

        //通過URL進行聚類
        final ProcessingResult byDomainClusters = controller.process(documents, null,ByUrlClusteringAlgorithm.class);
        final List<Cluster> clustersByDomain = byDomainClusters.getClusters();
        System.out.println("=======URL聚類=======");
        for(Cluster cluster : clustersByDomain){
            System.out.println("【URL】" +cluster.getLabel());
            List<Document> cDocLst = cluster.getAllDocuments();
            for(Document doc : cDocLst){
                System.out.println("----" + doc.getTitle());
            }
        }
    }

}

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: 在操作系統中安裝phantomjs BIEE查詢去年同期報表設置過濾條件編寫bat腳本執行jar Java中Xpath實現當前節點尋找父節點下的字節點 Carrot2對文章進行聚類代碼示例用ant通過cvs簽出文件出現異常處理辦法定類、定序、定距、定比數據的區分安裝DQS服務報錯自定義silverlight控件需要注意的地方 VP Suite 5.0下載地址

沙漠中的魚

Carrot2對文章進行聚類代碼示例

日歷

公告

留言簿(2)

文章分類(148)

文章檔案(119)

收藏夾(5)

學習網站

開源框架

數據結構和算法

瀏覽器內核

資料下載

搜索

積分與排名

最新隨筆

最新評論