復旦大學語料庫的一些統(tǒng)計信息Part 3 文檔頻率預處理
摘要: 在上一篇文章中對復旦語料庫進行分詞,去停止詞,去無用詞性的詞的基礎(chǔ)上,再進行一次根據(jù)DF的處理,去除所有文檔頻率小于等于3的詞,得到的對比結(jié)果如下
閱讀全文
10分鐘開始使用ICTCLAS Java版
摘要: ICTCLAS是中科院計算所出品的中文分詞程序包,在國內(nèi)一直有著良好的口碑和很高的使用率。之前一直只有 C++的版本提供,而現(xiàn)在C#,Delphi和Java版本已經(jīng)紛紛出爐。下面用一個極小的例子,讓大家10分鐘之內(nèi)就能用上ICTCLAS ,從此也開始自己的文本分類和搜索引擎開發(fā)之路。
閱讀全文