1、SharpICTCLAS中詞庫的擴充
如果對SharpICTCLAS目前詞庫不滿意的化,可以考慮擴充現有詞庫。擴充方法非常簡單,代碼如下:
詞庫擴充
static void Main(string[] args)
{
string DictPath = Path.Combine(Environment.CurrentDirectory, "Data") +
Path.DirectorySeparatorChar;
Console.WriteLine("正在讀入字典,請稍候...");
WordDictionary dict = new WordDictionary();
dict.Load(DictPath + "coreDict.dct");
Console.WriteLine("\r\n向字典庫插入“設計模式”一詞...");
dict.AddItem("設計模式", Utility.GetPOSValue("n"), 10);
Console.WriteLine("\r\n修改完成,將字典寫入磁盤文件coreDictNew.dct,請稍候...");
dict.Save(DictPath + "coreDictNew.dct");
Console.Write("按下回車鍵退出......");
Console.ReadLine();
}
{
string DictPath = Path.Combine(Environment.CurrentDirectory, "Data") +
Path.DirectorySeparatorChar;
Console.WriteLine("正在讀入字典,請稍候...");
WordDictionary dict = new WordDictionary();
dict.Load(DictPath + "coreDict.dct");
Console.WriteLine("\r\n向字典庫插入“設計模式”一詞...");
dict.AddItem("設計模式", Utility.GetPOSValue("n"), 10);
Console.WriteLine("\r\n修改完成,將字典寫入磁盤文件coreDictNew.dct,請稍候...");
dict.Save(DictPath + "coreDictNew.dct");
Console.Write("按下回車鍵退出......");
Console.ReadLine();
}
通過AddItem方法可以輕松實現添加新詞匯,添加時除了要指明詞外,還需指明詞性、詞頻。
2、其它工具
SharpICTCLAS示例代碼中還提供了一些用于對文件進行預處理的工具類PreProcessUtility,里面提供了將GB2312中繁體漢字轉換為簡體字的代碼,以及將全角字母轉換為半角字母的方法,除此之外,還提供了對HTML文件進行預處理,去除HTML標記的方法,用戶可酌情使用。
- 小結
有關SharpICTCLAS的系列文章到此為止就全部結束。
來源:http://www.cnblogs.com/zhenyulu/category/85598.html