1、SharpICTCLAS中詞庫(kù)的擴(kuò)充
如果對(duì)SharpICTCLAS目前詞庫(kù)不滿意的化,可以考慮擴(kuò)充現(xiàn)有詞庫(kù)。擴(kuò)充方法非常簡(jiǎn)單,代碼如下:
詞庫(kù)擴(kuò)充
static void Main(string[] args)
{
string DictPath = Path.Combine(Environment.CurrentDirectory, "Data") +
Path.DirectorySeparatorChar;
Console.WriteLine("正在讀入字典,請(qǐng)稍候...");
WordDictionary dict = new WordDictionary();
dict.Load(DictPath + "coreDict.dct");
Console.WriteLine("\r\n向字典庫(kù)插入“設(shè)計(jì)模式”一詞...");
dict.AddItem("設(shè)計(jì)模式", Utility.GetPOSValue("n"), 10);
Console.WriteLine("\r\n修改完成,將字典寫(xiě)入磁盤(pán)文件coreDictNew.dct,請(qǐng)稍候...");
dict.Save(DictPath + "coreDictNew.dct");
Console.Write("按下回車(chē)鍵退出......");
Console.ReadLine();
}
{
string DictPath = Path.Combine(Environment.CurrentDirectory, "Data") +
Path.DirectorySeparatorChar;
Console.WriteLine("正在讀入字典,請(qǐng)稍候...");
WordDictionary dict = new WordDictionary();
dict.Load(DictPath + "coreDict.dct");
Console.WriteLine("\r\n向字典庫(kù)插入“設(shè)計(jì)模式”一詞...");
dict.AddItem("設(shè)計(jì)模式", Utility.GetPOSValue("n"), 10);
Console.WriteLine("\r\n修改完成,將字典寫(xiě)入磁盤(pán)文件coreDictNew.dct,請(qǐng)稍候...");
dict.Save(DictPath + "coreDictNew.dct");
Console.Write("按下回車(chē)鍵退出......");
Console.ReadLine();
}
通過(guò)AddItem方法可以輕松實(shí)現(xiàn)添加新詞匯,添加時(shí)除了要指明詞外,還需指明詞性、詞頻。
2、其它工具
SharpICTCLAS示例代碼中還提供了一些用于對(duì)文件進(jìn)行預(yù)處理的工具類(lèi)PreProcessUtility,里面提供了將GB2312中繁體漢字轉(zhuǎn)換為簡(jiǎn)體字的代碼,以及將全角字母轉(zhuǎn)換為半角字母的方法,除此之外,還提供了對(duì)HTML文件進(jìn)行預(yù)處理,去除HTML標(biāo)記的方法,用戶可酌情使用。
- 小結(jié)
有關(guān)SharpICTCLAS的系列文章到此為止就全部結(jié)束。
來(lái)源:http://www.cnblogs.com/zhenyulu/category/85598.html