使用復(fù)旦大學(xué)基準(zhǔn)語(yǔ)料庫(kù)所做的對(duì)比實(shí)驗(yàn)并非我本人進(jìn)行的,我只是引用了文獻(xiàn)“周文霞:現(xiàn)代文本分類(lèi)技術(shù)研究,武警學(xué)院學(xué)報(bào),2007.12”的實(shí)驗(yàn)結(jié)果。因此我手頭沒(méi)有該文作者所使用的預(yù)處理程序。但復(fù)旦大學(xué)的語(yǔ)料庫(kù)在中科院中文自然語(yǔ)言處理開(kāi)放平臺(tái)上有提供下載,頁(yè)面地址是http://www.nlp.org.cn/docs/doclist.php?cat_id=16&type=15,可能需要注冊(cè)用戶(hù),待管理員審批完成之后方可下載。我已經(jīng)下載了一份,訓(xùn)練集與測(cè)試集共100MB的樣子,大家有需要的話也可以想辦法分發(fā)給大家。
另外,搜狗實(shí)驗(yàn)室提供的文本分類(lèi)語(yǔ)料庫(kù)也有在線下載版本,地址是http://www.sogou.com/labs/dl/c.html,共有10個(gè)類(lèi)別,8萬(wàn)篇左右的文本.
在此只是提醒大家,文本分類(lèi)語(yǔ)料庫(kù)的建立是需要很多人力成本的,無(wú)論復(fù)旦大學(xué)還是搜狗實(shí)驗(yàn)室,既然免費(fèi)與大家共享,就希望大家在使用的時(shí)候至少注明出處,也不枉別人對(duì)我們的信任。
謝謝。

P.S.實(shí)在沒(méi)有辦法下載到的朋友也可以加我的QQ49900829,在消息中注明需要復(fù)旦語(yǔ)料庫(kù),我可以在線傳送給大家。