大致內(nèi)容:
這篇論文的任務(wù)是對(duì)twitter上的短文本進(jìn)行分類(lèi),分到預(yù)先定義的5個(gè)類(lèi)別中:news,event,opinions,deal,PM(private message)。該論文摒棄傳統(tǒng)的BOW特征模型而別出心裁地選取了8個(gè)特征(8F):
1個(gè)是名詞性特性:用戶。這個(gè)特征是8F特征中最為主要的特征,因?yàn)樗从沉诵畔⒃吹闹饕?lèi)別特征。如,企業(yè)的用戶和個(gè)人用戶通常有著不同的用戶行為,這個(gè)特征可以限定該用戶tweet的分類(lèi)范圍。
另外7個(gè)是binary feature(存在特征):
俚語(yǔ)與詞語(yǔ)縮寫(xiě)的使用:俚語(yǔ)和詞語(yǔ)縮寫(xiě)通常不會(huì)是一個(gè)新聞
time-event短語(yǔ):Event類(lèi)別的重要特征
評(píng)論性詞語(yǔ):Opinion類(lèi)重要特征
詞語(yǔ)的強(qiáng)調(diào)(大寫(xiě)或字母重要,如veeery):同上
currency和percentage標(biāo)志:如¥$%,這些都是Deal類(lèi)別的重要特征
@usrname:這是PM的重要特征,當(dāng)然也有可能是Event類(lèi)中的一個(gè)特征(participants)。
實(shí)驗(yàn)表明8F比BOW在精度上均為大幅提高。
使用工具:
weka
論文:
Bharath Sriram, Dave Fuhry, Engin Demir, Hakan Ferhatosmanoglu, Murat Demirbas:Short Text Classification in Twitter to Improve Information Filtering. Proceeding of the 33rd international ACM SIGIR conference on Research and development in information retrieval, Jul. 2010
論文鏈接:
SIGIR2010_Short_Text_Classification_in_Twitter_to_Improve_Information_Filtering.pdf
這篇論文的任務(wù)是對(duì)twitter上的短文本進(jìn)行分類(lèi),分到預(yù)先定義的5個(gè)類(lèi)別中:news,event,opinions,deal,PM(private message)。該論文摒棄傳統(tǒng)的BOW特征模型而別出心裁地選取了8個(gè)特征(8F):
1個(gè)是名詞性特性:用戶。這個(gè)特征是8F特征中最為主要的特征,因?yàn)樗从沉诵畔⒃吹闹饕?lèi)別特征。如,企業(yè)的用戶和個(gè)人用戶通常有著不同的用戶行為,這個(gè)特征可以限定該用戶tweet的分類(lèi)范圍。
另外7個(gè)是binary feature(存在特征):
俚語(yǔ)與詞語(yǔ)縮寫(xiě)的使用:俚語(yǔ)和詞語(yǔ)縮寫(xiě)通常不會(huì)是一個(gè)新聞
time-event短語(yǔ):Event類(lèi)別的重要特征
評(píng)論性詞語(yǔ):Opinion類(lèi)重要特征
詞語(yǔ)的強(qiáng)調(diào)(大寫(xiě)或字母重要,如veeery):同上
currency和percentage標(biāo)志:如¥$%,這些都是Deal類(lèi)別的重要特征
@usrname:這是PM的重要特征,當(dāng)然也有可能是Event類(lèi)中的一個(gè)特征(participants)。
實(shí)驗(yàn)表明8F比BOW在精度上均為大幅提高。
使用工具:
weka
論文:
Bharath Sriram, Dave Fuhry, Engin Demir, Hakan Ferhatosmanoglu, Murat Demirbas:Short Text Classification in Twitter to Improve Information Filtering. Proceeding of the 33rd international ACM SIGIR conference on Research and development in information retrieval, Jul. 2010
論文鏈接:
SIGIR2010_Short_Text_Classification_in_Twitter_to_Improve_Information_Filtering.pdf