posts - 30,  comments - 3,  trackbacks - 0
          大致內(nèi)容:
          這篇論文的任務(wù)是對(duì)twitter上的短文本進(jìn)行分類(lèi),分到預(yù)先定義的5個(gè)類(lèi)別中:news,event,opinions,deal,PM(private message)。該論文摒棄傳統(tǒng)的BOW特征模型而別出心裁地選取了8個(gè)特征(8F):
          1個(gè)是名詞性特性:用戶。這個(gè)特征是8F特征中最為主要的特征,因?yàn)樗从沉诵畔⒃吹闹饕?lèi)別特征。如,企業(yè)的用戶和個(gè)人用戶通常有著不同的用戶行為,這個(gè)特征可以限定該用戶tweet的分類(lèi)范圍。
          另外7個(gè)是binary feature(存在特征):
          俚語(yǔ)與詞語(yǔ)縮寫(xiě)的使用:俚語(yǔ)和詞語(yǔ)縮寫(xiě)通常不會(huì)是一個(gè)新聞
          time-event短語(yǔ):Event類(lèi)別的重要特征
          評(píng)論性詞語(yǔ):Opinion類(lèi)重要特征
          詞語(yǔ)的強(qiáng)調(diào)(大寫(xiě)或字母重要,如veeery):同上
          currency和percentage標(biāo)志:如¥$%,這些都是Deal類(lèi)別的重要特征
          @usrname:這是PM的重要特征,當(dāng)然也有可能是Event類(lèi)中的一個(gè)特征(participants)。
          實(shí)驗(yàn)表明8F比BOW在精度上均為大幅提高。

          使用工具:
          weka

          論文:
          Bharath Sriram, Dave Fuhry, Engin Demir, Hakan Ferhatosmanoglu, Murat Demirbas:Short Text Classification in Twitter to Improve Information Filtering. Proceeding of the 33rd international ACM SIGIR conference on Research and development in information retrieval, Jul. 2010

          論文鏈接:
          SIGIR2010_Short_Text_Classification_in_Twitter_to_Improve_Information_Filtering.pdf
          posted on 2012-02-18 12:32 Seraphi 閱讀(1294) 評(píng)論(0)  編輯  收藏

          只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。


          網(wǎng)站導(dǎo)航:
           
          主站蜘蛛池模板: 安国市| 隆化县| 大庆市| 新乐市| 大埔县| 德昌县| 靖宇县| 山丹县| 泽州县| 石棉县| 江达县| 淄博市| 云龙县| 方山县| 遂川县| 沁阳市| 视频| 桦南县| 黄石市| 咸丰县| 莎车县| 濉溪县| 海原县| 两当县| 新和县| 全南县| 栾川县| 西丰县| 晋中市| 鹿邑县| 景德镇市| 图片| 惠州市| 潞城市| 元江| 怀仁县| 都昌县| 庄河市| 荥经县| 达日县| 临安市|