posts - 30,  comments - 3,  trackbacks - 0
          <2012年2月>
          2930311234
          567891011
          12131415161718
          19202122232425
          26272829123
          45678910

          常用鏈接

          留言簿

          隨筆檔案

          搜索

          •  

          最新評論

          閱讀排行榜

          評論排行榜

          大致內容:
          這篇論文的任務是對twitter上的短文本進行分類,分到預先定義的5個類別中:news,event,opinions,deal,PM(private message)。該論文摒棄傳統的BOW特征模型而別出心裁地選取了8個特征(8F):
          1個是名詞性特性:用戶。這個特征是8F特征中最為主要的特征,因為它反映了信息源的主要類別特征。如,企業的用戶和個人用戶通常有著不同的用戶行為,這個特征可以限定該用戶tweet的分類范圍。
          另外7個是binary feature(存在特征):
          俚語與詞語縮寫的使用:俚語和詞語縮寫通常不會是一個新聞
          time-event短語:Event類別的重要特征
          評論性詞語:Opinion類重要特征
          詞語的強調(大寫或字母重要,如veeery):同上
          currency和percentage標志:如¥$%,這些都是Deal類別的重要特征
          @usrname:這是PM的重要特征,當然也有可能是Event類中的一個特征(participants)。
          實驗表明8F比BOW在精度上均為大幅提高。

          使用工具:
          weka

          論文:
          Bharath Sriram, Dave Fuhry, Engin Demir, Hakan Ferhatosmanoglu, Murat Demirbas:Short Text Classification in Twitter to Improve Information Filtering. Proceeding of the 33rd international ACM SIGIR conference on Research and development in information retrieval, Jul. 2010

          論文鏈接:
          SIGIR2010_Short_Text_Classification_in_Twitter_to_Improve_Information_Filtering.pdf
          posted on 2012-02-18 12:32 Seraphi 閱讀(1294) 評論(0)  編輯  收藏

          只有注冊用戶登錄后才能發表評論。


          網站導航:
           
          主站蜘蛛池模板: 蒙阴县| 舒城县| 河间市| 化德县| 永定县| 宜兴市| 屏南县| 临漳县| 晋州市| 武川县| 牟定县| 类乌齐县| 宁国市| 定陶县| 仁寿县| 平湖市| 拜泉县| 临海市| 淳化县| 固始县| 郓城县| 莱州市| 北宁市| 金乡县| 陆丰市| 准格尔旗| 卢龙县| 剑河县| 微山县| 澳门| 中宁县| 保定市| 高碑店市| 固原市| 宝山区| 科技| 安新县| 衡山县| 府谷县| 井陉县| 齐河县|