大致內(nèi)容:
本文在political affilication(民主黨,共和黨), ethnicity identification(African Americans)和affinity for a particular business(星巴克)三個任務(wù)上,對user進行二元分類
相關(guān)參考資源:
Bing Social
Klout
Twitter's "Who to Follow"
Google's "Follow Finder"
用戶的profile可被用來自動匹配相似用戶,也可以通過profile顯式表達去推薦
GBDT(Gradient Boosted Decision Tree)
avatar 頭像
本文思想及實現(xiàn):
對用戶分類,用到兩類信息:
(1)user-centric information(言語表達,tweet內(nèi)容,行為,喜好)
(2)social graph information
整個系統(tǒng)架構(gòu)由兩部分組成:(1)ML(machine learning) component,用來通過user-centric information對用戶分類;(2)a graph-based updating component,包含了social graph信息,通過該用戶的社會網(wǎng)絡(luò)分布對分類信息做出更新
ML部分:使用GBDT Framework作為分類算法,GBDT可解決過擬合問題,且有smaller resulting models and faster decoing time的特點[7]。
(1)profile:選取基本profile信息:a.用戶名長度;b.用戶名中字母數(shù)字個數(shù);c.用戶名中不同的大小寫形式;d.頭像使用;e.粉絲數(shù);f.關(guān)注者;g.粉絲/關(guān)注比例;h.創(chuàng)建帳戶日期;i.bio;j.location。其中bio使用正則表達式進行匹配抽取信息
(2)Tweeting bahavior:判斷information source/seeker:a.tweet數(shù);b.retweet數(shù)/比例;c.reply數(shù)/比例;d.平均hashtag數(shù);e.URLs per tweets;f.fraction of tweets touneated;g.tweets時間間隔,標(biāo)準(zhǔn)差;h.一天的平均tweet數(shù)和標(biāo)準(zhǔn)差
(3)Linguistic Content Feature:使用LDA,從BOW中抽取
a.proto-word(typical lexical expression in a specific class):本文通過概率模型抽取pro-word
b.proto-hashtag:與proto-word類似
c.Generic LDA:假設(shè)a user can be represented as a multinomial distribution over topics
d.Domain-specific LDA:GLDA得到粗粒度topic,DLDA細粒度
e.sentiment words:對于某term建立窗口,對其周圍n個詞語進行考查,判斷用戶傾向。
(4)社會網(wǎng)絡(luò)特征:
a.Friend Accounts
b.Users whom to the target user replyed and retweeted
基于圖的標(biāo)簽更新:
這個步驟基于社會關(guān)系網(wǎng)絡(luò)用來對機器學(xué)習(xí)所給出錯誤標(biāo)注做以糾正。在這個實驗中,作者僅僅選取了friend accouts一項,因為它最能表示target user的興趣和傾向。實驗在target user的所有friends都運行了ML算法,將其所有朋友帳號都賦予了一個標(biāo)簽,然后用朋友帳號的標(biāo)簽來對target user的標(biāo)簽做出評判及更正。
final_score(ui)=α*ML+(1-α)*label updating
實驗分析:
作者分別將α設(shè)為0,1和0.5進行實驗。最后實驗表明,ML本身就可以取得較高的結(jié)果,而標(biāo)簽更新算法本身則效果不佳。對于political affinity,標(biāo)簽更新作用較大,對整體結(jié)果有著較好(比起其它兩個task)但仍然是很微小的提升。Starbuck標(biāo)簽更新算法也有用,則非常小。而對于Ethnicity來說,標(biāo)簽更新算法還不如沒有,反而起到了負作用。作者分析原因,在于social connection對于政治有著較大的幫助,而對于種族和商品這種個性化的東西,作用不是很大。
在實驗中,作者使用了兩個base line:
B2:在ML階段只使用了profile和tweeting bahavior兩項特征(這兩項特征容易取得)
B1在不同實驗中,有著不同含義:
a.政治傾向上:B1把在bio field中提到的對民主/共和黨的傾向作為分類依據(jù),進行分類
b.種族上:B1根據(jù)用戶的頭像來對其進行種族分類。
c.星巴克:B1把所有在bio field提到星巴克的用戶分類為星巴克粉絲。
結(jié)果表明:B2總體性能不如本文所提到的系統(tǒng),說明lingistic特征和社會網(wǎng)絡(luò)特征對于結(jié)果有著巨大的積極影響。而B1有著極高的準(zhǔn)確率,但召回率太低,也沒有太大的實用價值。
工具:
Opinion Finder[25]
論文:
Marco Pennacchiotti, Ana-Maria Popescu:Democrats, Republicans and Starbucks Afficionados: User Classification in Twitter.Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining, Aug. 2011
論文鏈接:
KDD2011_Democrats_republicans_and_starbucks_afficionados_user_classification_in_twitter.pdf
本文在political affilication(民主黨,共和黨), ethnicity identification(African Americans)和affinity for a particular business(星巴克)三個任務(wù)上,對user進行二元分類
相關(guān)參考資源:
Bing Social
Klout
Twitter's "Who to Follow"
Google's "Follow Finder"
用戶的profile可被用來自動匹配相似用戶,也可以通過profile顯式表達去推薦
GBDT(Gradient Boosted Decision Tree)
avatar 頭像
本文思想及實現(xiàn):
對用戶分類,用到兩類信息:
(1)user-centric information(言語表達,tweet內(nèi)容,行為,喜好)
(2)social graph information
整個系統(tǒng)架構(gòu)由兩部分組成:(1)ML(machine learning) component,用來通過user-centric information對用戶分類;(2)a graph-based updating component,包含了social graph信息,通過該用戶的社會網(wǎng)絡(luò)分布對分類信息做出更新
ML部分:使用GBDT Framework作為分類算法,GBDT可解決過擬合問題,且有smaller resulting models and faster decoing time的特點[7]。
(1)profile:選取基本profile信息:a.用戶名長度;b.用戶名中字母數(shù)字個數(shù);c.用戶名中不同的大小寫形式;d.頭像使用;e.粉絲數(shù);f.關(guān)注者;g.粉絲/關(guān)注比例;h.創(chuàng)建帳戶日期;i.bio;j.location。其中bio使用正則表達式進行匹配抽取信息
(2)Tweeting bahavior:判斷information source/seeker:a.tweet數(shù);b.retweet數(shù)/比例;c.reply數(shù)/比例;d.平均hashtag數(shù);e.URLs per tweets;f.fraction of tweets touneated;g.tweets時間間隔,標(biāo)準(zhǔn)差;h.一天的平均tweet數(shù)和標(biāo)準(zhǔn)差
(3)Linguistic Content Feature:使用LDA,從BOW中抽取
a.proto-word(typical lexical expression in a specific class):本文通過概率模型抽取pro-word
b.proto-hashtag:與proto-word類似
c.Generic LDA:假設(shè)a user can be represented as a multinomial distribution over topics
d.Domain-specific LDA:GLDA得到粗粒度topic,DLDA細粒度
e.sentiment words:對于某term建立窗口,對其周圍n個詞語進行考查,判斷用戶傾向。
(4)社會網(wǎng)絡(luò)特征:
a.Friend Accounts
b.Users whom to the target user replyed and retweeted
基于圖的標(biāo)簽更新:
這個步驟基于社會關(guān)系網(wǎng)絡(luò)用來對機器學(xué)習(xí)所給出錯誤標(biāo)注做以糾正。在這個實驗中,作者僅僅選取了friend accouts一項,因為它最能表示target user的興趣和傾向。實驗在target user的所有friends都運行了ML算法,將其所有朋友帳號都賦予了一個標(biāo)簽,然后用朋友帳號的標(biāo)簽來對target user的標(biāo)簽做出評判及更正。
final_score(ui)=α*ML+(1-α)*label updating
實驗分析:
作者分別將α設(shè)為0,1和0.5進行實驗。最后實驗表明,ML本身就可以取得較高的結(jié)果,而標(biāo)簽更新算法本身則效果不佳。對于political affinity,標(biāo)簽更新作用較大,對整體結(jié)果有著較好(比起其它兩個task)但仍然是很微小的提升。Starbuck標(biāo)簽更新算法也有用,則非常小。而對于Ethnicity來說,標(biāo)簽更新算法還不如沒有,反而起到了負作用。作者分析原因,在于social connection對于政治有著較大的幫助,而對于種族和商品這種個性化的東西,作用不是很大。
在實驗中,作者使用了兩個base line:
B2:在ML階段只使用了profile和tweeting bahavior兩項特征(這兩項特征容易取得)
B1在不同實驗中,有著不同含義:
a.政治傾向上:B1把在bio field中提到的對民主/共和黨的傾向作為分類依據(jù),進行分類
b.種族上:B1根據(jù)用戶的頭像來對其進行種族分類。
c.星巴克:B1把所有在bio field提到星巴克的用戶分類為星巴克粉絲。
結(jié)果表明:B2總體性能不如本文所提到的系統(tǒng),說明lingistic特征和社會網(wǎng)絡(luò)特征對于結(jié)果有著巨大的積極影響。而B1有著極高的準(zhǔn)確率,但召回率太低,也沒有太大的實用價值。
工具:
Opinion Finder[25]
論文:
Marco Pennacchiotti, Ana-Maria Popescu:Democrats, Republicans and Starbucks Afficionados: User Classification in Twitter.Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining, Aug. 2011
論文鏈接:
KDD2011_Democrats_republicans_and_starbucks_afficionados_user_classification_in_twitter.pdf