国产综合欧美,国产一区二区免费在线观看,欧美激情亚洲激情

1.馬爾可夫
2.GBDT，隨機森林
3.SVD，LDA等理論
4.上述理論的工具使用
5.網絡可視化工具的調研

暫時就想到這些，到時候再補充~

posted @ 2012-02-29 10:16 Seraphi 閱讀(244) | 評論 (0) | 編輯收藏

Apriori算法乃是關聯規則挖掘的經典算法，盡管是94年提出的算法，然而至今也有著旺盛的生命力。在互聯網科學領域，也有著廣泛的應用，因此還是值得大家都對此學習一下。

一、術語
1.支持度：support，所有實例中覆蓋某一項集的實例數。
2.置信度：confidence。對于X→Y這個規則，如果數據庫的包含X的實例數的c%也包含Y，則X→Y的置信度為c%。
3.頻繁項集：也稱large itemsets，指支持度大于minsup（最小支持度）的項集

二、思想
1.Apriori算法思想與其它關聯規則挖掘算法在某些方面是相同的。即首先找出所有的頻繁項集，然后從頻繁項集中抽取出規則，再從規則中將置信度小于最小置信度的規則剃除掉。

2.若項集i為頻繁項集，則其所有子集必為頻繁項集。因此，Apriori算法思想在于從頻繁的k-1項集中合并出k項集，然后剃除掉子集有不是頻繁項集的k項集。

3.先從數據庫中讀出每條實例，對于設定閾值，選出頻繁1項集，然后從頻繁1項集中合并，并剃除掉包含非頻繁1項集子集的2項集……

4.符號說明：
L_k:Set of large(frequent) k-itemsets
C_k:Set of candidate k-itemsets
apriori-gen()函數通過合并k-1的頻繁項集，生成C_k三、算法描述
1) Apriori基本算法

L1={large 1-itemsets};
2

for(k=2;_Lk_-1!=Φ;k++)
3

{
4

Ck=apriori-gen(L_k_-1);
5

for(all transaction t∈D)
6

{
7

C_t=subset(C_k,t);
8

for(all candidates c∈C_t)
9

c.count++;
10

}
11

Lk={c∈C_k|c.count>=minsup}
12

}
13

Answer=∪_kL_k;

2)apriori-gen()函數
這個函數將L_k-1（即所有k-1頻繁項集的集合）作為參數，返回一個L_k的超集（即C_k）
算法如下：

insert into C_k2

select p.item₁, p.item₂,

,p.item_k_-1,q.item_k_-1
3

from L_k_-1 p, L_k_-1 q
4

where p.item₁=q.item₁, p.item₂=q.item₂,

, p.item_k_-1<q.item_k_-1

然后通過剪枝，剃除掉C_k中某些子集不為頻繁k-1項集的項集，算法如下：

for(all items c∈C_k)

{
3

for(all k-1 itemsets s of c)
4

{
5

if(s∉L_k_-1)

delete c from C_k;
7

}
8

}

3)從頻繁項集中生成規則

for(all l∈Answer)

{
3

A=set of nonempty-subset(l);
4

for(all a∈A)
5

{
6

output a→(l-a);
7

}
8

}

四、舉例（這里將minsup=1，mincof=0.5）
L3={{1 2 3}{1 2 4}{1 3 4}{1 3 5}{2 3 4}}
在合并步驟時，選取L3中，前兩個項都相同，第三個項不同的項集合并，如{1 2 3}與{1 2 4}合并、{1 3 4}與{1 3 5}合并成{1 2 3 4}和{1 3 4 5}。因此，C4={{1 2 3 4}{1 3 4 5}}，但是由于{1 3 4 5}中某子集{3 4 5}并未在L3中出現，因此，將{1 3 4 5}剃除掉，所以L4={{1 2 3 4}}。
然后以L4為例，選取出關聯的規則：
L4中{1 2 3 4}項集中抽取出（這里只列出左邊為3項的情況）：
{1 2 3}→4
{1 2 4}→3
{1 3 4}→2
{2 3 4}→1
顯然，因為只有一個4項集，因此，這四條規則的置信度都為100%。因此，全數為關聯規則。

五、Apriori變體
有些Apriori變體為追求時間效率，不是從L₁→C₂→L₂→C₃→....的步驟產生，而是從L₁→C₂→C₃'..產生。

參考文獻：
Agrawal, Rakesh, Srikant, Ramakrishnan. Fast algorithms for mining association rules in large databases. Very Large Data Bases, International Conference Proceedings, p 487, 1994

posted @ 2012-02-27 13:08 Seraphi 閱讀(782) | 評論 (0) | 編輯收藏

論文：SIGIR2011-Associative Tag Recommendation Exploiting Multiple Textual Features閱讀筆記

大致內容：
本文要解決的主要問題是社交網絡中的標簽推薦（本文主要為音樂、視頻等多媒體對象推薦合適的標簽）。較之以前的推薦策略——a.根據已有標簽進行詞語共現的推薦; b.根據文本特征（如標題、描述）來推薦; c.利用標簽相關性度量來推薦。大部分僅僅至多使用了上述的兩種策略，然而本文將3種特征全部結合，并提出一些啟發式的度量和兩種排序學習（L2R）的方法，使得標簽推薦的效果（p@5)有了顯著的提高。

問題陳述：
作者將數據集分為三類：train, validation, test。對于訓練集D，包含<L_d,F_d>。L_d指對象d的所有標簽集；F_d指d的文本特征集（即L_d=L¹_d∪L²_d∪L³_d...Lⁿ_d，F_d=F¹_d∪ F²_d∪ F³_d....Fⁿ_d）。對于驗證集和測試集，由三部分組成<L_o,F_o,y_o>。L_o為已知標簽，y_o為答案標簽，實驗中作者將一部分標簽劃分L_o，一部分為y_o，這樣做可以方便系統自動評價推薦性能。

Metrics說明：
（1）Tag Co-occurrence：基于共現方法的標簽推薦主要是利用了關聯規則（association rules），如X→y，X為前導標簽集，y為根據X（經過統計）得到的標簽。還要提到兩個參數：support(σ),意為X,y在訓練集中共現的次數，confidence（θ）=p(y與object o相關聯|X與object o相關聯)。由于從訓練集中得到的規則很多，因此要設定σ 、θ 的最小閾值，只選取最為頻繁發生、最可靠的共現信息。
Sum(c,o,l)=Σ_X_⊆L_₀θ(X→c)，（X→c）∈R， |X|≤l

（2）Discriminative Power: 指區分度，對于一個頻繁出現的標簽特征，區分度會很低。作者提出一個IFF度量（類似于IR中的IDF），定義如下：
IFF（c）=log[(|D|+1)/（f_c^tag+1）]
其中f_c^tag為訓練集D中，以c作為標簽者的對象數。
盡管這個度量可能偏重于一些并未在訓練集中出現作為標簽的詞語，然而在排序函數中，它的權重會被合理安排。
另外，過于頻繁的標簽和過于稀少的標簽都不會是合理的推薦，而那些頻率中等的term則最受青睞。有一種Stability(Stab)度量傾向于頻率適中的詞語：
Stab(c,k_s)=k_s/[k_s+|k_s-log(f_c^tag)|] ，其中k_s表示term的理想頻率，要根據數據集來調整。

（3）Descriptive Power
指對于一個侯選c的描述能力，主要有如下4種度量：
①TF： TF(c,o)=Σ_{F_oⁱ∈F_o}tf(c,F_oⁱ)
②TS： TS(c,o)=Σ_{F_oⁱ∈F_o}j,  where j=1 (if c∈F_oⁱ ), otherwise j=0
③wTS：wTS(c,o)=Σ_{F_oⁱ∈F_o}j,  where j=AFS（F_i） (if c∈F_oⁱ ), otherwise j=0
④wTF：wTS(c,o)=Σ_{F_oⁱ∈F_o}tf(c,F_oⁱ),  where j=AFS（F_i） (if c∈F_oⁱ ), otherwise j=0
這里要引入兩個概念：
FIS：Feature Instance spread. FIS(F_oⁱ) 為F_oⁱ中所有的term的平無數TS值。
AFS：Average Feature Spread：AFS（Fⁱ）為訓練集中所有對象的平均FIS(F_oⁱ)，即
AFS（Fⁱ）=Σ_{_{o_j}}_∈_{_D}FIS(F_{o_j}ⁱ)/|D|

（4）詞項預測度
Heymann et al.[11]通過詞項的熵來度量這個特征。
詞項c在標簽特征的熵值H^tags(c)=-Σ_(c→_i₎∈_R θ(c→i)logθ(c→i) ，其中R為訓練集中的規則集。

標簽推薦策略：
（1）幾個先進的baseline：
① Sum^+：擴展了Sum度量，通過相應關聯規則的前導和后繼中的詞項的Stablity為Confidence賦予權重。給定一個對象o的侯選標簽c，Sum⁺定義如下：
Sum⁺(c,o,k_x,k_c,k_r)=Σx∈L₀θ(x→c)*Stab(x,k_x)*Stab(c,k_c)*Rank(c,o,k_r)
其中：k_x,k_c,k_r為調節參數，Rank(c,o,k_r)=k_r/[k_r+p(c,o), p(c,o)為c在這個關聯規則中confidence排名的位置，這個值可以使Confidence值更為平滑地衰減。Sum⁺限制了前導中的標簽數為1。
② LATRE（Lazy Associative Tag Recommendation）：與Sum⁺不同，LATRE可以在立即請求的方式快速生成更大的關聯規則，這與其它策略不同（因為它們都是事先在訓練集中計算好所有的規則），但也可能包含一些在測試集中并不是很有用的規則。 LATRE排序每個侯選c，通過相加所有包含c的規則的confidence值。
③ CTTR（Co-occurrence and Text based Tag Recommender）：利用了從文本域特征中抽取出的詞項和一個相關性度量，但所有考慮事先已經賦給對象o的標簽。作者對比CTTR與作者的方法，評價了作者自創幾個度量和應用事先預有標簽的有效性，篇幅有限，不再對此詳述。

（2） New Heuristics
8種，作者擴展了Sum⁺和LATRE baseline加入了描述性度量（TS,TF,wTS,wTF），共合成了8種方案。
Sum⁺DP(c,o,k_x,k_c,k_r,α)=αSum⁺(c,o,k_x,k_c,k_r)+(1-α)DP(c,o)
LATRE⁺DP(c,o,l,α)=αSum(c,o,l)+(1-α)DP(c,o)

（3）排序學習策略：
對一個Metric矩陣（對于侯選c）M_c∈R^m，m是考慮的metric數，即矩陣的維數。然后驗證集V的對象v賦一個Y_c，若c為v的合理推薦，Y_c=1，否則Y_c=0。因為訓練集用來抽取關聯規則和計算metrics，驗證集用來學習solutions，因此只對驗證集賦Y_c。學習模型，即排序函數f(M_c)將被用于測試集：
① RankSVM：作者使用SVM-rank tool學習一個函數f(M_c)=f(W,M_c)，其中W=<w₁,w₂,....,w_m>是一個對metrics賦權值的向量。其中，RankSVM有兩個參數，kernel function和cost j。

② 遺傳算法：
這里將個體（即標簽排序函數）看成一個樹表示，葉子結點為變量或常數。樹內結點為基本運算符（+,-,*,/,ln）。若域超出運算范圍，結果默認為0。例如，一個樹表示函數：Sum+0.7*TS，如下圖：

個體的健壯度（Fitness）表示相應排序函數的推薦質量，本文以P@k為衡量標準給定f(M_c)，y_o是o的相關標簽，R_o^f是通過f(M_c)排序后的o的推薦結果，R_k,o^f的R_o^f中前k個結果，推薦質量定義如下：
P@k(R_o^f,y_o,f)=|R_k,o^f∩y_o|/min(k,|y_o|)

實驗評價：
（1）數據收集：LastFM, Youtube, YahooVideo。然后去停用詞，詞干化處理（Poster Stemmer）
（2）評價方法：
a.將object預先的一些標簽一部分作為已經，一部分作為答案，方便評價，某些生成的答案，并不能在答案集中，但并不意味不相關，因此可作為lower bound。
b.在實際實驗中，作者將驗證集和測試集的對象標簽平均分為L_o,y_o,使用title和description作為文本特征F_o。
c.在評價指標上，主要使用P@5，并用了Recall和MAP值
d.以兩種方案來對各種推薦方法評價：
① 把每個數據集分為3份，對應小規模，中規模，大規模，以便針對每種情況，調整參數，評價不同規模下各方法的效果
② 利用整個數據集，統一的評價

這兩種方案，①更加有針對性，②則代價較低
對于第一個方案，作者隨機從每個子集（大、中、小規模）中選取50000個樣本，對于第二種方案，作者使用第一個方案選取出的3個樣本集組合的樣本。這兩種方案都把每個樣本集分為5份來做5折交叉驗證。3/5做訓練，1/5做驗證，1/5做測試。之所以在驗證集上做L2R是為了避免過擬合。

（3）參數設定
① Sum⁺DP中，k_r=k_x=k_c=5, α=[0.7,1.0]
② LATRE⁺DP和L2R中，l=3, k_s=5。在確定σ_min和θ_min時，將值設定為與σ_min和θ_min=0相比，結果下降小于3%的值
③ RankSVM中，選定線性核，cost j=100
④ 歸一化特征向量結果不明顯，因此本文并沒有采取特征向量歸一化。

（4）實驗結果：
a. LastFM上提升較小，原因有二：① 有LastFM上標簽、標題、描述內容重疊少，使TS，wTS集中在小值上，使得難以區別good,bad；② LastFM上對象標簽較少，使TS,wTS難以發揮較好作用。
b. LATRE在大部分情況，好于Sum⁺，而CTTR在一些情況好于LATRE。尤其是在Youtube。
c. 對比每個方案和數據集，作者的heuristics都有較大提升，因此引入描述性度量(descriptive power)會顯著提高推薦效果，尤其是標簽數較少的情況（因為共現效果差）
d. 比較Sum+, LATRE, CTTR。作者的8種啟發式護展都有不小的提升（LastFM最小），證實了利用預先已知標簽和描述度量的作用。
e. 新啟發思想中，LATRE+wTS在大多數情況最好。在DP確定下，LATRE通常好于Sum+；DP變時，wTS最好，其實是wTF,TS。
f. L2R中，兩種方法都有提升，但提升幅度有限，觀察發現，GP和SVMRank主要利用的還是LATRE+wTS的metrics，GP中最常用的是Sum(c,o,3)，然后是wTS，再是IFF，其它少于這些函數的25%。RankSVM中，最高權重主要還是集中于Sum,wTS。
g.盡管L2R效果提升不明顯，但框架靈活，易于擴展（加入新度量和tag recommender問題，如個性化）
h.對于SVMRank和GP的比較，效果好壞主要取決于數據集。

論文：
Fabiano Belem, Eder Martins, Tatiana Pontes, Jussara Almeida, Marcos Goncalves. Associative Tag Recommendation Exploiting Multiple Textual Features. Proceedings of the 34th international ACM SIGIR conference on Research and development in Information, Jul. 2011.

論文鏈接：
SIGIR2011_Associative_Tag_Recommendation_Exploiting_Multiple_Textual_Features.pdf

posted @ 2012-02-24 13:05 Seraphi 閱讀(694) | 評論 (0) | 編輯收藏

論文：SIGKDD2011-Democrats, Republicans and Starbucks Afficionados: User Classification in Twitter

大致內容：
本文在political affilication(民主黨，共和黨), ethnicity identification(African Americans)和affinity for a particular business(星巴克)三個任務上，對user進行二元分類

相關參考資源：
Bing Social
Klout
Twitter's "Who to Follow"
Google's "Follow Finder"
用戶的profile可被用來自動匹配相似用戶，也可以通過profile顯式表達去推薦
GBDT（Gradient Boosted Decision Tree）
avatar 頭像

本文思想及實現：
對用戶分類，用到兩類信息：
（1）user-centric information（言語表達，tweet內容，行為，喜好）
（2）social graph information
整個系統架構由兩部分組成：（1）ML(machine learning) component，用來通過user-centric information對用戶分類；（2）a graph-based updating component，包含了social graph信息，通過該用戶的社會網絡分布對分類信息做出更新

ML部分：使用GBDT Framework作為分類算法，GBDT可解決過擬合問題，且有smaller resulting models and faster decoing time的特點[7]。
（1）profile:選取基本profile信息：a.用戶名長度；b.用戶名中字母數字個數；c.用戶名中不同的大小寫形式；d.頭像使用；e.粉絲數；f.關注者；g.粉絲/關注比例；h.創建帳戶日期；i.bio；j.location。其中bio使用正則表達式進行匹配抽取信息
（2）Tweeting bahavior：判斷information source/seeker:a.tweet數;b.retweet數/比例;c.reply數/比例;d.平均hashtag數;e.URLs per tweets;f.fraction of tweets touneated;g.tweets時間間隔，標準差;h.一天的平均tweet數和標準差
（3）Linguistic Content Feature：使用LDA，從BOW中抽取
a.proto-word(typical lexical expression in a specific class)：本文通過概率模型抽取pro-word
b.proto-hashtag:與proto-word類似
c.Generic LDA:假設a user can be represented as a multinomial distribution over topics
d.Domain-specific LDA:GLDA得到粗粒度topic，DLDA細粒度
e.sentiment words:對于某term建立窗口，對其周圍n個詞語進行考查，判斷用戶傾向。
（4）社會網絡特征：
a.Friend Accounts
b.Users whom to the target user replyed and retweeted

基于圖的標簽更新：
這個步驟基于社會關系網絡用來對機器學習所給出錯誤標注做以糾正。在這個實驗中，作者僅僅選取了friend accouts一項，因為它最能表示target user的興趣和傾向。實驗在target user的所有friends都運行了ML算法，將其所有朋友帳號都賦予了一個標簽，然后用朋友帳號的標簽來對target user的標簽做出評判及更正。
final_score(ui)=α*ML+(1-α)*label updating

實驗分析：
作者分別將α設為0，1和0.5進行實驗。最后實驗表明，ML本身就可以取得較高的結果，而標簽更新算法本身則效果不佳。對于political affinity，標簽更新作用較大，對整體結果有著較好(比起其它兩個task)但仍然是很微小的提升。Starbuck標簽更新算法也有用，則非常小。而對于Ethnicity來說，標簽更新算法還不如沒有，反而起到了負作用。作者分析原因，在于social connection對于政治有著較大的幫助，而對于種族和商品這種個性化的東西，作用不是很大。
在實驗中，作者使用了兩個base line:
B2：在ML階段只使用了profile和tweeting bahavior兩項特征（這兩項特征容易取得）
B1在不同實驗中，有著不同含義：
a.政治傾向上：B1把在bio field中提到的對民主/共和黨的傾向作為分類依據，進行分類
b.種族上：B1根據用戶的頭像來對其進行種族分類。
c.星巴克：B1把所有在bio field提到星巴克的用戶分類為星巴克粉絲。

結果表明：B2總體性能不如本文所提到的系統，說明lingistic特征和社會網絡特征對于結果有著巨大的積極影響。而B1有著極高的準確率，但召回率太低，也沒有太大的實用價值。

工具：
Opinion Finder[25]

論文：
Marco Pennacchiotti, Ana-Maria Popescu:Democrats, Republicans and Starbucks Afficionados: User Classification in Twitter.Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining, Aug. 2011

論文鏈接：
KDD2011_Democrats_republicans_and_starbucks_afficionados_user_classification_in_twitter.pdf

posted @ 2012-02-18 13:23 Seraphi 閱讀(689) | 評論 (0) | 編輯收藏

論文：SIGIR2011-Short Text Classification in Twitter to Improve Information Filtering

大致內容：
這篇論文的任務是對twitter上的短文本進行分類，分到預先定義的5個類別中：news,event,opinions,deal,PM(private message)。該論文摒棄傳統的BOW特征模型而別出心裁地選取了8個特征（8F）：
1個是名詞性特性：用戶。這個特征是8F特征中最為主要的特征，因為它反映了信息源的主要類別特征。如，企業的用戶和個人用戶通常有著不同的用戶行為，這個特征可以限定該用戶tweet的分類范圍。
另外7個是binary feature（存在特征）:
俚語與詞語縮寫的使用：俚語和詞語縮寫通常不會是一個新聞
time-event短語：Event類別的重要特征
評論性詞語：Opinion類重要特征
詞語的強調（大寫或字母重要，如veeery）：同上
currency和percentage標志：如￥$%，這些都是Deal類別的重要特征
@usrname：這是PM的重要特征，當然也有可能是Event類中的一個特征（participants）。
實驗表明8F比BOW在精度上均為大幅提高。

使用工具：
weka

論文：
Bharath Sriram, Dave Fuhry, Engin Demir, Hakan Ferhatosmanoglu, Murat Demirbas:Short Text Classification in Twitter to Improve Information Filtering. Proceeding of the 33rd international ACM SIGIR conference on Research and development in information retrieval, Jul. 2010

論文鏈接：
SIGIR2010_Short_Text_Classification_in_Twitter_to_Improve_Information_Filtering.pdf

posted @ 2012-02-18 12:32 Seraphi 閱讀(1294) | 評論 (0) | 編輯收藏

論文：RecSys2011-Recommender Systems at the Long Tail(Session: Keynote Talks)

術語：
content-based, neighborhood-based, collaborative filtering, substitutes(相等價的商品，如可口可樂與百事可樂), complements(附加的、補充的商品，如ipod和ipod faceplate), listing fee上市費, flippers(who buy a low price and resell at a higher price)

大致內容：
這篇論文的作者是e-bay的高級技術人員，主要從scale, product dimension, buy dimension, seller dimension, buyer seller handshake這幾個方面和5Ws(what, where, when, why, who)和1H(how)來說明E-Bay推薦的關鍵問題和難點。
同樣的商品，可能有多種情況（有無盒，有無標簽，有多新/舊）。而對于買家，也分為casual shopper, impulsive shopper, value-driven shopper, collector filppers

what:對于用戶不同的瀏覽情況，給予不同的推薦。例如：用戶U1和U2都瀏覽了某個item-i1。用戶U1反復瀏覽多次i1，并將其加入購物車。用戶U2則看了一眼就再也沒有訪問i1的頁面。對于這兩位用戶，推薦系統所做出的推薦不能是相同的。
where:在用戶瀏覽的不同網頁/階段（search,bid,check-out,post-transaction）所做的推薦不同。
when:用戶在購買商品后，經過不同的時間，給予不同的推薦(例如：對于一個剛買相機一天的用戶，推薦系統應該推薦其附件（包），對于一個買了相機30多天的用戶來說，推薦系統更應為其推薦一些關于相機保養的商品)
why:推薦系統給出推薦原因，如60%的用戶買了這個商品也買了那件
who:不同的用戶類型給予不同的推薦。對于老手，推薦并非有太大功效，而對于新用戶，則作用最大。
how:推薦時會有大規模，超稀疏的user-item矩陣，用SVD進行降維分解。另一種方案是聚類，可用K-means和層次聚類的方法。

論文：
Neel Sundaresan：Recommender Systems at the Long Tail. Proceedings of the fifth ACM conference on Recommender systems, Oct. 2011
論文鏈接：
Recsys2011_Recommender_System_at_the_Long_Tail.pdf

posted @ 2012-02-18 11:49 Seraphi 閱讀(560) | 評論 (0) | 編輯收藏

論文：RecSys2010-Recommending Twitter Users to Follow Using Content and Collaborative Filtering Approaches

術語：
followee/friend 用戶關注的對象（即新浪微博中的“關注”）
follower 關注用戶的對象（即微博中的“粉絲”）
collaborative filtering 協同過濾

大致內容：
本文作者及其團隊對twitter用戶推薦做了深入研究，并制作了一個在線的twitter用戶推薦的應用。并以profile推薦和search推薦兩種方式呈現給用戶。
profile推薦即用戶不需要自己輸入查詢，該應用將根據用戶的profile自動生成查詢，來查找相關用戶。
search推薦即用戶自行輸入查詢，來尋找自己感興趣的用戶。
本文列舉了9種生成用戶profile的策略：
S1：由用戶U本身的tweets
S2：由用戶U的followees的tweets產生
S3：由用戶U的followers的tweets產生
S4：由S1，S2，S3的并集產生
S5：由用戶U的followee ID產生
S6：由用戶U的follower ID產生
S7：由S5，S6并集產生
S8：結合S1-S7，得分函數依賴于S1和S6
S9：結果S1-S7，得分函數基于推薦列表中用戶位置。

※以上方法中，S1-S4為content based，S5-S7是collaborative filtering。

然后用lucene對這9種策略分別建立索引，進行實驗。其中，基于內容的策略中，采用tf-idf權值。

評價指標：
1、①Precision：即推薦列表與已有followee重復的百分比，S5-S7（Collaborative filtering)好于S1-S4（content based），S3高于S2，Precision隨Recommendation List Size增大而降低
②Position：相關用戶的位置因素亦很重要，在此，基于內容方法略好于協同過濾。

2、以上兩個指標均為脫機（offline）評價指標，實際上即便是followee中沒有存在的那些出現在Recommendation List中的用戶，也并非不相關，有很多為potential followees。因此，本文還做了一個live-user trial，選取了34位參與者參加實驗，結果30個推薦列表中，平均采取6.9人，且位置主要集中在推薦列表的top10。另外，search中（31名參與）結果并不如profile，平均4.9人采納。作者分析了這個原因，在于search中用戶所提供信息遠小于profile中的信息，因此效果不如profile推薦。

論文：
John Hannon, Mike Bennett, Barry Smyth:Recommending Twitter Users to Follow Using Content and Collaborative Filtering Approaches. Proceedings of the fourth ACM conference on Recommender systems, Sep. 2010
論文鏈接：
2010_RECSYS_RecommendingTwitterUsers.pdf

posted @ 2012-02-18 11:28 Seraphi 閱讀(678) | 評論 (0) | 編輯收藏

論文:jictee2010-Twitter Accounts Recommendation based on followers and lists

大致內容：
對twitter構成及使用進行了簡要的說明，并通過實驗證明，在某一領域中，根據粉絲數推薦的列表最受歡迎。另外，比起無領域知識和twitter經驗的用戶，具有領域知識和熟練使用twitter的用戶會傾向于相關領域list數量。

實驗方法：
用twitter API爬取twitter，對用戶分析（粉絲數、list數、相關list數），做在線survey來分析結果。

論文：
Wit Krutkam, Kanda Runapongsa Saikeaw, Arnut Chaosakul: Twitter Accounts Recommendation Based on Followers and Lists

論文鏈接：
jictee2010_Twitter_Accounts_Recommendation_based_on_followers_and_lists.pdf

posted @ 2012-02-18 11:04 Seraphi 閱讀(143) | 評論 (0) | 編輯收藏

僅列出標題

常用鏈接

留言簿

隨筆檔案

搜索

最新評論

閱讀排行榜

評論排行榜