首頁新隨筆新文章聯系聚合

posts - 495,comments - 227,trackbacks - 0

<

2014年12月

>

日

一

二

三

四

五

六

30

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

6

7

8

9

10

常用鏈接

留言簿(46)

隨筆分類(476)

隨筆檔案(495)

搜索

積分與排名

積分 - 1395441
排名 - 16

閱讀排行榜

評論排行榜

Mahout基于Hadoop平臺建立的推薦器說明

http://www.linuxidc.com/Linux/2012-07/65008.htm

推薦器實現類在：

org.apache.mahout.cf.taste.Hadoop.item.RecommenderJob。其輸入數據放在默認輸入目錄下，使用mapred.input.dir參數指定的輸入數據，是userID,itemID[,preferencevalue]值對形成的文本文件。可以有多個文件存放在該目錄下。

運行時相關參數如下：

numRecommendations：為每個用戶產生的推薦個數 "Number of recommendations per user"

usersFile：包含待推薦用戶的用戶ID列表；

itemsFile：包含待推薦項目的項目ID列表；

filterFile：用來做推薦過濾的訓練文件，內容為使用逗號分隔的userID,itemID對，

booleanData：不帶推薦值的訓練數據文件；

maxPrefsPerUser：Maximum number of preferences considered per user in final recommendation phase；

minPrefsPerUser：ignore users with less preferences than this in the similarity computation ； maxSimilaritiesPerItem：Maximum number of similarities considered per item；

maxurrencesPerItem：try to cap the number of urrences per item to this;

similarityClassname：Name of distributed similarity class to instantiate, alternatively use one of the predefined similarities，可用的相似度類有：

SIMILARITY_URRENCE(DistributedurrenceVectorSimilarity.class),

SIMILARITY_EUCLIDEAN_DISTANCE(DistributedEuclideanDistanceVectorSimilarity.class),

SIMILARITY_LOGLIKELIHOOD(DistributedLoglikelihoodVectorSimilarity.class),

SIMILARITY_PEARSON_CORRELATION(DistributedPearsonCorrelationVectorSimilarity.class),

SIMILARITY_TANIMOTO_COEFFICIENT(DistributedTanimotoCoefficientVectorSimilarity.class),

SIMILARITY_UNCENTERED_COSINE(DistributedUncenteredCosineVectorSimilarity.class),

SIMILARITY_UNCENTERED_ZERO_ASSUMING_COSINE(DistributedUncenteredZeroAssumingCosineVectorSimilarity.class),

SIMILARITY_CITY_BLOCK(DistributedCityBlockVectorSimilarity.class);

RecommendJob運行一系列MR任務，在開發時，可以根據自己的需要進行改寫。但是RecommendJob申明成final，這個比較頭疼。

1.itemIDIndex 任務：

map：解析輸入的itemsFile；將長整型的ID通過算法映射到整形的序號上，以便后續處理。由于處理中涉及到矩陣計算，每一個項目對應矩陣中的一個維度，所以必須處理成整形；產生序號-ID值對；

reducer：對序號-ID對進行驗證，產生序號-ID值對；

2.toUserVector任務：

ToItemPrefsMapper：從filterFile中讀取偏好信息，轉成用戶-偏好值對。

ToUserVectorReducer：將用戶-偏好*，轉成用戶-偏好矢量對，矢量表即為所有的ItemID。

3.countUsers 任務：計算用戶數量，輸出為用戶數量--空。

4.maybePruneAndTransponse，一個名稱很奇怪的任務。

MaybePruneRowsMapper:輸入為任務2的輸出，生成針對每個item項目的推薦值矩陣單元，即Item序號和矩陣單元的值對。

ToItemVectorsReducer：輸出為矩陣行號（即Item序號）-矩陣行矢量

5. RowSimilarityJob: 計算相似度矩陣：這是引用一個現有的任務來完成計算，輸入為任務4輸出的矩陣；輸出為相似度矩陣，即item-相似度矢量。其中相似度矢量是當前item和其他item的相似度值形成的矢量。

6. prePartialMultiply1：輸入為任務5的輸出，將相似度矩陣中的對角線行，即（N,N）數值設置為Double.NaN,為后續計算做準備；

7. prePartialMultiply2：輸入為任務2的輸出，將user-（項目矢量），拆分成item-(userId, 推薦值)對。如果設置了usersFile，則僅處理usersFile中指定的用戶。

8. partialMultiply: 合并任務6和7的額輸出，變成item-(相似度矢量、userId、推薦值) 對。

9. itemFiltering：如果有filterFile,則處理filterFile文件，轉換成item-(相似度矢量、userId、推薦值)對。其中相似度矢量的值為0；

aggregateAndRecommend：將8和9的輸出合并作為輸入，

PartialMultiplyMapper: 將item-(相似度矢量、userId、推薦值)集轉換成userId-(推薦值，相似度矢量)值對；

AggregateAndRecommendReducer：匯總map輸出，產生userId-（(itemId, 推薦值)列表）值對，其中(itemId, 推薦值)列表是按照推薦度來排序，如果maxPrefsPerUser、minPrefsPerUser、maxurrencesPerItem，則只產生符合條件的userId值對。

posted on 2014-12-04 14:39 SIMONE 閱讀(683) 評論(0) 編輯收藏所屬分類: hadoop mahout

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: Hadoop2.2.0構建mahout環境 Mahout基于Hadoop平臺建立的推薦器說明 mahout網摘