paulwong

My Links

Blog Stats

Posts - 1198
Stories - 10
Comments - 108
Trackbacks - 0

常用鏈接

留言簿(67)

隨筆分類(1393)

隨筆檔案(1151)

文章分類(7)

文章檔案(10)

相冊

Test

收藏夾(2)

AI

AI智能PDF問答工具
CSV數據分析智能工具
docker image
ZLibrary
克隆ChatGPT
爆款小紅書AI寫作助手
視頻腳本生成器

Develop

!!!Event Sourcing
!!!Microservice Patterns
!!!NIO清晰解釋
!!PDF SEARCH
4+1 Architectural View Model
Apache安裝及jboss部署說明文檔
APK自動化測試網站
Command-Query Responsibility Segregation
data source
ELK日志分析平臺搭建全過程
Enterprise Architect中文網
EXT 中文站 ver2.0 since 2006-11-20
GOOGLE
GOOGLE
GOOGLE
Google代理
GOREAD RSS閱讀器
INOREADER RSS閱讀器
JavaScript 全棧工程師培訓教程
JBoss3.0 下配置和部署EJB簡介
Jquery Option Plug-in
LCA
MAVEN最佳實踐-版本管理
microservice-security
Mulity Tenant
MYSQL MHA
OAUTH2.0
RARBG TORRENT
Robin's Java World
Spring Boot Admin的使用
spring cloud
SPRING CLOUD教程
Spring 平臺整合 Activiti 工作流引擎實例
SPRING-BEAN自動組裝解釋
Spring-cloud-OAuth2-0配置
SQL2005客戶端下載
SRPING BOOT教程
TCC
TCC
TCC
一個extjs的好網站
一個優秀的CQRS框架Reveno
一個非常不錯的J2EE框架。
一個非常不錯的J2EE框架，從前端的JSP，到菜單，用戶和權限，都有了，還集成了STRUTS。
東莞源豐印刷
本人設計
中國象棋
中國軟件架構師網
不錯的培訓網，有相關文檔下載。
五行湯好轉反應
五行湯好轉反應
人體自愈的秘密
分布式事務1
分布式架構教學
各種大數據
在SPRING CLOUD中使用JAX-RS發布REST服務
在線思維導圖工具
大數據相關應用
學習課程
學習課程
安徽未名細胞治療有限公司
建模工具EA的使用
開源會議系統
指定MAVEN中的JDK版本
數據層的多租戶淺談
無法連接ITUNES STORE的原因
深圳房網
深圳通余額查詢
甘油三脂高應該用什么樣的食療方法
神級翻譯
簡歷模版
管理學
自動組裝SPRING-BEAN例子
通俗易懂的文章收藏
開放式課程
駕車學習
駕駛教學

E-BOOK

Ebook
ex libgen.io, libgen.org, alternative domains: *.li, *.gs, *.lc
EPDF
http://www.allitebooks.org

搜索

閱讀排行榜

評論排行榜

60天內閱讀排行

WordCount的一個變種版本…Hadoop

統計域名（實際是host）的計數器。

輸入：一個文件夾中有一堆的文本文件，內容是一行一個的url，可以想像為數據庫中的一條記錄
流程：提取url的domain，對domain計數+1
輸出：域名，域名計數

代碼如下：
Mapper

package com.keseek.hadoop;

import java.io.IOException;

import java.net.URI;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapred.JobConf;

import org.apache.hadoop.mapred.OutputCollector;

import org.apache.hadoop.mapred.Reporter;

import org.apache.hadoop.mapred.Mapper;

public class DomainCountMapper implements

Mapper<LongWritable, Text, Text, LongWritable> {

@Override

public void configure(JobConf arg0) {

// Init Text and LongWritable

domain = new Text();

one = new LongWritable(1);

}

@Override

public void close() throws IOException {

// TODO Auto-generated method stub

}

@Override

public void map(LongWritable key, Text value,

OutputCollector<Text, LongWritable> output, Reporter reporter)

throws IOException {

// Get URL

String url = value.toString().trim();

// URL->Domain && Collect

domain.set(ParseDomain(url));

if (domain.getLength() != 0) {

output.collect(domain, one);

}

public String ParseDomain(String url) {

try {

URI uri = URI.create(url);

return uri.getHost();

} catch (Exception e) {

return "";

}

// Shared used Text domain

private Text domain;

// One static

private LongWritable one;

}

Reducer

package com.keseek.hadoop;

import java.io.IOException;

import java.util.Iterator;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapred.JobConf;

import org.apache.hadoop.mapred.OutputCollector;

import org.apache.hadoop.mapred.Reporter;

import org.apache.hadoop.mapred.Reducer;

public class DomainCountReducer implements

Reducer<Text, LongWritable, Text, LongWritable> {

@Override

public void configure(JobConf arg0) {

// TODO Auto-generated method stub

}

@Override

public void close() throws IOException {

// TODO Auto-generated method stub

}

@Override

public void reduce(Text key, Iterator<LongWritable> values,

OutputCollector<Text, LongWritable> output, Reporter reporter)

throws IOException {

// Count the domain

long cnt = 0;

while (values.hasNext()) {

cnt += values.next().get();

}

// Output

output.collect(key, new LongWritable(cnt));

}

Main

package com.keseek.hadoop;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapred.FileInputFormat;

import org.apache.hadoop.mapred.FileOutputFormat;

import org.apache.hadoop.mapred.JobClient;

import org.apache.hadoop.mapred.JobConf;

import org.apache.hadoop.mapred.RunningJob;

import org.apache.hadoop.mapred.TextInputFormat;

import org.apache.hadoop.mapred.TextOutputFormat;

public class DomainCountMain {

public static void main(String[] args) throws Exception {

// Param for path

if (args.length != 2) {

System.out.println("Usage:");

System.out

.println("DomainCountMain.jar <Input_Path> <Outpu_Path>");

System.exit(-1);

}

// Configure JobConf

JobConf jobconf = new JobConf(DomainCountMain.class);

jobconf.setJobName("Domain Counter by Coder4");

FileInputFormat.setInputPaths(jobconf, new Path(args[0]));

FileOutputFormat.setOutputPath(jobconf, new Path(args[1]));

jobconf.setInputFormat(TextInputFormat.class);

jobconf.setOutputFormat(TextOutputFormat.class);

jobconf.setMapperClass(DomainCountMapper.class);

jobconf.setReducerClass(DomainCountReducer.class);

jobconf.setCombinerClass(DomainCountReducer.class);

jobconf.setMapOutputKeyClass(Text.class);

jobconf.setMapOutputValueClass(LongWritable.class);

jobconf.setOutputKeyClass(Text.class);

jobconf.setOutputValueClass(LongWritable.class);

// Run job

RunningJob run = JobClient.runJob(jobconf);

run.waitForCompletion();

if (run.isSuccessful()) {

System.out.println("<<<DomainCount Main>>> success.");

} else {

System.out.println("<<<DomainCount Main>>> error.");

}

posted on 2012-09-08 15:30 paulwong 閱讀(270) 評論(0) 編輯收藏所屬分類: HADOOP 、云計算

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: HADOOP各種框架應用領域編譯HADOOP源碼 Simplehbase 安裝CLOUDERA 2014年值得關注的十個Hadoop大數據創業公司 KMEANS PAGERANK ON HADOOP Packt celebrates International Day Against DRM, May 6th 2014 A book: Web Crawling and Data Mining with Apache Nutch 【轉載】經典漫畫講解HDFS原理 Install Hadoop in the AWS cloud

paulwong

My Links

Blog Stats

常用鏈接

留言簿(67)

隨筆分類(1393)

隨筆檔案(1151)

文章分類(7)

文章檔案(10)

相冊

收藏夾(2)

AI

Develop

E-BOOK

Other

養生

微服務

搜索

最新評論

閱讀排行榜

評論排行榜

60天內閱讀排行

WordCount的一個變種版本…Hadoop