paulwong

My Links

Blog Stats

Posts - 1198
Stories - 10
Comments - 108
Trackbacks - 0

常用鏈接

留言簿(67)

隨筆分類(1393)

隨筆檔案(1151)

文章分類(7)

文章檔案(10)

相冊

Test

收藏夾(2)

AI

AI智能PDF問答工具
CSV數據分析智能工具
docker image
ZLibrary
克隆ChatGPT
爆款小紅書AI寫作助手
視頻腳本生成器

Develop

!!!Event Sourcing
!!!Microservice Patterns
!!!NIO清晰解釋
!!PDF SEARCH
4+1 Architectural View Model
Apache安裝及jboss部署說明文檔
APK自動化測試網站
Command-Query Responsibility Segregation
data source
ELK日志分析平臺搭建全過程
Enterprise Architect中文網
EXT 中文站 ver2.0 since 2006-11-20
GOOGLE
GOOGLE
GOOGLE
Google代理
GOREAD RSS閱讀器
INOREADER RSS閱讀器
JavaScript 全棧工程師培訓教程
JBoss3.0 下配置和部署EJB簡介
Jquery Option Plug-in
LCA
MAVEN最佳實踐-版本管理
microservice-security
Mulity Tenant
MYSQL MHA
OAUTH2.0
RARBG TORRENT
Robin's Java World
Spring Boot Admin的使用
spring cloud
SPRING CLOUD教程
Spring 平臺整合 Activiti 工作流引擎實例
SPRING-BEAN自動組裝解釋
Spring-cloud-OAuth2-0配置
SQL2005客戶端下載
SRPING BOOT教程
TCC
TCC
TCC
一個extjs的好網站
一個優秀的CQRS框架Reveno
一個非常不錯的J2EE框架。
一個非常不錯的J2EE框架，從前端的JSP，到菜單，用戶和權限，都有了，還集成了STRUTS。
東莞源豐印刷
本人設計
中國象棋
中國軟件架構師網
不錯的培訓網，有相關文檔下載。
五行湯好轉反應
五行湯好轉反應
人體自愈的秘密
分布式事務1
分布式架構教學
各種大數據
在SPRING CLOUD中使用JAX-RS發布REST服務
在線思維導圖工具
大數據相關應用
學習課程
學習課程
安徽未名細胞治療有限公司
建模工具EA的使用
開源會議系統
指定MAVEN中的JDK版本
數據層的多租戶淺談
無法連接ITUNES STORE的原因
深圳房網
深圳通余額查詢
甘油三脂高應該用什么樣的食療方法
神級翻譯
簡歷模版
管理學
自動組裝SPRING-BEAN例子
通俗易懂的文章收藏
開放式課程
駕車學習
駕駛教學

E-BOOK

Ebook
ex libgen.io, libgen.org, alternative domains: *.li, *.gs, *.lc
EPDF
http://www.allitebooks.org

搜索

閱讀排行榜

評論排行榜

60天內閱讀排行

Windows環境下用ECLIPSE提交MAPREDUCE JOB至遠程HBASE中運行

假設遠程HADOOP主機名為ubuntu，則應在hosts文件中加上192.168.58.130 ubuntu
新建MAVEN項目，加上相應的配置
pom.xml

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
  xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
  <modelVersion>4.0.0</modelVersion>

  <groupId>com.cloudputing</groupId>
  <artifactId>bigdata</artifactId>
  <version>1.0</version>
  <packaging>jar</packaging>

  <name>bigdata</name>
  <url>http://maven.apache.org</url>

  <properties>
    <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
  </properties>

    <dependencies>
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>3.8.1</version>
            <scope>test</scope>
        </dependency>
        <dependency>
            <groupId>org.springframework.data</groupId>
            <artifactId>spring-data-hadoop</artifactId>
            <version>0.9.0.RELEASE</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hbase</groupId>
            <artifactId>hbase</artifactId>
            <version>0.94.1</version>
        </dependency>

        
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-core</artifactId>
            <version>1.0.3</version>
        </dependency>
        <dependency>
            <groupId>org.springframework</groupId>
            <artifactId>spring-test</artifactId>
            <version>3.0.5.RELEASE</version>
        </dependency>
    </dependencies>
</project>

hbase-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>

    <property>
        <name>hbase.rootdir</name>
        <value>hdfs://ubuntu:9000/hbase</value>
    </property>

    
    <property>
        <name>mapred.job.tracker</name>
        <value>ubuntu:9001</value>
    </property>

    <property>
        <name>hbase.cluster.distributed</name>
        <value>true</value>
    </property>

    
    <property>
        <name>hbase.zookeeper.quorum</name>
        <value>ubuntu</value>
    </property>
    <property skipInDoc="true">
        <name>hbase.defaults.for.version</name>
        <value>0.94.1</value>
    </property>

</configuration>

測試文件：MapreduceTest.java

package com.cloudputing.mapreduce;

import java.io.IOException;

import junit.framework.TestCase;

public class MapreduceTest extends TestCase{

    public void testReadJob() throws IOException, InterruptedException, ClassNotFoundException
    {
        MapreduceRead.read();
    }

}

MapreduceRead.java

package com.cloudputing.mapreduce;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.client.Scan;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;
import org.apache.hadoop.hbase.mapreduce.TableMapper;
import org.apache.hadoop.hbase.util.Bytes;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.output.NullOutputFormat;

public class MapreduceRead {

    public static void read() throws IOException, InterruptedException, ClassNotFoundException
    {
        // Add these statements. XXX
//        File jarFile = EJob.createTempJar("target/classes");
//        EJob.addClasspath("D:/PAUL/WORK/WORK-SPACES/TEST1/cloudputing/src/main/resources");
//        ClassLoader classLoader = EJob.getClassLoader();
//        Thread.currentThread().setContextClassLoader(classLoader);

        Configuration config = HBaseConfiguration.create();
        addTmpJar("file:/D:/PAUL/WORK/WORK-SPACES/TEST1/cloudputing/target/bigdata-1.0.jar",config);

        Job job = new Job(config, "ExampleRead");
        // And add this statement. XXX
//        ((JobConf) job.getConfiguration()).setJar(jarFile.toString());

//        TableMapReduceUtil.addDependencyJars(job);
//        TableMapReduceUtil.addDependencyJars(job.getConfiguration(),
//                MapreduceRead.class,MyMapper.class);

        job.setJarByClass(MapreduceRead.class);     // class that contains mapper

        Scan scan = new Scan();
        scan.setCaching(500);        // 1 is the default in Scan, which will be bad for MapReduce jobs
        scan.setCacheBlocks(false);  // don't set to true for MR jobs
        // set other scan attrs

        TableMapReduceUtil.initTableMapperJob(
                "wiki",        // input HBase table name
                scan,             // Scan instance to control CF and attribute selection
                MapreduceRead.MyMapper.class,   // mapper
                null,             // mapper output key
                null,             // mapper output value
                job);
        job.setOutputFormatClass(NullOutputFormat.class);   // because we aren't emitting anything from mapper

//        DistributedCache.addFileToClassPath(new Path("hdfs://node.tracker1:9000/user/root/lib/stat-analysis-mapred-1.0-SNAPSHOT.jar"),job.getConfiguration());

        boolean b = job.waitForCompletion(true);
        if (!b) {
            throw new IOException("error with job!");
        }

    }

    /**
     * 為Mapreduce添加第三方jar包
     *
     * @param jarPath
     *            舉例：D:/Java/new_java_workspace/scm/lib/guava-r08.jar
     * @param conf
     * @throws IOException
     */
    public static void addTmpJar(String jarPath, Configuration conf) throws IOException {
        System.setProperty("path.separator", ":");
        FileSystem fs = FileSystem.getLocal(conf);
        String newJarPath = new Path(jarPath).makeQualified(fs).toString();
        String tmpjars = conf.get("tmpjars");
        if (tmpjars == null || tmpjars.length() == 0) {
            conf.set("tmpjars", newJarPath);
        } else {
            conf.set("tmpjars", tmpjars + ":" + newJarPath);
        }
    }

    public static class MyMapper extends TableMapper<Text, Text> {

        public void map(ImmutableBytesWritable row, Result value,
                Context context) throws InterruptedException, IOException {
            String val1 = getValue(value.getValue(Bytes.toBytes("text"), Bytes.toBytes("qual1")));
            String val2 = getValue(value.getValue(Bytes.toBytes("text"), Bytes.toBytes("qual2")));
            System.out.println(val1 + " -- " + val2);
        }

        private String getValue(byte [] value)
        {
            return value == null? "null" : new String(value);
        }
    }

}

posted on 2013-01-29 00:19 paulwong 閱讀(1764) 評論(0) 編輯收藏所屬分類: 分布式、HADOOP 、云計算、HBASE

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: !!!架構網站內容不錯 SPRING CACHE資源使用WILDFLY中的分布式緩存INFISHPAN SPRING-SESSION 分布式調度QUARTZ+SPRING 樂視 TV 載入 4K 片點解咁快？CDN 網絡解構 Java并行處理框架 JPPF 騰訊CKV海量分布式存儲系統【轉載】經典漫畫講解HDFS原理一些數據切分、緩存、rpc框架、nosql方案資料

paulwong

My Links

Blog Stats

常用鏈接

留言簿(67)

隨筆分類(1393)

隨筆檔案(1151)

文章分類(7)

文章檔案(10)

相冊

收藏夾(2)

AI

Develop

E-BOOK

Other

養生

微服務

搜索

最新評論

閱讀排行榜

評論排行榜

60天內閱讀排行

Windows環境下用ECLIPSE提交MAPREDUCE JOB至遠程HBASE中運行