精品国产综合,亚洲一区二区三区日本久久九,日本不卡一二三区

HIVE资源

paulwong — Sun, 01 Sep 2013 04:41:00 GMT

Hive是徏立在Hadoop上的数据仓库基础构架。它提供了一�p�d��的工��P��可以用来�q�行数据提取转化加蝲�Q�ETL�Q�，�q�是一�U�可以存储、查询和分析存储�?Hadoop 中的大规模数据的机制。Hive 定义了简单的�c?SQL 查询语言�Q�称�?HQL�Q�它允许熟悉 SQL 的用��h��询数据。同�Ӟ��q�个语言也允许熟�?MapReduce 开发者的开发自定义�?mapper �?reducer 来处理内建的 mapper �?reducer 无法完成的复杂的分析工作�?br />

Hive 没有专门的数据格式�?Hive 可以很好的工作在 Thrift 之上�Q�控制分隔符�Q�也允许用户指定数据格式

hive与关�p�L��据库的区别：

数据存储不同�Q�hive��Z��hadoop的HDFS�Q�关�p�L��据库则基于本地文件系�l?br />
计算模型不同�Q�hive��Z��hadoop的mapreduce�Q�关�p�L��据库则基于烦引的内存计算模型

应用场景不同�Q�hive是OLAP数据仓库�pȝ��提供��量数据查询的，实时性很�?关系数据库是OLTP事务�pȝ��Q��ؓ实时查询业务服务

扩展性不同：hive��Z��hadoop很容易通过分布式增加存储能力和计算能力�Q�关�p�L��据库水��^扩展很难�Q�要不断增加单机的性能

Hive安装及��用攻�?br />http://blog.fens.me/hadoop-hive-intro/

R利剑NoSQL�p�d��文章 �?Hive
http://cos.name/2013/07/r-nosql-hive/

paulwong 2013-09-01 12:41 发表评论

paulwong — Sat, 31 Aug 2013 07:52:00 GMT

云端分布式搜索技�?br />http://www.searchtech.pro

ELASTICSEARCH中文�C�֌�
http://es-bbs.medcl.net/categories/%E6%9C%80%E6%96%B0%E5%8A%A8%E6%80%81

http://wangwei3.iteye.com/blog/1818599

Welcome to the Apache Nutch Wiki
https://wiki.apache.org/nutch/FrontPage

elasticsearch客户端大�?br />http://www.searchtech.pro/elasticsearch-clients

客户�?br />http://es-cn.medcl.net/guide/concepts/scaling-lucene/
https://github.com/aglover/elasticsearch_article/blob/master/src/main/java/com/b50/usat/load/MusicReviewSearch.java

paulwong 2013-08-31 15:52 发表评论

Install hadoop+hbase+nutch+elasticsearch

paulwong — Fri, 30 Aug 2013 17:17:00 GMT

摘要: This document is for Anyela Chavarro. Only these version of each framework work together Code highlighting produced by Actipro CodeHighlighter (freeware) http://www.CodeHighlighter.com/ -->H... 阅读全文

paulwong 2013-08-31 01:17 发表评论

Implementation for CombineFileInputFormat Hadoop 0.20.205

paulwong — Thu, 29 Aug 2013 08:08:00 GMT

�q�行MAPREDUCE JOB�Ӟ��如果输入的文件比较小而多�Ӟ��默认情况下会生成很多的MAP JOB�Q�即一个文件一个MAP JOB�Q�因此需要优化，使多个文件能合成一个MAP JOB的输入�?br />
具体的原理是下述三步:

1.�Ҏ��输入目录下的每个文�g,如果光��度超�q�mapred.max.split.size,以block为单位分成多个split(一个split是一个map的输�?,每个split的长度都大于mapred.max.split.size, 因�ؓ以block为单�? 因此也会大于blockSize, 此文件剩下的长度如果大于mapred.min.split.size.per.node, 则生成一个split, 否则先暂时保�?

2. 现在剩下的都是一些长度效短的��片,把每个rack下碎片合�q? 只要长度��过mapred.max.split.size��合�q�成一个split, 最后如果剩下的��片比mapred.min.split.size.per.rack�? ��合�q�成一个split, 否则暂时保留.

3. 把不同rack下的��片合�ƈ, 只要长度��过mapred.max.split.size��合�q�成一个split, 剩下的碎片无论长�? 合�ƈ成一个split.
举例: mapred.max.split.size=1000
mapred.min.split.size.per.node=300
mapred.min.split.size.per.rack=100
输入目录下五个文�?rack1下三个文�?长度�?050,1499,10, rack2下两个文�?长度�?010,80. 另外blockSize�?00.
�l�过�W�一�? 生成五个split: 1000,1000,1000,499,1000. 剩下的碎片�ؓrack1�?50,10; rack2�?0:80
�׃��两个rack下的��片和都不超�q?00, 所以经�q�第二步, split和碎片都没有变化.
�W�三�?合�ƈ四个��片成一个split, 长度�?50.

如果要减��map数量, 可以调大mapred.max.split.size, 否则调小卛_��.

其特�Ҏ��: 一个块臛_��作�ؓ一个map的输入，一个文件可能有多个块，一个文件可能因为块多分�l�做��Z��同map的输入，一个map可能处理多个块，可能处理多个文�g�?br />
注：CombineFileInputFormat是一个抽象类�Q�需要编写一个��承类�?br />

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.FileSplit;
import org.apache.hadoop.mapred.InputSplit;
import org.apache.hadoop.mapred.JobConf;
import org.apache.hadoop.mapred.LineRecordReader;
import org.apache.hadoop.mapred.RecordReader;
import org.apache.hadoop.mapred.Reporter;
import org.apache.hadoop.mapred.lib.CombineFileInputFormat;
import org.apache.hadoop.mapred.lib.CombineFileRecordReader;
import org.apache.hadoop.mapred.lib.CombineFileSplit;

@SuppressWarnings("deprecation")
public class CombinedInputFormat extends CombineFileInputFormat {

    @SuppressWarnings({ "unchecked", "rawtypes" })
    @Override
    public RecordReader getRecordReader(InputSplit split, JobConf conf, Reporter reporter) throws IOException {

        return new CombineFileRecordReader(conf, (CombineFileSplit) split, reporter, (Class) myCombineFileRecordReader.class);
    }

    public static class myCombineFileRecordReader implements RecordReader {
        private final LineRecordReader linerecord;

        public myCombineFileRecordReader(CombineFileSplit split, Configuration conf, Reporter reporter, Integer index) throws IOException {
            FileSplit filesplit = new FileSplit(split.getPath(index), split.getOffset(index), split.getLength(index), split.getLocations());
            linerecord = new LineRecordReader(conf, filesplit);
        }

        @Override
        public void close() throws IOException {
            linerecord.close();

        }

        @Override
        public LongWritable createKey() {
            // TODO Auto-generated method stub
            return linerecord.createKey();
        }

        @Override
        public Text createValue() {
            // TODO Auto-generated method stub
            return linerecord.createValue();
        }

        @Override
        public long getPos() throws IOException {
            // TODO Auto-generated method stub
            return linerecord.getPos();
        }

        @Override
        public float getProgress() throws IOException {
            // TODO Auto-generated method stub
            return linerecord.getProgress();
        }

        @Override
        public boolean next(LongWritable key, Text value) throws IOException {

            // TODO Auto-generated method stub
            return linerecord.next(key, value);
        }

    }
}

在运行时�q�样讄��Q?br />

if (argument != null) {
                conf.set("mapred.max.split.size", argument);
            } else {
                conf.set("mapred.max.split.size", "134217728"); // 128 MB
            }
//

            conf.setInputFormat(CombinedInputFormat.class);

paulwong 2013-08-29 16:08 发表评论

paulwong — Sun, 18 Aug 2013 10:27:00 GMT

!!!��Z��Hadoop的大数据�q�_��实施�?#8212;—整体架构设计
http://blog.csdn.net/jacktan/article/details/9200979

paulwong 2013-08-18 18:27 发表评论

How to install Hadoop cluster(2 node cluster) and Hbase on Vmware Workstation. It also includes installing Pig and Hive in the appendix

paulwong — Sat, 17 Aug 2013 14:23:00 GMT

By Tzu-Cheng Chuang 1-28-2011

Requires: Ubuntu10.04, hadoop0.20.2, zookeeper 3.3.2 HBase0.90.0
1. Download Ubuntu 10.04 desktop 32 bit from Ubuntu website.

2. Install Ubuntu 10.04 with username: hadoop, password: password, disk size: 20GB, memory: 2048MB, 1 processor, 2 cores

3. Install build-essential (for GNU C, C++ compiler)    $ sudo apt-get install build-essential

4. Install sun-jave-6-jdk
    (1) Add the Canonical Partner Repository to your apt repositories
    $ sudo add-apt-repository "deb http://archive.canonical.com/ lucid partner"
     (2) Update the source list
    $ sudo apt-get update
     (3) Install sun-java-6-jdk and make sure Sun’s java is the default jvm
    $ sudo apt-get install sun-java6-jdk
     (4) Set environment variable by modifying ~/.bashrc file, put the following two lines in the end of the file
    export JAVA_HOME=/usr/lib/jvm/java-6-sun
export PATH=$PATH:$JAVA_HOME/bin

5. Configure SSH server so that ssh to localhost doesn’t need a passphrase
    (1) Install openssh server
    $ sudo apt-get install openssh-server
     (2) Generate RSA pair key
    $ ssh-keygen –t ras –P ""
     (3) Enable SSH access to local machine
    $ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

6. Disable IPv6 by      modifying /etc/sysctl.conf file, put the following two lines in the end of the file
#disable
ipv6 net.ipv6.conf.all.disable_ipv6 = 1
net.ipv6.conf.default.disable_ipv6 = 1
net.ipv6.conf.lo.disable_ipv6 = 1

7. Install hadoop
    (1) Download hadoop-0.20.2.tar.gz(stable release on 1/25/2011) from Apache hadoop website
    (2) Extract hadoop archive file to /usr/local/
    (3) Make symbolic link
    (4) Modify /usr/local/hadoop/conf/hadoop-env.sh
Change from # The java implementation to use. Required. # export JAVA_HOME=/usr/lib/j2sdk1.5-sun To # The java implementation to use. Required. export JAVA_HOME=/usr/lib/jvm/java-6-sun
     (5)Create /usr/local/hadoop-datastore folder
$ sudo mkdir /usr/local/hadoop-datastore
$ sudo chown hadoop:hadoop /usr/local/hadoop-datastore
$ sudo chmod 750 /usr/local/hadoop-datastore
     (6)Put the following code in /usr/local/hadoop/conf/core-site.xml
hadoop.tmp.dir/usr/local/hadoop/tmp/dir/hadoop-${user.name}A base for other temporary directories.fs.default.namehdfs://master:54310The name of the default file system. A URI whose scheme and authority determine the FileSystem implementation. The uri's scheme determines the config property (fs.SCHEME.impl) naming the FileSystem implementation class. The uri's authority is used to determine the host, port, etc. for a filesystem.
    (7) Put the following code in /usr/local/hadoop/conf/mapred-site.xml
mapred.job.trackermaster:54311The host and port that the MapReduce job tracker runs at. If "local", then jobs are run in-process as a single map and reduce task.
     (8) Put the following code in /usr/local/hadoop/conf/hdfs-site.xml
dfs.replication1Default block replication. The actual number of replications can be specified when the file is created. The default is used if replication is not specified in create time.
     (9) Add hadoop to environment variable by modifying ~/.bashrc
export HADOOP_HOME=/usr/local/hadoop export PATH=$HADOOP_HOME/bin:$PATH

8. Restart Ubuntu Linux

9. Copy this virtual machine to another folder. At least we have 2 copies of Ubuntu linux

10. Modify /etc/hosts on both Linux Virtual Image machines, add in the following lines in the file. The IP address depends on each machine. We can use (ifconfig) to find out IP address.
# /etc/hosts (for master AND slave) 192.168.0.1 master 192.168.0.2 slave     Modify the following line, because it might cause Hbase to find out wrong ip.
192.168.0.1 ubuntu

11. Check hadoop user access on both machines.
The hadoop user on the master (aka hadoop@master) must be able to connect a) to its own user account on the master – i.e. ssh master in this context and not necessarily ssh localhost – and b) to the hadoop user account on the slave (aka hadoop@slave) via a password-less SSH login. On both machines, make sure each one can connect to master, slave without typing passwords.

12. Cluster configuration
    (1) Modify /usr/local/hadoop/conf/masters
         only on master machine    master
     (2) Modify /usr/local/hadoop/conf/slaves
          only on master machine    master slave
     (3) Change “localhost” to “master” in /usr/local/conf/hadoop/conf/core-site.xml and /usr/local/hadoop/conf/mapred-site.xml
        only on master machine
    (4) Change dfs.replication to “1” in /usr/local/conf/hadoop/conf/hdfs-site.xml
    only on master machine

13. Format the namenode only once and only on master machine
$ /usr/local/hadoop/bin/hadoop namenode –format

14. Later on, start the multi-node cluster by typing following code only on master. So far, please don’t start hadoop yet.
$ /usr/local/hadoop/bin/start-dfs.sh $ /usr/local/hadoop/bin/start-mapred.sh

15. Install zookeeper only on master node
    (1) download zookeeper-3.3.2.tar.gz from Apache hadoop website
    (2) Extract zookeeper-3.3.2.tar.gz    $ tar –xzf zookeeper-3-3.2.tar.gz
     (3) Move folder zookeeper-3.3.2 to /home/hadoop/ and create a symbloink link
    $ mv zookeeper-3.3.2 /home/hadoop/ ; ln –s /home/hadoop/zookeeper-3.3.2 /home/hadoop/zookeeper
     (4) copy conf/zoo_sample.cfg to conf/zoo.cfg
    $ cp conf/zoo_sample.cfg confg/zoo.cfg
     (5) Modify conf/zoo.cfg    dataDir=/home/hadoop/zookeeper/snapshot

16. Install Hbase on both master and slave nodes, configure it as fully-distributed
    (1) Download hbase-0.90.0.tar.gz from Apache hadoop website
    (2) Extract hbase-0.90.0.tar.gz    $ tar –xzf hbase-0.90.0.tar.gz
     (3) Move folder hbase-0.90.0 to /home/hadoop/ and create a symbloink link    $ mv hbase-0.90.0 /home/hadoop/ ; ln –s /home/hadoop/hbase-0.90.0 /home/hadoop/hbase
     (4) Edit /home/hadoop/hbase/conf/hbase-site.xml, put the following in between and hbase.rootdirhdfs://master:54310/hbase The directory shared by region servers. Should be fully-qualified to include the filesystem to use. E.g: hdfs://NAMENODE_SERVER:PORT/HBASE_ROOTDIR hbase.cluster.distributedtrueThe mode the cluster will be in. Possible values are false: standalone and pseudo-distributed setups with managed Zookeeper true: fully-distributed with unmanaged Zookeeper Quorum (see hbase-env.sh) hbase.zookeeper.quorummasterComma separated list of servers in the ZooKeeper Quorum. If HBASE_MANAGES_ZK is set in hbase-env.sh this is the list of servers which we will start/stop ZooKeeper on.
     (5) modify environment variables in /home/hadoop/hbase/conf/hbase-env.sh
    export JAVA_HOME=/usr/lib/jvm/java-6-sun/
export HBASE_IDENT_STRING=$HOSTNAME
export HBASE_MANAGES_ZK=false
     (6)Overwrite /home/hadoop/hbase/conf/regionservers
on both machines    master slave
     (7)copy /usr/local/hadoop-0.20.2/haoop-0.20.2-core.jar to /home/hadoop/hbase/lib/ on both machines.
      This is very important to fix version difference issue. Pay attention to its ownership and mode(755).

17. Start zookeeper. It seems the zookeeper bundled with Hbase is not set up correctly.
$ /home/hadoop/zookeeper/bin/zkServer.sh start     (Optional)We can test if zookeeper is running correctly by typing     $ /home/hadoop/zookeeper/bin/zkCli.sh –server 127.0.0.1:2181

18. Start hadoop cluster
$ /usr/local/hadoop/bin/start-dfs.sh $ /usr/local/hadoop/bin/start-mapred.sh

19. Start Hbase
$ /home/hadoop/hbase/bin/start-hbase.sh

20. Use Hbase shell
$ /home/hadoop/hbase/bin/hbase shell     Check if hbase is running smoothly
    Open your browser, and type in the following.
    http://localhost:60010

21. Later on, stop the multi-node cluster by typing following code only on master
    (1) Stop Hbase    $ /home/hadoop/hbase/bin/stop-hbase.sh
     (2) Stop hadoop file system (HDFS)
$ /usr/local/hadoop/bin/stop-mapred.sh
$ /usr/local/hadoop/bin/stop-dfs.sh
     (3) Stop zookeeper
$ /home/hadoop/zookeeper/bin/zkServer.sh stop

Reference
http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/
http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-multi-node-cluster/
http://wiki.apache.org/hadoop/Hbase/10Minutes
http://hbase.apache.org/book/quickstart.html
http://alans.se/blog/2010/hadoop-hbase-cygwin-windows-7-x64/

Author
Tzu-Cheng Chuang

Appendix- Install Pig and Hive
1. Install Pig 0.8.0 on this cluster
    (1) Download pig-0.8.0.tar.gz from Apache pig project website. Then extract the file and move it to /home/hadoop/
$ tar –xzf pig-0.8.0.tar.gz ; mv pig-0.8.0 /home/hadoop/
     (2) Make symbolink link under pig-0.8.0/conf/
$ ln -s /usr/local/hadoop/conf/core-site.xml /home/hadoop/pig-0.8.0/conf/core-site.xml
$ ln -s /usr/local/hadoop/conf/mapred-site.xml /home/hadoop/pig-0.8.0/conf/mapred-site.xml
$ ln -s /usr/local/hadoop/conf/hdfs-site.xml /home/hadoop/pig-0.8.0/conf/hdfs-site.xml
     3) Start pig in map-reduce mode: $ /home/hadoop/pig-0.8.0/bin/pig
     (4) Exit pig from grunt>    quit

2. Install Hive on this cluster
    (1) Download hive-0.6.0.tar.gz from Apache hive project website, and then extract the file and move it to /home/hadoop/    $ tar –xzf hive-0.6.0.tar.gz ; mv hive-0.6.0 ~/
     (2) Modify java heap size in hive-0.6.0/bin/ext/execHiveCmd.sh Change 4096 to 1024
    (3) Create /tmp and /user/hive/warehouse and set them chmod g+w in HDFS before a table can be created in Hive    $ hadoop fs –mkdir /tmp $ hadoop fs –mkdir /user/hive/warehouse $ hadoop fs –chmod g+w /tmp $ hadoop fs –chmod g+w /user/hive/warehouse
     (4) start Hive     $ /home/hadoop/hive-0.6.0/bin/hive

     3. (Optional)Load data by using Hive
    Create a file /home/hadoop/customer.txt    1, Kevin 2, David 3, Brian 4, Jane 5, Alice     After hive shell is started, type in    > CREATE TABLE IF NOT EXISTS customer(id INT, name STRING) > ROW FORMAT delimited fields terminated by ',' > STORED AS TEXTFILE; >LOAD DATA INPATH '/home/hadoop/customer.txt' OVERWRITE INTO TABLE customer; >SELECT customer.id, customer.name from customer;

http://chuangtc.info/ParallelComputing/SetUpHadoopClusterOnVmwareWorkstation.htm

paulwong 2013-08-17 22:23 发表评论

HBASE界面工具

paulwong — Wed, 14 Aug 2013 01:51:00 GMT

hbaseexplorer
下蝲�?.6的WAR包时�Q�要��lib下的jasper-runtime-5.5.23.jar和jasper-compiler-5.5.23.jar删掉�Q�否则会报错
http://sourceforge.net/projects/hbaseexplorer/?source=dlp

HBaseXplorer
https://github.com/bit-ware/HBaseXplorer/downloads

HBase Manager
http://sourceforge.net/projects/hbasemanagergui/

paulwong 2013-08-14 09:51 发表评论

Kettle - HADOOP数据转换工具

paulwong — Thu, 01 Aug 2013 09:21:00 GMT

ETL�Q�Extract-Transform-Load的羃写，��x��据抽取、�{换、装载的�q�程�Q�，对于企业或行业应用来��_��我们�l�常会遇到各�U�数据的处理�Q��{换，�q�移�Q�所以了解�ƈ掌握一�U�etl工具的��用，必不可少�Q�这里我介绍一个我在工作中使用�?�q�左右的ETL工具Kettle,本着好东西不独��n的想法，跟大家分享碰撞交��一下！在��用中我感觉这个工��L��的很强大�Q�支持图形化的GUI设计界面�Q�然后可以以工作��的形式��{�Q�在做一些简单或复杂的数据抽取、质量检��、数据清�z�、数据�{换、数据过滤等斚w��有着比较�E�_��的表玎ͼ�其中最主要的我们通过熟练的应用它�Q�减��了非常多的研发工作量，提高了我们的工作效率�Q�不�q�对于我�q�个.net研发者来说唯一的遗憑ְ�是这个工��h��Java�~�写的�?br />
http://www.cnblogs.com/limengqiang/archive/2013/01/16/KettleApply1.html

paulwong 2013-08-01 17:21 发表评论

使用Sqoop实现HDFS与Mysql互�{

paulwong — Sat, 11 May 2013 13:27:00 GMT

��?br /> Sqoop是一个用来将Hadoop和关�p�d��数据库中的数据相互�{�Uȝ��工具�Q�可以将一个关�p�d��数据库（例如 �Q?MySQL ,Oracle ,Postgres�{�）中的数据导入到Hadoop的HDFS中，也可以将HDFS的数据导入到关系型数据库中�?br />
http://sqoop.apache.org/

环境
当调试过�E�出现IncompatibleClassChangeError一般都是版本兼定w��题�?br />
��Z��保证hadoop和sqoop版本的兼�Ҏ��，使用Cloudera�Q?br />
Cloudera��介：

Cloudera��Z��让Hadoop的配�|�标准化�Q�可以帮助企业安装，配置�Q�运行hadoop以达到大规模企业数据的处理和分析�?br />
http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDHTarballs/3.25.2013/CDH4-Downloadable-Tarballs/CDH4-Downloadable-Tarballs.html

下蝲安装hadoop-0.20.2-cdh3u6�Q�sqoop-1.3.0-cdh3u6�?br />
安装
安装比较��单，直接解压卛_��

唯一需要做的就是将mysql的jdbc适配包mysql-connector-java-5.0.7-bin.jar copy�?SQOOP_HOME/lib下�?br />
配置好环境变量：/etc/profile

export SQOOP_HOME=/home/hadoop/sqoop-1.3.0-cdh3u6/

export PATH=$SQOOP_HOME/bin:$PATH

MYSQL转HDFS-�C�Z��
./sqoop import --connect jdbc:mysql://10.8.210.166:3306/recsys --username root --password root --table shop -m 1 --target-dir /user/recsys/input/shop/$today

HDFS转MYSQ-�C�Z��
./sqoop export --connect jdbc:mysql://10.8.210.166:3306/recsys --username root --password root --table shopassoc --fields-terminated-by ',' --export-dir /user/recsys/output/shop/$today

�C�Z��参数说明
(其他参数我未使用�Q�故不作解释�Q�未使用�Q�就没有发言权，详见命��ohelp)

参数�c�d��

参数�?br />
解释

公共

connect

Jdbc-url

公共

username

---

公共

password

---

公共

table

表名

Import

target-dir

制定输出hdfs目录�Q�默认输出到/user/$loginName/

export

fields-terminated-by

Hdfs文�g中的字段分割�W�，默认�?#8220;\t”

export

export-dir

hdfs文�g的�\�?img src ="http://www.aygfsteel.com/paulwong/aggbug/399153.html" width = "1" height = "1" />

paulwong 2013-05-11 21:27 发表评论

paulwong — Fri, 03 May 2013 01:05:00 GMT

下面��介�l�大数据领域支持Java的主��开源工�?/strong>�Q?/p>

1. HDFS

HDFS是Hadoop应用�E�序中主要的分布式储存系�l�， HDFS集群包含了一个NameNode�Q�主节点�Q�，�q�个节点负责��理所有文件系�l�的元数据及存储了真实数据的DataNode�Q�数据节点，可以有很多）。HDFS针对��量数据所设计�Q�所以相比传�l�文件系�l�在大批量小文�g上的优化�Q�HDFS优化的则是对��批量大型文件的讉K��和存储�?/p>

2. MapReduce

Hadoop MapReduce是一个��Y件框�Ӟ��用以��L��~�写处理��量�Q�TB�U�）数据的�ƈ行应用程序，以可靠和定w��的方式连�?span style="line-height: 1.45em;">大型集群�?/span>上万个节点（商用��g�Q��?/span>

3. HBase

Apache HBase是Hadoop数据库，一个分布式、可扩展的大数据存储。它提供了大数据集上随机和实时的�?写访问，�q��对了商用服务器集��上的大型表格做��Z��?#8212;—上百亿行�Q�上千万列。其核心是Google Bigtable论文的开源实玎ͼ�分布式列式存储。就像Bigtable利用GFS�Q�Google File System�Q�提供的分布式数据存储一��P��它是Apache Hadoop在HDFS基础上提供的一个类Bigatable�?/p>

4. Cassandra

Apache Cassandra是一个高性能、可�U�性扩展、高有效性数据库�Q�可以运行在商用��g或云基础设施上打造完��的��d��关键性数据��^台。在横跨数据中心的复制中�Q�Cassandra同类最佻I��为用��h��供更低的延时以及更可靠的��N��备䆾。通过log-structured update、反规范化和物化视图的强支持以及强大的内�|�缓存，Cassandra的数据模型提供了方便的二�U�烦引（column indexe�Q��?/p>

5. Hive

Apache Hive是Hadoop的一个数据仓库系�l�，促进了数据的�l�D��Q�将�l�构化的数据文�g映射��Z��张数据库表）、即席查询以及存储在Hadoop兼容�pȝ��中的大型数据集分析。Hive提供完整的SQL查询功能——HiveQL语言�Q�同时当使用�q�个语言表达一�?span style="line-height: 1.45em;">逻辑变得低效和繁�?/span>�Ӟ��HiveQL�q�允�怼��l�的Map/Reduce�E�序员��用自己定制的Mapper和Reducer�?/span>

6. Pig

Apache Pig是一个用于大型数据集分析的��^収ͼ�它包含了一个用于数据分析应用的高��语言以及评估�q�些应用的基��设施。Pig应用的闪光特性在于它们的�l�构�l�得起大量的�q�行�Q�也��是说让它们支撑起非常大的数据集。Pig的基��设施层包含了产生Map-Reduce��d��的编译器。Pig的语�a�层当前包含了一个原生语�a�——Pig Latin�Q�开发的初衷是易于编�E�和保证可扩展性�?/p>

7. Chukwa

Apache Chukwa是个开源的数据攉��pȝ��Q�用以监视大型分布系�l�。徏立于HDFS和Map/Reduce框架之上�Q��承了Hadoop的可扩展性和�E�_��性。Chukwa同样包含了一个灵�z�d��强大的工具包�Q�用以显�C�、监视和分析�l�果�Q�以保证数据的��用达到最��x��果�?/p>

8. Ambari

Apache Ambari是一个基于web的工��P��用于配置、管理和监视Apache Hadoop集群�Q�支持Hadoop HDFS,、Hadoop MapReduce、Hive、HCatalog,、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari同样�q�提供了集群状况仪表盘，比如heatmaps和查看MapReduce、Pig、Hive应用�E�序的能力，以友好的用户界面对它们的性能�Ҏ��进行诊断�?/p>

9. ZooKeeper

Apache ZooKeeper是一个针对大型分布式�pȝ��的可靠协调系�l�，提供的功能包括：配置�l�护、命名服务、分布式同步、组服务�{�。ZooKeeper的目标就是封装好复杂易出错的关键服务�Q�将��单易用的接口和性能高效、功能稳定的�pȝ��提供�l�用戗��?/p>

10. Sqoop

Sqoop是一个用来将Hadoop和关�p�d��数据库中的数据相互�{�Uȝ��工具�Q�可以将一个关�p�d��数据库中数据导入Hadoop的HDFS中，也可以将HDFS中数据导入关�p�d��数据库中�?/p>

11. Oozie

Apache Oozie是一个可扩展、可靠及可扩充的工作��调度系�l�，用以��理Hadoop作业。Oozie Workflow作业是活动的Directed Acyclical Graphs�Q�DAGs�Q�。Oozie Coordinator作业是由周期性的Oozie Workflow作业触发�Q�周期一般决定于旉��Q�频率）和数据可用性。Oozie与余下的Hadoop堆栈�l�合使用�Q�开��即用的支持多种�c�d��Hadoop作业�Q�比如：Java map-reduce、Streaming map-reduce、Pig�?Hive、Sqoop和Distcp�Q�以及其它系�l�作业（比如Java�E�序和Shell脚本�Q��?/p>

12. Mahout

Apache Mahout是个可扩展的机器学习和数据挖掘库�Q�当前Mahout支持主要�?个用例：

推荐挖掘�Q�搜集用户动作�ƈ以此�l�用��h��荐可能喜�Ƣ的事物�?/span>
聚集�Q�收集文件�ƈ�q�行相关文�g分组�?/span>
分类�Q�从现有的分�c�L��档中学习�Q�寻找文档中的相似特征，�q��ؓ无标�{��文档�q�行正确的归�c�R�?/span>
频繁��w��挖掘�Q�将一�l�项分组�Q��ƈ识别哪些个别��会�l�常一起出现�?/span>

13. HCatalog

Apache HCatalog是Hadoop建立数据的映��表和存储管理服务，它包括：

提供一个共享模式和数据�c�d��机制�?/span>
提供一个抽象表�Q�这��L��户就不需要关注数据存储的方式和地址�?/span>
为类似Pig、MapReduce及Hive�q�些数据处理工具提供互操作性�?/span>

paulwong 2013-05-03 09:05 发表评论

一个PIG脚本例子分析

paulwong — Sat, 13 Apr 2013 07:21:00 GMT
执行脚本�Q?br />
PIGGYBANK_PATH=$PIG_HOME/contrib/piggybank/java/piggybank.jar
INPUT=pig/input/test-pig-full.txt
OUTPUT=pig/output/test-pig-output-$(date  +%Y%m%d%H%M%S)
PIGSCRIPT=analyst_status_logs.pig

#analyst_500_404_month.pig
#analyst_500_404_day.pig
#analyst_404_percentage.pig
#analyst_500_percentage.pig
#analyst_unique_path.pig
#analyst_user_logs.pig
#analyst_status_logs.pig

pig -p PIGGYBANK_PATH=$PIGGYBANK_PATH -p INPUT=$INPUT -p OUTPUT=$OUTPUT $PIGSCRIPT

要分析的数据源，LOG 文�g
46.20.45.18 - - [25/Dec/2012:23:00:25 +0100] "GET / HTTP/1.0" 302 - "-" "Pingdom.com_bot_version_1.4_(http://www.pingdom.com/)" "-" "-" 46.20.45.18 "" 11011AEC9542DB0983093A100E8733F8 0
46.20.45.18 - - [25/Dec/2012:23:00:25 +0100] "GET /sign-in.jspx HTTP/1.0" 200 3926 "-" "Pingdom.com_bot_version_1.4_(http://www.pingdom.com/)" "-" "-" 46.20.45.18 "" 11011AEC9542DB0983093A100E8733F8 0
69.59.28.19 - - [25/Dec/2012:23:01:25 +0100] "GET / HTTP/1.0" 302 - "-" "Pingdom.com_bot_version_1.4_(http://www.pingdom.com/)" "-" "-" 69.59.28.19 "" 36D80DE7FE52A2D89A8F53A012307B0A 15

PIG脚本�Q?br />
--注册JAR包，因�ؓ要用到DateExtractor
register '$PIGGYBANK_PATH';

--声明一个短函数�?br />DEFINE DATE_EXTRACT_MM
org.apache.pig.piggybank.evaluation.util.apachelogparser.DateExtractor('yyyy-MM');

DEFINE DATE_EXTRACT_DD
org.apache.pig.piggybank.evaluation.util.apachelogparser.DateExtractor('yyyy-MM-dd');

-- pig/input/test-pig-full.txt
--把数据从变量所指的文�g加蝲到PIG中，�q�定义数据列名，此时的数据集为数�l?a,b,c)
raw_logs = load '$INPUT' USING org.apache.pig.piggybank.storage.MyRegExLoader('^(\\S+) (\\S+) (\\S+) \\[([\\w:/]+\\s[+\\-]\\d{4})\\] "(\\S+) (\\S+) (HTTP[^"]+)" (\\S+) (\\S+) "([^"]*)" "([^"]*)" "(\\S+)" "(\\S+)" (\\S+) "(.*)" (\\S+) (\\S+)')
as (remoteAddr: chararray,
n2: chararray,
n3: chararray,
time: chararray,
method: chararray,
path:chararray,
protocol:chararray,
status: int,
bytes_string: chararray,
referrer: chararray,
browser: chararray,
n10:chararray,
remoteLogname: chararray,
remoteAddr12: chararray,
path2: chararray,
sessionid: chararray,
n15: chararray
);

--�q��o数据
filter_logs = FILTER raw_logs BY not (browser matches '.*pingdom.*');
--item_logs = FOREACH raw_logs GENERATE browser;

--percent 500 logs
--重定义数据项�Q�数据集只取2��status,month
reitem_percent_500_logs = FOREACH filter_logs GENERATE status,DATE_EXTRACT_MM(time) as month;
--分组数据集，此时的数据结构�ؓMAP(a{(aa,bb,cc),(dd,ee,ff)},b{(bb,cc,dd),(ff,gg,hh)})
group_month_percent_500_logs = GROUP reitem_percent_500_logs BY (month);
--重定义分�l�数据集数据��，�q�行分组�l�计�Q�此时要联合分组数据集和原数据集�l�计
final_month_500_logs = FOREACH group_month_percent_500_logs
{
    --对原数据集做count�Q�因为是在foreachj里做count的，即��是对原数据集�Q�也会自动会加month==group的条�?br />    --从这里可以看出对于group里的数据集，完全没用�?br />    --�q�时是以每一行�ؓ单位的，�l�计MAP中的KEY-a对应的数�l�在原数据集中的个数
    total = COUNT(reitem_percent_500_logs);
    --对原数据集做filter�Q�因为是在foreachj里做count的，即��是对原数据集�Q�也会自动会加month==group的条�?br />    --重新�q��o一下原数据集，得到status==500,month==group的数据集
    t = filter reitem_percent_500_logs by status== 500; --create a bag which contains only T values
    --重定义数据项�Q�取group�Q�统计结�?br />    generate flatten(group) as col1, 100*(double)COUNT(t)/(double)total;
}
STORE final_month_500_logs into '$OUTPUT' using PigStorage(',');

paulwong 2013-04-13 15:21 发表评论

paulwong — Wed, 10 Apr 2013 07:32:00 GMT
http://wiki.apache.org/pig/ParameterSubstitution

%pig -param input=/user/paul/sample.txt -param output=/user/paul/output/

PIG中获�?br />
records = LOAD $input;

paulwong 2013-04-10 15:32 发表评论

paulwong — Wed, 10 Apr 2013 06:13:00 GMT
http://stackoverflow.com/questions/15318785/pig-calculating-percentage-of-total-for-a-field

http://stackoverflow.com/questions/13476642/calculating-percentage-in-a-pig-query

paulwong 2013-04-10 14:13 发表评论

PIG��议

paulwong — Fri, 05 Apr 2013 13:33:00 GMT

什么是PIG
是一�U�设计语�a��Q�通过设计数据怎么��动�Q�然后由相应的引擎将此变成MAPREDUCE JOB去HADOOP中运行�?/div>
PIG与SQL
两者有相同之处�Q�执行一个或多个语句�Q�然后出来一些结果�?/div>
但不同的是，SQL要先把数据导到表中才能执行，SQL不关心中间如何做�Q�即发一个SQL语句�q�去�Q�就有结果出来�?/div>
PIG�Q�无��d��数据到表中，但要设计直到出结果的中间�q�程�Q�步骤如何等�{��?/div>

paulwong 2013-04-05 21:33 发表评论

PIG资源

paulwong — Fri, 05 Apr 2013 10:19:00 GMT
Hadoop Pig学习�W�记(一) 各种SQL在PIG中实�?br /> http://guoyunsky.iteye.com/blog/1317084

http://guoyunsky.iteye.com/category/196632

Hadoop学习�W�记(9) Pig��?br /> http://www.distream.org/?p=385

[hadoop�p�d��]Pig的安装和��单示�?br /> http://blog.csdn.net/inkfish/article/details/5205999

Hadoop and Pig for Large-Scale Web Log Analysis
http://www.devx.com/Java/Article/48063

Pig实战
http://www.cnblogs.com/xuqiang/archive/2011/06/06/2073601.html

[原创]Apache Pig中文教程�Q�进�Ӟ��
http://www.codelast.com/?p=4249

��Z��hadoop�q�_��的pig语言对apache日志�pȝ��的分�?br /> http://goodluck-wgw.iteye.com/blog/1107503

!!Pig语言
http://hi.baidu.com/cpuramdisk/item/a2980b78caacfa3d71442318

Embedding Pig In Java Programs
http://wiki.apache.org/pig/EmbeddedPig

一个pig事例(REGEX_EXTRACT_ALL, DBStorage�Q�结果存�q�数据库)
http://www.myexception.cn/database/1256233.html

Programming Pig
http://ofps.oreilly.com/titles/9781449302641/index.html

[原创]Apache Pig的一些基��概念及用法�ȝ��Q?�Q?br /> http://www.codelast.com/?p=3621

!PIG手册
http://pig.apache.org/docs/r0.11.1/func.html#built-in-functions

paulwong 2013-04-05 18:19 发表评论

paulwong — Sat, 16 Mar 2013 15:04:00 GMT
在新节点安装好hadoop

把namenode的有关配�|�文件复制到该节�?br />

修改masters和slaves文�g,增加该节�?br />

讄��ssh免密码进��节点

单独启动该节点上的datanode和tasktracker(hadoop-daemon.sh start datanode/tasktracker)

�q�行start-balancer.sh�q�行数据负蝲均衡

负蝲均衡:作用:当节点出现故�?或新增加节点�?数据块分布可能不均匀,负蝲均衡可以重新�q��各个datanode上数据块的分�?img src ="http://www.aygfsteel.com/paulwong/aggbug/396544.html" width = "1" height = "1" />

paulwong 2013-03-16 23:04 发表评论

Phoenix: HBase�l�于有SQL接口了～

paulwong — Tue, 19 Feb 2013 15:15:00 GMT
�q�项利器是由CRM领域的领导Saleforce发布的。相当于HBase的JDBC�?br />
具体详见�Q?a target="_blank">https://github.com/forcedotcom/phoenix

支持select�Q�from�Q�where�Q�groupby�Q�having�Q�orderby和徏表操作，未来��支持二�U�烦引，join操作�Q�动态列��等功能�?br />
是徏立在原生HBASE API基础上的�Q�响应时�?0M�U�别的数据是毫秒�Q?00M�U�别是秒�?br />

http://www.infoq.com/cn/news/2013/02/Phoenix-HBase-SQL

paulwong 2013-02-19 23:15 发表评论

HBASE��M��W�记-基础功能

paulwong — Wed, 06 Feb 2013 01:53:00 GMT

HBASE的SHELL命��o使用

HBASE的JAVA CLIENT的��?br />
新增和修改记录用PUT�?br />
PUT的执行流�E�：
首先会在内存中增加MEMSTORE�Q�如果这个表有N个COLOUMN FAMILY�Q�则会��生N个MEMSTORE�Q�记录中的值属于不同的COLOUMN FAMILY的，会保存到不同的MEMSTORE中。MEMSTORE中的��g��会马上FLUSH到文件中�Q�而是到MEMSTORE满的时候再FLUSH�Q�且FLUSH的时候不会写入已存在的HFILE中，而是新增一个HFILE��M��存。另外会写WRITE AHEAD LOG�Q�这是由于新增记录时不是马上写入HFILE的，如果中途出现DOWN机时�Q�则HBASE重启时会�Ҏ��q�个LOG来恢复数据�?br />
删除记录用DELETE�?br />
删除时�ƈ不会��在HFILE中的内容删除�Q�而是作一标记�Q�然后在查询的时候可以不取这些记录�?br />
��d��单条记录用GET�?br />
��d��的时候会��记录保存到CAHE中，同样如果�q�个表有N个COLOUMN FAMILY�Q�则会��生N个CAHE
�Q�记录中的值属于不同的COLOUMN FAMILY的，会保存到不同的CAHE中。这样下�ơ客��L��再取记录时会�l�合CAHE和MEMSTORE来返回数据�?br />
新增表用HADMIN�?br />
查询多条记录用SCAN和FILTER�?br />

HBASE的分布式计算

��Z��么会有分布式计算
前面的API是针对ONLINE的应用，卌��求低延时的，相当于OLTP。而针对大量数据时�q�些API��׃��适用了�?br />如要针对全表数据�q�行分析时用SCAN�Q�这样会��全表数据取回本圎ͼ�如果数据量在100G时会耗几个小�Ӟ��Z��节省旉��Q�引入多�U�程做法�Q�但要引入多�U�程�Ӟ��需遵从新算法：��全表数据分成N个段�Q�每�D는�一个线�E�处理，处理完后�Q�交�l�果合成�Q�然后进行分析�?br />
如果数据量在200G或以上时间就加倍了�Q�多�U�程的方式不能满��了�Q�因此引入多�q�程方式�Q�即��计��放在不同的物理��Z��处理�Q�这时就要考虑每个物理机DOWN机时的处理方式等情况了，HADOOP的MAPREDUCE则是�q�种分布式计��的框架了，对于应用者而言�Q�只��d��理分散和聚合的算法，其他的无��考虑�?br />
HBASE的MAPREDUCE
使用TABLEMAP和TABLEREDUCE�?br />
HBASE的部�|�架构和�l�成的组�?br />架构在HADOOP和ZOOPKEEPER之上�?br />
HBASE的查询记录和保存记录的流�E?br />说见前一�~�博文�?br />
HBASE作�ؓ数据来源地、保存地和共享数据源的处理方�?br />即相当于数据库中JOIN的算法：REDUCE SIDE JOIN、MAP SIDE JOIN�?br />

paulwong 2013-02-06 09:53 发表评论

监控HBASE

paulwong — Mon, 04 Feb 2013 07:08:00 GMT
@import url(http://www.aygfsteel.com/CuteSoft_Client/CuteEditor/Load.ashx?type=style&file=SyntaxHighlighter.css);@import url(/css/cuteeditor.css);
Hadoop/Hbase是开源版的google Bigtable, GFS, MapReduce的实玎ͼ�随着互联�|�的发展�Q�大数据的处理显得越发重要，Hadoop/Hbase的用武之��C��发�q�泛。�ؓ了更好的使用Hadoop/Hbase�pȝ��Q�需要有一套完善的监控�pȝ��Q�来了解�pȝ��q�行的实时状态，做到一切尽在掌握。Hadoop/Hbase有自己非常完善的metrics framework, 里面包种各种�l�度的系�l�指标的�l�计�Q�另外，�q�套metrics framework设计的也非常不错�Q�用户可以很方便地添加自定义的metrics。更为重要的一�Ҏ��metrics的展�C�方式，目前它支持三�U�方式：一�U�是落地到本地文�Ӟ��一�U�是report�l�Ganglia�pȝ��Q�另一�U�是通过JMX来展�C�。本文主要介�l�怎么把Hadoop/Hbase的metrics report�l�Ganglia�pȝ��Q�通过��览器来查看�?br />
介绍后面的内容之前有必要先简单介�l�一下Ganglia�pȝ��。Ganglia是一个开源的用于�pȝ��监控的系�l�，它由三部分组成：gmond, gmetad, webfrontend, 三部分是�q�样分工的：

gmond: 是一个守护进�E�，�q�行在每一个需要监��的节点上，攉��监测�l�计�Q�发送和接受在同一个组播或单播通道上的�l�计信息
gmetad: 是一个守护进�E�，定期��查gmond�Q�从那里拉取数据�Q��ƈ��他们的指标存储在RRD存储引擎�?br /> webfrontend: 安装在有gmetad�q�行的机器上�Q�以便读取RRD文�g�Q�用来做前台展示

��单�ȝ��它们三者的各自的功用，gmond攉��数据各个node上的metrics数据�Q�gmetad汇总gmond攉��到的数据�Q�webfrontend在前台展�C�gmetad汇�ȝ��数据。Ganglia�~�省是对�pȝ��的一些metric�q�行监控�Q�比如cpu/memory/net�{�。不�q�Hadoop/Hbase内部做了对Ganglia的支持，只需要简单的攚w��|�就可以��Hadoop/Hbase的metrics也接入到ganglia�pȝ��中进行监控�?br />
接下来介�l�如何把Hadoop/Hbase接入到Ganglia�pȝ��Q�这里的Hadoop/Hbase的版本号�?.94.2�Q�早期的版本可能会有一些不同，��h��意区别。Hbase本来是Hadoop下面的子��目�Q�因此所用的metrics framework原本是同一套Hadoop metrics�Q�但后面hadoop有了改进版本的metrics framework:metrics2(metrics version 2), Hadoop下面的项目都已经开始��用metrics2, 而Hbase成了Apache的顶�U�子��目�Q�和Hadoop成�ؓ�q��的项目后�Q�目前还没跟�q�metrics2�Q�它用的�q�是原始的metrics.因此�q�里需要把Hadoop和Hbase的metrics分开介绍�?br />
Hadoop接入Ganglia:

1. Hadoop metrics2对应的配�|�文件�ؓ�Q�hadoop-metrics2.properties
2. hadoop metrics2中引用了source和sink的概念，source是用来收集数据的, sink是用来把source攉��的数据consume的（包括落地文�g�Q�上报ganglia�Q�JMX�{�）
3. hadoop metrics2配置支持Ganglia:

#*.sink.ganglia.class=org.apache.hadoop.metrics2.sink.ganglia.GangliaSink30
*.sink.ganglia.class=org.apache.hadoop.metrics2.sink.ganglia.GangliaSink31

*.sink.ganglia.period=10
*.sink.ganglia.supportsparse=true
*.sink.ganglia.slope=jvm.metrics.gcCount=zero,jvm.metrics.memHeapUsedM=both
*.sink.ganglia.dmax=jvm.metrics.threadsBlocked=70,jvm.metrics.memHeapUsedM=40

#uncomment as your needs
namenode.sink.ganglia.servers=10.235.6.156:8649
#datanode.sink.ganglia.servers=10.235.6.156:8649
#jobtracker.sink.ganglia.servers=10.0.3.99:8649
#tasktracker.sink.ganglia.servers=10.0.3.99:8649
#maptask.sink.ganglia.servers=10.0.3.99:8649
#reducetask.sink.ganglia.servers=10.0.3.99:8649

�q�里需要注意的几点�Q?br />
(1) 因�ؓGanglia3.1�?.0不兼容，需要根据Ganglia的版本选择使用GangliaSink30或者GangliaSink31
(2) period配置上报周期�Q�单位是�U?s)
(3) namenode.sink.ganglia.servers指定Ganglia gmetad所在的host:port�Q�用来向其上报数�?br /> (4) 如果同一个物理机器上同时启动了多个hadoop�q�程(namenode/datanode, etc)�Q�根据需要把相应的进�E�的sink.ganglia.servers配置好即�?br /> Hbase接入Ganglia:

1. Hbase所用的hadoop metrics对应的配�|�文件是: hadoop-metrics.properties
2. hadoop metrics里核心是Context�Q�写文�g有写文�g的TimeStampingFileContext, 向Ganglia上报有GangliaContext/GangliaContext31
3. hadoop metrics配置支持Ganglia:

# Configuration of the "hbase" context for ganglia
# Pick one: Ganglia 3.0 (former) or Ganglia 3.1 (latter)
# hbase.class=org.apache.hadoop.metrics.ganglia.GangliaContext
hbase.class=org.apache.hadoop.metrics.ganglia.GangliaContext31
hbase.period=10
hbase.servers=10.235.6.156:8649

�q�里需要注意几点：

(1) 因�ؓGanglia3.1�?.0不兼容，所以如果是3.1以前的版本，需要用GangliaContext, 如果�?.1版的Ganglia�Q�需要用GangliaContext31
(2) period的单位是�U?s)�Q�通过period可以配置向Ganglia上报数据的周�?br /> (3) servers指定的是Ganglia gmetad所在的host:port�Q�把数据上报到指定的gmetad
(4) 对rpc和jvm相关的指标都可以�q�行�c�M��的配�|?/div>

paulwong 2013-02-04 15:08 发表评论

HBASE部��v要点

paulwong — Mon, 04 Feb 2013 04:10:00 GMT

REGIONS SERVER和TASK TRACKER SERVER不要在同一台机器上�Q�最好如果有MAPREDUCE JOB�q�行的话�Q�应该分开两个CLUSTER�Q�即两群不同的服务器上，�q�样MAPREDUCE 的线下负载不会媄响到SCANER�q�些�U�上负蝲�?/div>

如果主要是做MAPREDUCE JOB的话�Q�将REGIONS SERVER和TASK TRACKER SERVER攑֜�一��h��可以的�?/div>

原始集群模式

10个或以下节点�Q�无MAPREDUCE JOB�Q�主要用于低延迟的访问。每个节点上的配�|��ؓ�Q�CPU4-6CORE�Q�内�?4-32G�Q?个SATA��盘。Hadoop NameNode, JobTracker, HBase Master, 和ZooKeeper全都在同一个NODE上�?

��型集群模式�Q?0-20台服务器�Q?/span>

HBase Master攑֜�单独一台机器上, 以便于��用较低配�|�的机器。ZooKeeper也放在单独一台机器上�Q�NameNode和JobTracker攑֜�同一台机器上�?/div>

中型集群模式�Q?0-50台服务器�Q?/span>

�׃��无须再节省费用，可以��HBase Master和ZooKeeper攑֜�同一台机器上, ZooKeeper和HBase Master要三个实例。NameNode和JobTracker攑֜�同一台机器上�?/div>

大型集群模式�Q?gt;50台服务器�Q?/span>

和中型集��模式相��|��但ZooKeeper和HBase Master要五个实例。NameNode和Second NameNode要有��_��大的内存�?/div>

HADOOP MASTER节点

NameNode和Second NameNode服务器配�|�要求：�Q�小型）8CORE CPU�Q?6G内存�Q?G�|�卡和SATA ��盘�Q�中弄再增加�?6G内存�Q�大型则再增加多32G内存�?/div>

HBASE MASTER节点

服务器配�|�要求：4CORE CPU�Q?-16G内存�Q?G�|�卡�?个SATA ��盘�Q�一个用于操作系�l�，另一个用于HBASE MASTER LOGS�?/div>

HADOOP DATA NODES和HBASE REGION SERVER节点

DATA NODE和REGION SERVER应在同一台服务器上，且不应该和TASK TRACKER在一赗��服务器配置要求�Q?-12CORE CPU�Q?4-32G内存�Q?G�|�卡�?2*1TB SATA ��盘�Q�一个用于操作系�l�，另一个用于HBASE MASTER LOGS�?/div>

ZOOPKEEPERS节点

服务器配�|�和HBASE MASTER�怼��Q�也可以与HBASE MASTER攑֜�一��P��但就要多增加一个硬盘单独给ZOOPKEEPER使用�?/div>

安装各节�?/span>

JVM配置�Q?/div> -Xmx8g—讄��HEAP的最大值到8G�Q�不��讑ֈ�15 GB.
-Xms8g—讄��HEAP的最��值到8GS.
-Xmn128m—讄��新生代的值到128 MB�Q�默认值太��?br /> -XX:+UseParNewGC—讄��对于新生代的垃圾回收器类型，�q�种�c�d��是会停止JAVA�q�程�Q�然后再�q�行回收的，但由于新生代体积比较��，持箋旉��通常只有几毫�U�，因此可以接受�?br /> -XX:+UseConcMarkSweepGC—讄��老生代的垃圾回收�c�d��Q�如果用新生代的那个会不合适，即会��D��JAVA�q�程停止的时间太长，用这�U�不会停止JAVA�q�程�Q�而是在JAVA�q�程�q�行的同�Ӟ��q�行的进行回收�?br /> -XX:CMSInitiatingOccupancyFraction—讄��CMS回收器运行的频率�?br />

paulwong 2013-02-04 12:10 发表评论

Hadoop的几�U�Join�Ҏ��

paulwong — Thu, 31 Jan 2013 10:24:00 GMT
1) 在Reduce阶段�q�行Join,�q�样�q�算量比较小.(�q�个适合被Join的数据比较小的情况下.)
2) 压羃字段,�Ҏ��据预处理,�q��o不需要的字段.
3) 最后一步就是在Mapper阶段�q��o,�q�个��是Bloom Filter的用武之��C��.也就是需要详�l�说明的地方.

下面��拿一个我们大安��熟悉的场景来说明�q�个问题: 扑և�上个月动感地带的客户资费的��用情�?包括接入和拨�?

(�q�个只是我臆惛_��来的例子,�Ҏ��实际的DB数据存储�l�构,在这个场景下肯定有更好的解决�Ҏ��,大家不要太较真哦)

�q�个时候的两个个数据集都是比较大的,�q�两个数据集分别�?上个月的通话记录,动感地带的手机号码列�?

比较直接的处理方法有2�U?

1)�?Reduce 阶段,通过动感地带��L��来过�?

优点:�q�样需要处理的数据相对比较��?�q�个也是比较常用的方�?

�~�点:很多数据在Mapper阶段�׃��老��E子力气汇��M��,�q�通过�|�络Shuffle到Reduce节点,�l�果到这个阶�D늻��q��o�?

2)�?Mapper 阶段�?通过动感地带��L��来过滤数�?

优点:�q�样可以�q��o很多不是动感地带的数�?比如��州�?全球�?�q�些�q��o的数据就可以节省很多�|�络带宽�?

�~�点:��是动感地带的号码不是小数目,如果�q�样处理��需要把�q�个大块头复制到所有的Mapper节点,甚至是Distributed Cache.(Bloom Filter��是用来解决�q�个问题�?

Bloom Filter��是用来解决上面�Ҏ��2的缺点的.

�Ҏ��2的缺点就是大量的数据需要在多个节点复制.Bloom Filter通过多个Hash��法, 把这个号码列表压�~�到了一个Bitmap里面. 通过允许一定的错误率来换空�? �q�个和我们��^时经常提到的旉��和空间的互换�c�M��.详细情况可以参�?

http://blog.csdn.net/jiaomeng/article/details/1495500

但是�q�个��法也是有缺��L��,��是会把很多��州�?全球通之�cȝ��L��当成动感地带.但在�q�个场景�?�q�根本不是问�?因�ؓ�q�个��法只是�q��o一些号�?漏网之鱼会在Reduce阶段�q�行�_��匚w��旉��虑掉.

�q�个�Ҏ��改进之后基本上完全回避了�Ҏ��2的缺�?

1) 没有大量的动感地带号码发送到所有的Mapper节点.
2) 很多非动感地带号码在Mapper阶段��p��滤了(虽然不是100%),避免了网�l�带宽的开销及�g�?

�l�箋需要学习的地方:Bitmap的大��? Hash函数的多��? 以及存储的数据的多少. �q?个变量如何取值才能才能在存储�I�间与错误率之间取得一个��^�?

paulwong 2013-01-31 18:24 发表评论

配置secondarynamenode

paulwong — Thu, 31 Jan 2013 09:39:00 GMT
NAME NODE起保存DATA NODE上文件的位置信息用，主要有两个保存文�Ӟ��FsImage和EditLog�Q�FsImage保存了上一�ơNAME NODE启动时的状态，EditLog则记录每�ơ成功后的对HDFS的操作行为。当NAME NODE重启�Ӟ��会合�q�FsImage和EditLog成�ؓ一个新的FsImage�Q�清�I�EditLog�Q�如果EditLog非常大的时候，则NAME NODE启动的时间会非常�ѝ��因此就有SECOND NAME NODE�?br />

SECOND NAME NODE会以HTTP的方式向NAME NODE要这两个文�g�Q�当NAME NODE收到��h��Ӟ��׃��韦一个新的EditLog来记录，�q�时SECOND NAME NODE��׃��取得的�q�两个文件合�qӞ��成一个新的FsImage�Q�再发给NAME NODE�Q�NAME NODE收到后，��׃��以这个�ؓ准，旧的��׃��归档不用�?br />

SECOND NAME NODE�q�有一个用途就是当NAME NODE DOWN了的时候，可以改SECOND NAME NODE的IP为NAME NODE所用的IP�Q�当NAME NODE用�?br />
secondary namenoded 配置很容易被忽视�Q�如果jps��查都正常�Q�大安��常不会太关心，除非namenode发生问题的时候，才会惌��v�q�有个secondary namenode�Q�它的配�|�共两步�Q?br />

集群配置文�gconf/master中添加secondarynamenode的机�?/li>
修改/��d�� hdfs-site.xml中如下属性：

<property>
<name>dfs.http.addressname>
<value>{your_namenode_ip}:50070value>
<description>
The address and the base port where the dfs namenode web ui will listen on.
If the port is 0 then the server will start on a free port.
description>
property>

�q�两��w��|�OK后，启动集群。进入secondary namenode 机器�Q�检查fs.checkpoint.dir�Q�core-site.xml文�g�Q�默认�ؓ${hadoop.tmp.dir}/dfs/namesecondary�Q�目录同步状态是否和namenode一致的�?br />
如果不配�|�第二项则，secondary namenode同步文�g�Ҏ��q��ؓ�I�，�q�时查看secondary namenode的log昄��错误为：

2011-06-09 11:06:41,430 INFO org.apache.hadoop.hdfs.server.common.Storage: Recovering storage directory /tmp/hadoop-hadoop/dfs/namesecondary from failed checkpoint.
2011-06-09 11:06:41,433 ERROR org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode: Exception in doCheckpoint:
2011-06-09 11:06:41,434 ERROR org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode: java.net.ConnectException: Connection refused
at java.net.PlainSocketImpl.socketConnect(Native Method)
at java.net.PlainSocketImpl.doConnect(PlainSocketImpl.java:351)
at java.net.PlainSocketImpl.connectToAddress(PlainSocketImpl.java:211)
at java.net.PlainSocketImpl.connect(PlainSocketImpl.java:200)
at java.net.SocksSocketImpl.connect(SocksSocketImpl.java:366)
at java.net.Socket.connect(Socket.java:529)
at java.net.Socket.connect(Socket.java:478)
at sun.net.NetworkClient.doConnect(NetworkClient.java:163)
at sun.net.www.http.HttpClient.openServer(HttpClient.java:394)
at sun.net.www.http.HttpClient.openServer(HttpClient.java:529)
at sun.net.www.http.HttpClient.(HttpClient.java:233)
at sun.net.www.http.HttpClient.New(HttpClient.java:306)
at sun.net.www.http.HttpClient.New(HttpClient.java:323)
at sun.net.www.protocol.http.HttpURLConnection.getNewHttpClient(HttpURLConnection.java:970)
at sun.net.www.protocol.http.HttpURLConnection.plainConnect(HttpURLConnection.java:911)
at sun.net.www.protocol.http.HttpURLConnection.connect(HttpURLConnection.java:836)
at sun.net.www.protocol.http.HttpURLConnection.getInputStream(HttpURLConnection.java:1172)
at org.apache.hadoop.hdfs.server.namenode.TransferFsImage.getFileClient(TransferFsImage.java:151)
at org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode.downloadCheckpointFiles(SecondaryNameNode.java:256)
at org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode.doCheckpoint(SecondaryNameNode.java:313)
at org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode.run(SecondaryNameNode.java:225)
at java.lang.Thread.run(Thread.java:662)

可能用到的core-site.xml文�g相关属�?/span>�Q?br />
<property>
<name>fs.checkpoint.periodname>
<value>300value>
<description>The number of seconds between two periodic checkpoints.
description>
property>

<property>
<name>fs.checkpoint.dirname>
<value>${hadoop.tmp.dir}/dfs/namesecondaryvalue>
<description>Determines where on the local filesystem the DFS secondary
name node should store the temporary images to merge.
If this is a comma-delimited list of directories then the image is
replicated in all of the directories for redundancy.
description>
property>

paulwong 2013-01-31 17:39 发表评论

配置Hadoop M/R 采用Fair Scheduler��法代替FIFO

paulwong — Thu, 31 Jan 2013 09:30:00 GMT
采用Cloudera版本的hadoop/hbase:

hadoop-0.20.2-cdh3u0

hbase-0.90.1-cdh3u0

zookeeper-3.3.3-cdh3u0

默认已支持FairScheduler调度��法.

只需攚w��|��期用FairSchedule而非默认的JobQueueTaskScheduler卛_��.

配置fair-scheduler.xml (/$HADOOP_HOME/conf/):

xml version="1.0"?>
<property>
    <name>mapred.fairscheduler.allocation.filename>
    <value>[HADOOP_HOME]/conf/fair-scheduler.xmlvalue>
property>
<allocations>
    <pool name="qiji-task-pool">
        <minMaps>5minMaps>
        <minReduces>5minReduces>
        <maxRunningJobs>
            <maxRunningJobs>5maxRunningJobs>
            <minSharePreemptionTimeout>300minSharePreemptionTimeout>
            <weight>1.0weight>
    pool>
    <user name="ecap">
        <maxRunningJobs>
            <maxRunningJobs>6maxRunningJobs>
    user>
    <poolMaxJobsDefault>10poolMaxJobsDefault>
    <userMaxJobsDefault>8userMaxJobsDefault>
    <defaultMinSharePreemptionTimeout>600
    defaultMinSharePreemptionTimeout>
    <fairSharePreemptionTimeout>600fairSharePreemptionTimeout>
allocations>

配置$HADOOP_HOME/conf/mapred-site.xml,最后添�?

<property>
    <name>mapred.jobtracker.taskSchedulername>
    <value>org.apache.hadoop.mapred.FairSchedulervalue>
property>
<property>
    <name>mapred.fairscheduler.allocation.filename>
    <value>/opt/hadoop/conf/fair-scheduler.xmlvalue>
property>
<property>
    <name>mapred.fairscheduler.assignmultiplename>
    <value>truevalue>
property>
<property>
    <name>mapred.fairscheduler.sizebasedweightname>
    <value>truevalue>
property>

然后重新�q�行集群,�q�样有几个Job(上面配置�?个�ƈ�?�q�行�q�行�?不会因�ؓ一个Job把Map/Reduce占满而��其它Job处于Pending状�?

可从: http://:50030/scheduler查看�q�行�q�行的状�?

paulwong 2013-01-31 17:30 发表评论

paulwong — Thu, 31 Jan 2013 05:55:00 GMT
挺有意思的题目�?br />

1. �l�你A,B两个文�g�Q�各存放50亿条URL�Q�每条URL占用64字节�Q�内存限制是4G�Q�让你找�?A,B文�g共同的URL�?/strong>
解法一�Q�Hash成内存大��的��块文�g�Q�然后分块内存内查交集�?br />解法二：Bloom Filter�Q�广泛应用于URL�q��o、查重。参考http://en.wikipedia.org/wiki/Bloom_filter、http://blog.csdn.net/jiaomeng/archive/2007/01/28/1496329.aspx�Q?br />

2. �?0个文�Ӟ��每个文�g1G�Q?每个文�g的每一行都存放的是用户的query�Q�每个文件的query都可能重复。要你按照query的频度排序�?/strong>
解法一�Q�根据数据稀疏程度算法会有不同，通用�Ҏ��是用Hash把文仉��排，让相同query一定会在同一个文�Ӟ��同时�q�行计数�Q�然后归�qӞ��用最��堆来统计频度最大的�?br />解法二：�c�M��1�Q�但是用的是与简单Bloom Filter�E�有不同的CBF�Q�Counting Bloom Filter�Q�或者更�q�一步的SBF�Q�Spectral Bloom Filter�Q�参考http://blog.csdn.net/jiaomeng/archive/2007/03/19/1534238.aspx�Q?br />解法三：MapReduce�Q�几分钟可以在hadoop集群上搞定。参考http://en.wikipedia.org/wiki/MapReduce

3. 有一�?G大小的一个文�Ӟ��里面每一行是一个词�Q�词的大��不��过16个字节，内存限制大小�?M。返回频数最高的100个词�?/strong>
解法一�Q�跟2�c�M��Q�只是不需要排序，各个文�g分别�l�计�?00�Q�然后一��h��?00�?img src ="http://www.aygfsteel.com/paulwong/aggbug/394980.html" width = "1" height = "1" />

paulwong 2013-01-31 13:55 发表评论

Cassandra VS. HBase 全文zz

paulwong — Tue, 29 Jan 2013 16:22:00 GMT

摘取了一部分�Q�全文请查看
http://blog.sina.com.cn/s/blog_633f4ab20100r9nm.html
背景
“�q�是最好的时代�Q�也是最坏的时代�?#8221;
每个时代的�h都在�q�么形容自己所处的时代。在一�ơ次IT��潮下面�Q�有��得当下乏��x��聊，有�h却能锐意�q�取�Q�找到突破。数据存储这个话题自从有了计��机之后�Q�就一直是一个有��或者无聊的主题。上世纪七十�q�代�Q�关�p�L��据库理论的出玎ͼ�造就了一批又一批传奇，�q�推动整个世界信息化��C��一个新的高度。而进入新千年以来�Q�随着SNS�{�应用的出现�Q�传�l�的SQL数据库已�l�越来越不适应��量数据的处理了。于是，�q�几�q�NoSQL数据库的呼声也越来越高�?/p>
在NoSQL数据库当中，呼声最高的是HBase和Cassandra两个。虽然严格意义上来说�Q�两者服务的目的有所不同�Q�侧重点也不��相同，但是作�ؓ当前开源NoSQL数据库的��g��者，两者经常被用来做各�U�比较�?/p>
��d��十月�Q�Facebook推出了他的新的Message�pȝ��。Facebook宣布他们采用HBase作�ؓ后台存储�pȝ��。这引�v了一片喧哗声。因为Cassandra恰恰是Facebook开发，�q�且�?008�q�开源。这让很多�h惊呼�Q�是否是Cassandra已经被Facebook攑ּ�了？HBase在这场NoSQL数据库的角力当中取得了决定性的胜利�Q�本文打��主要从技术角度分析，HBase和Cassandra的异同，�q��要给��Z�Q何结论，只是�׃�n自己研究的一些结果�?/p>

选手��?/strong>
HBase
HBase是一个开源的分布式存储系�l�。他可以看作是Google的Bigtable的开源实现。如同Google的Bigtable使用Google File System一��P��HBase构徏于和Google File System�c�M��的Hadoop HDFS之上�?/p>
Cassandra
Cassandra可以看作是Amazon Dynamo的开源实现。和Dynamo不同之处在于�Q�Cassandra�l�合了Google Bigtable的ColumnFamily的数据模型。可以简单地认�ؓ�Q�Cassandra是一个P2P的，高可靠性�ƈ��h��丰富的数据模型的分布式文件系�l��?/p>
分布式文件系�l�的指标
�Ҏ��UC Berkeley的教授Eric Brewer�?000�q�提出猜��? CAP定理�Q�一个分布式计算机系�l�，不可能同时满��以下三个指标：
Consistency 所有节点在同一时刻保持同一状态Availability 某个节点��p�|�Q�不会媄响系�l�的正常�q�行Partition tolerance �pȝ��可以因�ؓ�|�络故障�{�原因被分裂成小的子�pȝ��Q�而不影响�pȝ��的运�?p style="margin: 0px; padding: 0px;">
Brewer教授推测�Q��Q何一个系�l�，同时只能满��以上两个指标�?/p>
�?002�q�_��MIT的Seth Gilbert和Nancy Lynch发表正式论文��了CAP定理�?/p>

而HBase和Cassandra两者都属于分布式计��机�pȝ��。但是其设计的侧重点则有所不同。HBase�l�承于Bigtable的设计，侧重于CA。而Cassandra则��承于Dynamo的设计，侧重于AP�?/p>
。。。。。。。。。。。。。。。。。。�?p style="margin: 0px; padding: 0px;">
�Ҏ��比�?/strong>
�׃��HBase和Cassandra的数据模型比较接�q�，所以这里就不再比较两者之间数据模型的异同了。接下来主要比较双方在数据一致性、多拯��复制的特性�?/p>
HBase
HBase保证写入的一致性。当一份数据被要求复制N份的时候，只有N份数据都被真正复制到N台服务器上之后，客户端才会成功返回。如果在复制�q�程中出现失败，所有的复制都将��p�|。连接上��M��一台服务器的客��L��都无法看到被复制的数据。HBase提供行锁�Q�但是不提供多行锁和事务。HBase��Z��HDFS�Q�因此数据的多䆾复制功能和可靠性将由HDFS提供。HBase和MapReduce天然集成�?/p>
Cassandra
写入的时候，有多�U�模式可以选择。当一份数据模式被要求复制N份的时候，可以立即�q�回�Q�可以成功复制到一个服务器之后�q�回�Q�可以等到全部复制到N份服务器之后�q�回�Q�还可以讑֮�一个复制到quorum份服务器之后�q�回。Quorum后面会有具体解释。复制不会失败。最�l�所有节�Ҏ��据都��被写入。而在未被完全写入的时间间隙，�q�接��C��同服务器的客��L��有可能读��C��同的数据。在集群里面�Q�所有的服务器都是等��L��。不存在��M��一个单�Ҏ��障。节点和节点之间通过Gossip协议互相通信。写入顺序按照timestamp排序�Q�不提供行锁。新版本的Cassandra已经集成了MapReduce了�?/p>
相对于配�|�Cassandra�Q�配�|�HBase是一个艰辛、复杂充满陷��q��工作。Facebook关于��Z��采取HBase�Q�里面有一句，大意是，Facebook长期以来一直关注HBase的开发�ƈ且有一只专门的�l�验丰富的HBase�l�护的team来负责HBase的安装和�l�护。可以想象，Facebook内部关于使用HBase和Cassandra有过�Ȁ烈的斗争�Q�最�l��h数更多的HBase team占据了上风。对于大公司来说�Q�养一只相对庞大的�c�M��DBA的team来维护HBase不算什么大的开销�Q�但是对于小公司�Q�这实在不是一个可以负担的��L��开销�?/p>
另外HBase在高可靠性上有一个很大的�~�陷�Q�就是HBase依赖HDFS。HDFS是Google File System的复制品�Q�NameNode是HDFS的单�Ҏ��障点。而到目前为止�Q�HDFS�q�没有加入NameNode的自我恢复功能。不�q�我�怿��Q�Facebook在内部一定有恢复NameNode的手�D�，只是没有开源出来而已�?/p>
相反�Q�Cassandra的P2P和去中心化设计，没有可能出现单点故障。从设计上来看，Cassandra比HBase更加可靠�?/p>
关于数据一致性，实际上，Cassandra也可以以牺牲响应旉��的代��h��获得和HBase一��L��一致性。而且�Q�通过对Quorum的合适的讄��Q�可以在响应旉��和数据一致性得��C��个很好的折衷倹{�?/strong>
Cassandra优缺�?p style="margin: 0px; padding: 0px;">主要表现在：
配置��单，不需要多模块协同操作。功能灵�z�L��强�Q�数据一致性和性能之间�Q�可以根据应用不同而做不同的设�|��?nbsp;可靠性更强，没有单点故障�?/p>
��管如此�Q�Cassandra��没有弱点吗�Q�当然不是，Cassandra有一个致命的��q��?/p>
�q�就是存储大文�g。虽然说�Q�Cassandra的设计初衷就不是存储大文�Ӟ��但是Amazon的S3实际上就是基于Dynamo构徏的，��L��会让人想入非非地让Cassandra��d��储超大文件。而和Cassandra不同�Q�HBase��Z��HDFS�Q�HDFS的设计初衷就是存储超大规模文件�ƈ且提供最大吞吐量和最可靠的可讉K��性。因此，从这一�Ҏ��_��Cassandra�׃��背后不是一个类似HDFS的超大文件存储的文�g�pȝ��Q�对于存储那�U�巨大的�Q�几百T甚至P�Q�的��大文�g目前是无能�ؓ力的。而且��q��由Client手工��d��Ԍ��q�实际上是非�怸�明智和消耗Client CPU的工作的�?/p>
因此�Q�如果我们要构徏一个类似Google的搜索引擎，最��，HDFS是我们所必不可少的。虽然目前HDFS的NameNode�q�是一个单�Ҏ��障点�Q�但是相应的Hack可以让NameNode变得更皮实。基于HDFS的HBase相应圎ͼ�也更适合做搜索引擎的背后倒排索引数据库。事实上�Q�Lucene和HBase的结合，�q�比Lucene�l�合Cassandra的项目Lucandra要顺畅和高效的多。（Lucandra要求Cassandra使用OrderPreservingPartitioner,�q�将可能��D��Key的分布不均匀�Q�而无法做负蝲均衡�Q��生访问热�Ҏ��器）�?/p>

所以我的结论是�Q�在�q�个需求多样化的年代，没有赢者通吃的事情。而且我也��来��不�怿�在工�E�界存在一��x��逸和一成不变的解决�Ҏ��?strong>当你仅仅是存储�v量增长的消息数据�Q�存储�v量增长的囄��Q�小视频的时候，你要求数据不能丢失，你要求�h工维护尽可能��，你要求能�q�速通过��d��机器扩充存储�Q�那么毫无疑问，Cassandra现在是占据上风的�?/strong>
但是如果你希望构��Z��个超大规模的搜烦引擎�Q��生超大规模的倒排索引文�g�Q�当然是逻辑上的文�g�Q�真实文件实际上被切分存储于不同的节点上�Q�，那么目前HDFS+HBase是你的首选�?/strong>
��p��q�个看�v来永�q�正��的�l�论�l�尾吧，上帝的归上帝�Q�凯撒的归凯撒。大安��有自��q��地盘�Q�野癑֐�也会有春天的�Q?/p>

paulwong 2013-01-30 00:22 发表评论

NOSQL之旅---HBase(�?

paulwong — Tue, 29 Jan 2013 15:50:00 GMT
http://www.jdon.com/38244

最�q�因为项目原因，研究了Cassandra,Hbase�{�几个NoSQL数据库，最�l�决定采用HBase。在�q�里�Q�我��向大家分��n一下自己对HBase的理解�?br />
在说HBase之前�Q�我惛_��唠叨几句。做互联�|�应用的哥们儿应该都清楚�Q�互联网应用�q�东西，你没办法预测你的�pȝ��什么时候会被多��h讉K��Q�你面��的用户到底有多少�Q�说不定今天你的用户�q�少�Q�明天系�l�用户就变多了，�l�果您的�pȝ��应付不过来了了，不干了，�q�岂不是咱哥几个的悲哀�Q�说旉��点就�?#8220;杯具�?#8221;�?br />
其实说白了，�q�些��是事先没有认清楚互联网应用什么才是最重要的。从�pȝ��架构的角度来��_��互联�|�应用更加看重系�l�性能以及伸羃性，而传�l�企业��应用都是比较看重数据完整性和数据安全性。那么我们就来说说互联网应用伸羃性这事儿.对于伸羃性这事儿�Q�哥们儿我也写了几篇博文�Q�想看的兄弟可以参考我以前的博文，对于web server,app server的�׾~�性，我在�q�里先不说了�Q�因��部分的�׾~�性相�Ҏ��说比较容易一点，我主要来回顾一些一个慢慢变大的互联�|�应用如何应�Ҏ��据库�q�一层的伸羃�?br />
首先刚开始，��Z��多，压力也不�?搞一台数据库服务器就搞定了，此时所有的东东都塞�q�一个Server里，包括web server,app server,db server,但是随着��来越多，�pȝ��压力��来��多�Q�这个时候可能你把web server,app server和db server分离了，好歹�q�样可以应付一阵子�Q�但是随着用户量的不断增加�Q�你会发玎ͼ�数据库这哥们不行了，速度老慢了，有时候还会宕掉，所以这个时候，你得�l�数据库�q�哥们找几个��_��q�个时候Master-Salve��出��C��Q�这个时候有一个Master Server专门负责接收写操作，另外的几个Salve Server专门�q�行��d��Q�这样Master�q�哥们终于不抱怨了�Q��ȝ��d��分离了，压力�ȝ��ȝ��?�q�个时候其实主要是对读取操作进行了水��^扩张�Q�通过增加多个Salve来克服查询时CPU瓉��。一般这样下来，你的�pȝ��可以应付一定的压力�Q�但是随着用户数量的增多，压力的不断增加，你会发现Master server�q�哥们的写压力还是变的太大，没办法，�q�个时候怎么办呢�Q�你��得切分啊，俗话�?#8220;只有切分了，才会有�׾~�性嘛”�Q�所以啊�Q�这个时候只能分库了�Q�这也是我们常说的数据库“垂直切分”�Q�比如将一些不兌��的数据存攑ֈ�不同的库中，分开部��v�Q�这��L��于可以带��C��部分的读取和写入压力了，Master又可以轻松一点了�Q�但是随着数据的不断增多，你的数据库表中的数据又变的非常的大，�q�样查询效率非常低，�q�个时候就需要进�?#8220;水��^分区”了，比如通过��User表中的数据按�?0W来划分，�q�样每张表不会超�q?0W了�?br />
�l�g��所�q�ͼ�一般一个流行的web站点都会�l�历一个从单台DB�Q�到��M��复制�Q�到垂直分区再到水��^分区的痛苦的�q�程。其实数据库切分�q�事儿，看�v来原理貌似很��单，如果真正做�v来，我想凡是sharding�q�数据库的哥们儿都深受其苦啊。对于数据库伸羃的文章，哥们儿可以看看后面的参考资料介�l��?br />
好了�Q�从上面的那一堆废话中�Q�我们也发现数据库存储水�q�x��张scale out是多么痛苦的一件事情，不过�q�好技术在�q�步�Q�业界的其它弟兄也在努力�Q?9�q�这一�q�出��C��非常多的NoSQL数据库，更准��的应该说是No relation数据库，�q�些数据库多数都会对非结构化的数据提供透明的水�q�x��张能力，大大减轻了哥们儿设计时候的压力。下面我��拿Hbase�q�分布式列存储系�l�来说说�?br />
一 Hbase是个啥东东？
在说Hase是个啥家伙之前，首先我们来看看两个概念，面向行存储和面向列存储。面向行存储�Q�我�怿�大伙儿应该都清楚�Q�我们熟悉的RDBMS��是此种�c�d��的，面向行存储的数据库主要适合于事务性要求严格场合，或者说面向行存储的存储�pȝ��适合OLTP�Q�但是根据CAP理论�Q�传�l�的RDBMS�Q��ؓ了实现强一致性，通过严格的ACID事务来进行同步，�q�就造成了系�l�的可用性和伸羃性方面大大折扣，而目前的很多NoSQL产品�Q�包括Hbase�Q�它们都是一�U�最�l�一致性的�pȝ��Q�它们�ؓ了高的可用性牺牲了一部分的一致性。好像，我上面说了面向列存储�Q�那么到底什么是面向列存储呢�Q�Hbase,Casandra,Bigtable都属于面向列存储的分布式存储�pȝ��。看到这里，如果您不明白Hbase是个啥东东，不要紧，我再�ȝ��一下下�Q?br />
Hbase是一个面向列存储的分布式存储�pȝ��Q�它的优点在于可以实现高性能的�ƈ发读写操作，同时Hbase�q�会�Ҏ��据进行透明的切分，�q�样��׃��得存储本�w�具有了水��^伸羃性�?br />

�?Hbase数据模型
HBase,Cassandra的数据模型非常类��|��他们的思想都是来源于Google的Bigtable�Q�因此这三者的数据模型非常�c�M��Q�唯一不同的就是Cassandra��h��Super cloumn family的概念，而Hbase目前我没发现。好了，废话��说�Q�我们来看看Hbase的数据模型到底是个啥东东�?br />
在Hbase里面有以下两个主要的概念�Q�Row key,Column Family�Q�我们首先来看看Column family,Column family中文又名“列族”�Q�Column family是在�pȝ��启动之前预先定义好的�Q�每一个Column Family都可以根�?#8220;限定�W?#8221;有多个column.下面我们来�D个例子就会非常的清晰了�?br />
假如�pȝ��中有一个User表，如果按照传统的RDBMS的话�Q�User表中的列是固定的�Q�比如schema 定义了name,age,sex�{�属性，User的属性是不能动态增加的。但是如果采用列存储�pȝ��Q�比如Hbase�Q�那么我们可以定义User表，然后定义info 列族�Q�User的数据可以分为：info:name = zhangsan,info:age=30,info:sex=male�{�，如果后来你又惛_��加另外的属性，�q�样很方便只需要info:newProperty��可以了�?br />
也许前面的这个例子还不够清晰�Q�我们再举个例子来解释一下，熟悉SNS的朋友，应该都知道有好友Feed�Q�一般设计Feed�Q�我们都是按�?#8220;某�h在某时做了标题�ؓ某某的事�?#8221;�Q�但是同时一般我们也会预留一下关键字�Q�比如有时候feed也许需要url�Q�feed需要image属性等�Q�这��h��_��feed本��n的属性是不确定的�Q�因此如果采用传�l�的关系数据库将非常�ȝ��Q�况且关�p�L��据库会造成一些�ؓnull的单元浪费，而列存储��׃��会出现这个问题，在Hbase里，如果每一个column 单元没有��|��那么是占用空间的。下面我们通过两张图来形象的表�C��U�关�p�：

上图是传�l�的RDBMS设计的Feed表，我们可以看出feed有多��列是固定的�Q�不能增加，�q�且为null的列��费了空间。但是我们再看看下图�Q�下图�ؓHbase�Q�Cassandra,Bigtable的数据模型图�Q�从下图可以看出�Q�Feed表的列可以动态的增加�Q��ƈ且�ؓ�I�的列是不存储的�Q�这��大大节�U�了�I�间�Q�关键是Feed�q�东襉K��着�pȝ��的运行，各种各样的Feed会出玎ͼ�我们事先没办法预��有多少�U�Feed�Q�那么我们也��没有办法确定Feed表有多少列，因此Hbase,Cassandra,Bigtable的基于列存储的数据模型就非常适合此场景。说到这里，采用Hbase的这�U�方式，�q�有一个非帔R��要的好处��是Feed会自动切分，当Feed表中的数据超�q�某一个阀��g��后，Hbase会自动�ؓ我们切分数据�Q�这��L��话，查询��具有了伸羃性，而再加上Hbase的弱事务性的�Ҏ��，对Hbase的写入操作也��变得非常快�?br />

上面说了Column family�Q�那么我之前说的Row key是啥东东�Q�其实你可以理解row key为RDBMS中的某一个行的主键，但是因�ؓHbase不支持条件查询以及Order by�{�查询，因此Row key的设计就要根据你�pȝ��的查询需求来设计了额。我�q�拿刚才那个Feed的列子来��_��我们一般是查询某个人最新的一些Feed�Q�因此我们Feed的Row key可以有以下三个部分构�?lt;userId>�Q�这样以来当我们要查询某个�h的最�q�的Feed��可以指定Start Rowkey�?lt;userId><0><0>�Q�End Rowkey�?lt;userId>来查询了�Q�同时因为Hbase中的记录是按照rowkey来排序的�Q�这样就使得查询变得非常快�?br />

�?Hbase的优�~�点
1 列的可以动态增加，�q�且列�ؓ�I�就不存储数�?节省存储�I�间.

2 Hbase自动切分数据�Q��得数据存储自动具有水�q�scalability.

3 Hbase可以提供高�ƈ发读写操作的支持

Hbase的缺点：

1 不能支持条�g查询�Q�只支持按照Row key来查�?

2 暂时不能支持Master server的故障切�?当Master宕机�?整个存储�pȝ��׃��挂掉.

关于数据库�׾~�性的一点资料：
http://www.jurriaanpersyn.com/archives/2009/02/12/database-sharding-at-netlog-with-mysql-and-php/

http://adam.blog.heroku.com/past/2009/7/6/sql_databases_dont_scale/

paulwong 2013-01-29 23:50 发表评论

MAPREDUCE�q�行原理

paulwong — Tue, 29 Jan 2013 04:54:00 GMT

��INPUT通过SPLIT成M个MAP��d��

JOB TRACKER��这M个�Q务分�z��TASK TRACKER执行

TASK TRACKER执行完MAP��d��后，会在本地生成文�g�Q�然后通知JOB TRACKER

JOB TRACKER收到通知后，��此��d��标记为已完成�Q�如果收到失败的消息�Q�会��此��d��重置为原始状态，再分�z��另一TASK TRACKER执行

当所有的MAP��d��完成后，JOB TRACKER��MAP执行后生成的LIST重新整理�Q�整合相同的KEY�Q�根据KEY的数量生成R个REDUCE��d��Q�再分派�l�TASK TRACKER执行

TASK TRACKER执行完REDUCE��d��后，会在HDFS生成文�g�Q�然后通知JOB TRACKER

JOB TRACKER�{�到所有的REDUCE��d��执行完后�Q�进行合�qӞ��产生最后结果，通知CLIENT

TASK TRACKER执行完MAP��d��Ӟ��可以重新生成新的KEY VALUE对，从而媄响REDUCE个数

paulwong 2013-01-29 12:54 发表评论

paulwong — Mon, 28 Jan 2013 16:19:00 GMT

假设�q�程HADOOP��L��名�ؓubuntu�Q�则应在hosts文�g中加�?92.168.58.130 ubuntu

新徏MAVEN��目�Q�加上相应的配置
pom.xml

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
  xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
  <modelVersion>4.0.0modelVersion>

  <groupId>com.cloudputinggroupId>
  <artifactId>bigdataartifactId>
  <version>1.0version>
  <packaging>jarpackaging>

  <name>bigdataname>
  <url>http://maven.apache.orgurl>

  <properties>
    <project.build.sourceEncoding>UTF-8project.build.sourceEncoding>
  properties>

    <dependencies>
        <dependency>
            <groupId>junitgroupId>
            <artifactId>junitartifactId>
            <version>3.8.1version>
            <scope>testscope>
        dependency>
        <dependency>
            <groupId>org.springframework.datagroupId>
            <artifactId>spring-data-hadoopartifactId>
            <version>0.9.0.RELEASEversion>
        dependency>
        <dependency>
            <groupId>org.apache.hbasegroupId>
            <artifactId>hbaseartifactId>
            <version>0.94.1version>
        dependency>


        <dependency>
            <groupId>org.apache.hadoopgroupId>
            <artifactId>hadoop-coreartifactId>
            <version>1.0.3version>
        dependency>
        <dependency>
            <groupId>org.springframeworkgroupId>
            <artifactId>spring-testartifactId>
            <version>3.0.5.RELEASEversion>
        dependency>
    dependencies>
project>

hbase-site.xml

xml version="1.0"?>
xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>

    <property>
        <name>hbase.rootdirname>
        <value>hdfs://ubuntu:9000/hbasevalue>
    property>


    <property>
        <name>mapred.job.trackername>
        <value>ubuntu:9001value>
    property>

    <property>
        <name>hbase.cluster.distributedname>
        <value>truevalue>
    property>


    <property>
        <name>hbase.zookeeper.quorumname>
        <value>ubuntuvalue>
    property>
    <property skipInDoc="true">
        <name>hbase.defaults.for.versionname>
        <value>0.94.1value>
    property>

configuration>

��试文�g�Q�MapreduceTest.java

package com.cloudputing.mapreduce;

import java.io.IOException;

import junit.framework.TestCase;

public class MapreduceTest extends TestCase{

    public void testReadJob() throws IOException, InterruptedException, ClassNotFoundException
    {
        MapreduceRead.read();
    }

}

MapreduceRead.java

package com.cloudputing.mapreduce;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.client.Scan;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;
import org.apache.hadoop.hbase.mapreduce.TableMapper;
import org.apache.hadoop.hbase.util.Bytes;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.output.NullOutputFormat;

public class MapreduceRead {

    public static void read() throws IOException, InterruptedException, ClassNotFoundException
    {
        // Add these statements. XXX
//        File jarFile = EJob.createTempJar("target/classes");
//        EJob.addClasspath("D:/PAUL/WORK/WORK-SPACES/TEST1/cloudputing/src/main/resources");
//        ClassLoader classLoader = EJob.getClassLoader();
//        Thread.currentThread().setContextClassLoader(classLoader);

        Configuration config = HBaseConfiguration.create();
        addTmpJar("file:/D:/PAUL/WORK/WORK-SPACES/TEST1/cloudputing/target/bigdata-1.0.jar",config);

        Job job = new Job(config, "ExampleRead");
        // And add this statement. XXX
//        ((JobConf) job.getConfiguration()).setJar(jarFile.toString());

//        TableMapReduceUtil.addDependencyJars(job);
//        TableMapReduceUtil.addDependencyJars(job.getConfiguration(),
//                MapreduceRead.class,MyMapper.class);

        job.setJarByClass(MapreduceRead.class);     // class that contains mapper

        Scan scan = new Scan();
        scan.setCaching(500);        // 1 is the default in Scan, which will be bad for MapReduce jobs
        scan.setCacheBlocks(false);  // don't set to true for MR jobs
        // set other scan attrs

        TableMapReduceUtil.initTableMapperJob(
                "wiki",        // input HBase table name
                scan,             // Scan instance to control CF and attribute selection
                MapreduceRead.MyMapper.class,   // mapper
                null,             // mapper output key
                null,             // mapper output value
                job);
        job.setOutputFormatClass(NullOutputFormat.class);   // because we aren't emitting anything from mapper

//        DistributedCache.addFileToClassPath(new Path("hdfs://node.tracker1:9000/user/root/lib/stat-analysis-mapred-1.0-SNAPSHOT.jar"),job.getConfiguration());

        boolean b = job.waitForCompletion(true);
        if (!b) {
            throw new IOException("error with job!");
        }

    }

    /**
     * 为Mapreduce��d��W�三方jar�?br />      *
     * @param jarPath
     *            举例�Q�D:/Java/new_java_workspace/scm/lib/guava-r08.jar
     * @param conf
     * @throws IOException
     */
    public static void addTmpJar(String jarPath, Configuration conf) throws IOException {
        System.setProperty("path.separator", ":");
        FileSystem fs = FileSystem.getLocal(conf);
        String newJarPath = new Path(jarPath).makeQualified(fs).toString();
        String tmpjars = conf.get("tmpjars");
        if (tmpjars == null || tmpjars.length() == 0) {
            conf.set("tmpjars", newJarPath);
        } else {
            conf.set("tmpjars", tmpjars + ":" + newJarPath);
        }
    }

    public static class MyMapper extends TableMapper {

        public void map(ImmutableBytesWritable row, Result value,
                Context context) throws InterruptedException, IOException {
            String val1 = getValue(value.getValue(Bytes.toBytes("text"), Bytes.toBytes("qual1")));
            String val2 = getValue(value.getValue(Bytes.toBytes("text"), Bytes.toBytes("qual2")));
            System.out.println(val1 + " -- " + val2);
        }

        private String getValue(byte [] value)
        {
            return value == null? "null" : new String(value);
        }
    }

}

paulwong 2013-01-29 00:19 发表评论

未来企业IT技术关注点及IT架构变革探讨

paulwong — Mon, 14 Jan 2013 15:09:00 GMT

gartner十大战略性技术分析如下：

1.       �U�d��讑֤�战争

�U�d��讑֤�多样化，Windows仅仅�?span style="font-family: 'Times New Roman'; ">IT需要支持的多种环境之一,IT需要支持多样化环境�?/p>
2.       �U�d��应用�?span style="font-family: 'Times New Roman'; ">HTML5

HTML5��变得愈发重要，以满��_��元化的需求，以满��_��安全性非常看重的企业�U�应用�?/p>
3.       个�h�?/strong>

个�h云将把重心从客户端设备向跨设备交付基于云的服务�{�U�R�?/p>
4.       企业应用商店

有了企业应用商店�Q?span style="font-family: 'Times New Roman'; ">IT的角色将从集权式规划者�{变�ؓ市场��理者，�q��ؓ用户提供监管和经�U�服务，甚至可能为应用程序专家提供生态系�l�支持�?/p>
5.       物联�|?/strong>

物联�|�是一个概念，描述了互联网��如何作为物理实物扩展，如消费电子设备和实物资��都连接到互联�|�上�?/p>
6.       混合�?span style="font-family: 'Times New Roman'; ">IT和云计算

打造私有云�q�搭建相应的��理�q�_��Q�再利用该��^台来��理内外部服�?/p>
7.       战略性大数据

企业应当��大数据看成变革性的构架�Q�用多元化数据库代替��Z��同质划分的关�p�L��据库�?/p>
8.       可行性分�?/strong>

大数据的核心在于��Z��业提供可行的创意。受�U�d��|�络、社交网�l�、�v量数据等因素的驱动，企业需要改变分析方式以应对新观�?/p>
9.       内存计算

内存计算以云服务的�Ş式提供给内部或外部用�?span style="font-family: 'Times New Roman'; ">,��C��百万的事件能在几十毫�U�内被扫描以��相��x��和规律�?/p>
10.    整合生态系�l?/strong>

市场正在�l�历从松散耦合的异构系�l�向更�ؓ整合的系�l�和生态系�l��{�U�，应用�E�序与硬件、��Y件、��Y件及服务打包形成整合生态系�l��?/p>
�l�合应用实践及客户需求，可以有以下结论：

1.       大数据时代已�l�到�?/strong>

       物联�|�发展及非结构化、半�l�构化数据的剧增推动了大数据应用需求发展。大数据高效应用是挖掘企业数据资源�h值的��势与发展方向�?/p>
2.       云计��依旧是主题�Q�云��更加关注个�?/strong>

       云计��是改变IT现状的核心技术之一�Q�云计算��是大数据、应用商店交付的基础。个��Z��的发展将促��云端服务更关注个体�?/p>
3.       �U�d��势�Q�企业应用商店将改变传统软�g交付模式

       Windows��逐步不再是客��L��L��q�_��Q?span style="font-family: 'Times New Roman'; ">IT技术需要逐步转向支持多��^台服务。在云��^��C��构徏企业应用商店�Q�逐步促成IT的角色将从集权式规划者�{变�ؓ应用市场��理�?/p>
4.       物联�|�将持箋改变工作及生�z�L��?/strong>

       物联�|�将改变生活及工作方式，物联�|�将是一�U�革新的力量。在物联�|�方向，IPV6��是值得研究的一个技术�?/p>
未来企业IT架构囑֦�下：

架构说明�Q?/p>
1.应用��被拆分�Q�客��L��变得极��Q�用户只需要关注极��部分和自己有关的内容，打开�pȝ��后不再是上百个业务菜单�?/p>
2.企业后端架构��以分布式架构�ؓ主，大数据服务能力将成�ؓ企业核心竞争力的集中体现�?/p>
3.非结构化数据处理及分析相��x��术将会得到前所未有的重视�?/p>
受个人水�q�x��限，仅供参考，不当之处�Q�欢�q�拍砖！

http://blog.csdn.net/sdhustyh/article/details/8484780

paulwong 2013-01-14 23:09 发表评论

精品国产综合,亚洲一区二区三区日本久久九,日本不卡一二三区

HIVE资源

Install hadoop+hbase+nutch+elasticsearch

Implementation for CombineFileInputFormat Hadoop 0.20.205

How to install Hadoop cluster(2 node cluster) and Hbase on Vmware Workstation. It also includes installing Pig and Hive in the appendix

HBASE界面工具

Kettle - HADOOP数据转换工具

使用Sqoop实现HDFS与Mysql互�{

一个PIG脚本例子分析

PIG���议

PIG资源

Phoenix: HBase�l�于有SQL接口了～

HBASE��M���W�记-基础功能

监控HBASE

HBASE部��v要点

Hadoop的几�U�Join�Ҏ��

配置secondarynamenode

配置Hadoop M/R 采用Fair Scheduler���法代替FIFO

Cassandra VS. HBase 全文zz

NOSQL之旅---HBase(�?

MAPREDUCE�q�行原理

未来企业IT技术关注点及IT架构变革探讨

PIG��议

HBASE��M��W�记-基础功能

配置Hadoop M/R 采用Fair Scheduler��法代替FIFO