一本大道香蕉久在线播放29,成年永久一区二区三区免费视频,男人天堂亚洲

mesos调度框架

ivaneeo — Tue, 14 Apr 2015 20:49:00 GMT

http://m.blog.csdn.net/blog/ebay/43529401

ivaneeo 2015-04-15 04:49 发表评论

centos6.5 docker install

ivaneeo — Thu, 02 Apr 2015 04:41:00 GMT

�q�行yum makecache生成�~�存

eple源：(x��)

rpm -Uvh http://ftp.sjtu.edu.cn/fedora/epel/6/i386/epel-release-6-8.noarch.rpm

docker 安装�Q?/p>

You will need RHEL 6.5 or higher, with a RHEL 6 kernel version 2.6.32-431 or higher as this has specific kernel fixes to allow Docker to work.

CentOS 6.5已经�?span style="padding: 0px; margin: 0px; font-family: Cabin, 'Helvetica Neue', Helvetica, Arial, sans-serif; font-size: 14px; line-height: 20px;">2.6.32-431内核了，所以最好安装这个版本�?/span>

yum -y install docker-io

升��Q?/span>

yum -y update docker-io

手动升��Q?/p>

wget https://get.docker.io/builds/Linux/x86_64/docker-latest -O docker mv -f docker /usr/bin/docker

升��完成

启动�Q?/p>

service docker start

开机启动：(x��)

chkconfig docker on

ivaneeo 2015-04-02 12:41 发表评论

docker run restart

ivaneeo — Sat, 28 Mar 2015 02:31:00 GMT

http://docs.docker.com/articles/host_integration/

ivaneeo 2015-03-28 10:31 发表评论

mincloud install log

ivaneeo — Fri, 27 Mar 2015 10:48:00 GMT

172.20.20.8 mysql-mm1

172.20.20.11 mysql-mm2

172.20.20.10 mysql-data1

172.20.20.9 mysql-data2

172.20.20.10 mysql-sql1

172.20.20.9 mysql-sql2

mysql-mm1:

docker run -d --name="mysql_mm1" --net=host -v /opt/mysql:/usr/local/mysql mysql_mm/ubuntu /bin/bash -exec 'echo -e "172.20.20.7 mysql-mm1\n172.20.20.10 mysql-mm2\n172.20.20.8 mysql-data1\n172.20.20.9 mysql-data2\n172.20.20.8 mysql-sql1\n172.20.20.9 mysql-sql2\n127.0.0.1 localhost" > /etc/hosts && ndb_mgmd -f /usr/local/mysql/data/mysql-cluster/config.ini && /usr/sbin/sshd -D'

mysql-mm2:

docker run -d --name="mysql_mm2" --net=host -v /opt/mysql:/usr/local/mysql mysql_mm/ubuntu /bin/bash -exec 'echo -e "172.20.20.7 mysql-mm1\n172.20.20.10 mysql-mm2\n172.20.20.8 mysql-data1\n172.20.20.9 mysql-data2\n172.20.20.8 mysql-sql1\n172.20.20.9 mysql-sql2\n127.0.0.1 localhost" > /etc/hosts && ndb_mgmd -f /usr/local/mysql/data/mysql-cluster/config.ini && zabbix_agentd && /usr/sbin/sshd -D'

mysql-data1:

docker run -d --name="mysql_data1" --net=host -v /opt/mysql:/usr/local/mysql mysql_data/ubuntu /bin/bash -exec 'echo -e "172.20.20.7 mysql-mm1\n172.20.20.10 mysql-mm2\n172.20.20.8 mysql-data1\n172.20.20.9 mysql-data2\n172.20.20.8 mysql-sql1\n172.20.20.9 mysql-sql2\n127.0.0.1 localhost" > /etc/hosts && /usr/local/mysql/bin/ndbd && zabbix_agentd && /usr/sbin/sshd -D'

mysql-data2:

docker run -d --name="mysql_data2" --net=host -v /opt/mysql:/usr/local/mysql mysql_data/ubuntu /bin/bash -exec 'echo -e "172.20.20.7 mysql-mm1\n172.20.20.10 mysql-mm2\n172.20.20.8 mysql-data1\n172.20.20.9 mysql-data2\n172.20.20.8 mysql-sql1\n172.20.20.9 mysql-sql2\n127.0.0.1 localhost" > /etc/hosts && /usr/local/mysql/bin/ndbd && zabbix_agentd && /usr/sbin/sshd -D'

mysql-sql1:

docker run -d --name="mysql_sql1" --net=host -v /opt/mysql:/usr/local/mysql mysql_sql/ubuntu /bin/bash -exec 'echo -e "172.20.20.7 mysql-mm1\n172.20.20.10 mysql-mm2\n172.20.20.8 mysql-data1\n172.20.20.9 mysql-data2\n172.20.20.8 mysql-sql1\n172.20.20.9 mysql-sql2\n127.0.0.1 localhost" > /etc/hosts && /usr/local/mysql/bin/mysqld_safe --user=mysql'

mysql-sql2:

docker run -d --name="mysql_sql2" --net=host -v /opt/mysql:/usr/local/mysql mysql_sql/ubuntu /bin/bash -exec 'echo -e "172.20.20.7 mysql-mm1\n172.20.20.10 mysql-mm2\n172.20.20.8 mysql-data1\n172.20.20.9 mysql-data2\n172.20.20.8 mysql-sql1\n172.20.20.9 mysql-sql2\n127.0.0.1 localhost" > /etc/hosts && /usr/local/mysql/bin/mysqld_safe --user=mysql'

haproxy && nginx:

docker run -d --name="loadbalancer_master" -p 8888:8888 -p 6080:6080 -p 8089:8089 -p 8774:8774 -p 9696:9696 -p 9292:9292 -p 8776:8776 -p 5000:5000 -p 8777:8777 -p 11211:11211 -p 11222:11222 -p 5672:5672 -p 35357:35357 -p 8181:2181 -p 10389:10389 -p 2222:22 -p 80:80 -p 1936:1936 -p 3306:3306 -p 10052:10052 -p 10051:10051 -p 8080:8080 -v /opt/etc/nginx/conf:/usr/local/nginx-1.0.6/conf -v /opt/etc/haproxy:/etc/haproxy loadbalancer/ubuntu /bin/bash -exec 'echo -e "127.0.0.1 localhost" > /etc/hosts && service haproxy start && /usr/local/nginx-1.0.6/sbin/nginx && zabbix_agentd && /usr/sbin/sshd -D'

redis_master:

docker run -d --name="redis_master" -p 18:22 -p 6379:6379 -p 6380:6380 redis_master/ubuntu /bin/bash -exec '/usr/local/webserver/redis/start.sh && /usr/sbin/sshd -D'

redis_slave:

docker run -d --name="redis_slave1" -p 18:22 -p 6379:6379 -p 6380:6380 redis_slave/ubuntu /bin/bash -exec 'echo -e "172.20.20.10 redis-master\n127.0.0.1 localhost" > /etc/hosts && /usr/local/webserver/redis/start.sh && /usr/sbin/sshd -D'

rabbitmq:

docker run -d --name="rabbitmq_master" -p 2222:22 -p 25672:25672 -p 15672:15672 -p 5672:5672 -p 4369:4369 -p 10051:10050 rabbitmq/ubuntu /bin/bash -exec 'echo -e "172.20.20.10 rabbitmq-master\n127.0.0.1 localhost" > /etc/hosts && /etc/init.d/rabbitmq-server start && /usr/sbin/sshd -D'

mule:
docker run -d --name="mule1" -p 5005:5005 -p 2222:22 -p 9999:9999 -p 9003:9003 -p 9000:9000 -p 9001:9001 -p 9004:9004 -v /opt/mule:/opt/mule-standalone-3.5.0_cloud mule/ubuntu /bin/bash -exec 'echo -e "192.168.1.180 lb-master\n192.168.1.180 controller-node\n127.0.0.1 localhost" >> /etc/hosts && /usr/sbin/sshd && export JAVA_HOME=/opt/jdk1.7.0_51 && export PATH=$JAVA_HOME/bin:$PATH && /opt/mule-standalone-3.5.0_cloud/bin/mule'

zentao:

docker run -d --name="zentao" -p 22222:22 -p 10008:80 -v /opt/www/html/zentaopms:/opt/zentao --privileged=true zentao/ubuntu /bin/bash -exec 'service apache2 start && /usr/sbin/sshd -D'

websocket-tomcat:

docker run -d --name="websocket_tomcat1" -p 8888:8080 -p 2222:22 -v /opt/apache-tomcat-8.0.15:/opt/apache-tomcat websocket-tomcat/ubuntu /bin/bash -exec 'echo -e "192.168.1.180 lb-master\n127.0.0.1 localhost" > /etc/hosts && export JAVA_HOME=/opt/jdk1.7.0_51 && /opt/apache-tomcat/bin/startup.sh && /usr/sbin/sshd -D'

docker run -d --name="guacamole1" -p 8088:8088 -p 38:22 -v /opt/apache-tomcat-7.0.53:/opt/apache-tomcat guacamole/ubuntu /bin/bash -exec 'echo -e "192.168.1.150 lb-master\n127.0.0.1 localhost" > /etc/hosts && /etc/init.d/guacd start && /opt/apache-tomcat/bin/start-tomcat.sh && /usr/sbin/sshd -D'

ivaneeo 2015-03-27 18:48 发表评论

mysql cluster install faq

ivaneeo — Fri, 27 Mar 2015 08:43:00 GMT

http://www.docin.com/p-558099649.html

ivaneeo 2015-03-27 16:43 发表评论

centos7 testing yum

ivaneeo — Thu, 26 Mar 2015 15:32:00 GMT

わV��ップ�Q?/etc/yum.repos.d/virt7-testing.repo というファイルを作ります�?/h1>/etc/yum.repos.d/virt7-testing.repo
[virt7-testing] name=virt7-testing baseurl=http://cbs.centos.org/repos/virt7-testing/x86_64/os/ enabled=0  gpgcheck=0 
わV��ップ2 インわV��ヹ{��します�?/h1>sudo yum --enablerepo=virt7-testing install docker 
������します�?/p>
$ docker --version Docker version 1.5.0, build a8a31ef/1.5.0 
やったー��|���Q?/p>
※ご利用は自己責�Qでお��いします�?/p>
http://billpaxtonwasright.com/installing-docker-1-5-0-on-centos-7/

ivaneeo 2015-03-26 23:32 发表评论

解决KVM中鼠标不同步问题

ivaneeo — Mon, 23 Mar 2015 12:49:00 GMT

在虚拟机的配�|�文件中增加�Q?/span>

�Q�该句位�?lt;devices>配置中）

Linux:

在终端中输入�Q?/p>

xset -m 0

Windows:

�q�入控制面板 -> 鼠标 -> 指针选项�Q�去�?#8220;提高指针�_��?#8221;前面的勾�?/p>

ivaneeo 2015-03-23 20:49 发表评论

openstack virt vnc port

ivaneeo — Sun, 22 Mar 2015 15:16:00 GMT

http://docs.openstack.org/image-guide/content/virt-install.html

ivaneeo 2015-03-22 23:16 发表评论

ceilometer alarm例子

ivaneeo — Tue, 17 Mar 2015 10:13:00 GMT

http://blog.csdn.net/hackerain/article/details/38172941

ivaneeo 2015-03-17 18:13 发表评论

curl openstack

ivaneeo — Fri, 13 Mar 2015 11:32:00 GMT

http://blog.csdn.net/anhuidelinger/article/details/9818693

ivaneeo 2015-03-13 19:32 发表评论

ubuntu docker1.5 install

ivaneeo — Mon, 02 Mar 2015 08:21:00 GMT

https://docs.docker.com/installation/ubuntulinux/#ubuntu-trusty-1404-lts-64-bit

ivaneeo 2015-03-02 16:21 发表评论

docker api demo

ivaneeo — Sat, 14 Feb 2015 06:29:00 GMT

http://my.oschina.net/guol/blog/271416

ivaneeo 2015-02-14 14:29 发表评论

ndb manage show

ivaneeo — Fri, 26 Dec 2014 10:41:00 GMT

root@proxzone-project-4:/usr/local/mysql/bin# ndb_mgm -e show

Connected to Management Server at: localhost:1186

Cluster Configuration

---------------------

[ndbd(NDB)] 2 node(s)

id=3 @172.21.21.108 (mysql-5.6.21 ndb-7.3.7, Nodegroup: 0)

id=4 @172.21.21.109 (mysql-5.6.21 ndb-7.3.7, Nodegroup: 0, *)

[ndb_mgmd(MGM)] 2 node(s)

id=1 @172.21.21.107 (mysql-5.6.21 ndb-7.3.7)

id=2 @172.21.21.110 (mysql-5.6.21 ndb-7.3.7)

[mysqld(API)] 2 node(s)

id=5 @172.21.21.108 (mysql-5.6.21 ndb-7.3.7)

id=6 @172.21.21.109 (mysql-5.6.21 ndb-7.3.7)

ivaneeo 2014-12-26 18:41 发表评论

docker!

ivaneeo — Thu, 18 Dec 2014 16:57:00 GMT

http://www.aygfsteel.com/yongboy/archive/2013/12/12/407498.html

docker-registry:

http://www.cnblogs.com/xguo/p/3829329.html

ubuntu 14.04

http://www.tuicool.com/articles/b63uei

centos 6.5

http://blog.yourtion.com/ubuntu-install-docker.html

ivaneeo 2014-12-19 00:57 发表评论

cloudstack xenserver agent

ivaneeo — Wed, 17 Dec 2014 06:54:00 GMT

/etc/sysctl.conf

> > net.bridge.bridge-nf-call-iptables = 1 >

> net.bridge.bridge-nf-call-ip6tables = 0 >

> net.bridge.bridge-nf-call-arptables = 1

xe-switch-network-backend bridge

REBOOT

ivaneeo 2014-12-17 14:54 发表评论

Hazelcast River Plugin for ElasticSearch

ivaneeo — Mon, 07 Oct 2013 16:57:00 GMT

https://github.com/sksamuel/elasticsearch-river-hazelcast

ivaneeo 2013-10-08 00:57 发表评论

ivaneeo — Thu, 03 Oct 2013 18:09:00 GMT

ElasticSearch是一个基于Lucene构徏的开源，分布式，RESTful搜烦引擎。设计用于云计算中，能够辑ֈ�实时搜烦�Q�稳定，可靠�Q�快速，安装使用方便。支持通过HTTP使用JSON�q�行数据索引�?nbsp;

　　我们建立一个网站或应用�E�序�Q��ƈ要添加搜索功能，令我们受打击的是�Q�搜索工作是很难的。我们希望我们的搜烦解决�Ҏ(gu��)��要快�Q�我们希�?有一个零配置和一个完全免费的搜烦模式�Q�我们希望能够简单地使用JSON通过HTTP的烦引数据，我们希望我们的搜索服务器始终可用�Q�我们希望能够一台开始�ƈ扩展到数百，我们要实时搜索，我们要简单的多租��P��我们希望建立一个云的解��x��案。Elasticsearch旨在解决所有这些问题和更多的�?/span>

安装

　　以windows操作�pȝ��和ES0.19.7版本��Z��Q?/span>

　　①下蝲elasticsearch-0.19.7.zip

　　②直接解压��x��目录�Q�设�|�该目录为ES_HOME环境变量

　　③安装JDK�Q��ƈ讄��JAVA_HOME环境变量

　　④在windows下，�q�行 %ES_HOME%\bin\elasticsearch.bat卛_��q�行

分布式搜索elasticsearch单机与服务器环境搭徏

先到http://www.elasticsearch.org/download/�?载最新版的elasticsearch�q�行包，本文写时最新的�?.19.1�Q�作者是个很勤快的�h�Q�es的更新很频繁�Q�bug修复得很快。下载完解开有三个包:bin是运行的脚本�Q�config是设�|�文�Ӟ��lib是放依赖的包。如果你要装插�g的话��p��多新��Z��个plugins的文件夹�Q�把插�g攑ֈ��q�个文�g 夹中�?br />

1.单机环境�Q?/p>

单机版的elasticsearch�q�行很简单，linux下直�?nbsp;bin/elasticsearch��p��行了�Q�windows�q�行bin/elasticsearch.bat。如果是在局域网中运行elasticsearch集群也是很简单的�Q�只要cluster.name讄��一��_(d��)��q�且机器在同一�|�段下，启动的es�?x��)自动发现对方，�l�成集群�?/p>

2.服务器环境：(x��)

如果是在服务器上��可以��用elasticsearch-servicewrapper�q�个es插�g�Q�它支持通过参数�Q�指定是在后台或前台�q�行es�Q��ƈ且支持启动，停止�Q�重启es服务�Q�默认es脚本只能通过ctrl+c关闭es�Q�。��用方法是�?a >https://github.com/elasticsearch/elasticsearch-servicewrapper下蝲service文�g夹，攑ֈ�es的bin目录下。下面是命��o(h��)集合�Q?br />bin/service/elasticsearch +
console 在前台运行es
start 在后台运行es
stop 停止es
install 使es作�ؓ(f��)服务在服务器启动时自动启�?br />remove 取消启动时自动启�?/p>

在service目录下有个elasticsearch.conf配置文�g�Q�主要是讄��一些java�q�行环境参数�Q�其中比较重要的是下面的

参数�Q?/p>

#es的home路径�Q�不用用默认值就可以
set.default.ES_HOME=

#分配�l�es的最��内�?br />set.default.ES_MIN_MEM=256

#分配�l�es的最大内�?br />set.default.ES_MAX_MEM=1024

# 启动�{�待��时旉��Q�以�U��ؓ(f��)单位�Q?br />wrapper.startup.timeout=300

# 关闭�{�待��时旉��Q�以�U��ؓ(f��)单位�Q?/p>

wrapper.shutdown.timeout=300

# ping��时旉��(以秒为单�?

wrapper.ping.timeout=300

安装插�g

　　以head插�g��Z��Q?/span>

　　联网�Ӟ��直接�q�行%ES_HOME%\bin\plugin -install mobz/elasticsearch-head

　　不联�|�时�Q�下载elasticsearch-head的zipball的master包，把内容解压到%ES_HOME%\plugin\head\_site目录下，[该插件�ؓ(f��)site�c�d��插�g]

　　安装完成�Q�重启服务，在浏览器打开 http://localhost:9200/_plugin/head/ 卛_��

ES概念

　　cluster

　　代表一个集��，集群中有多个节点�Q�其中有一个�ؓ(f��)主节点，�q�个主节�Ҏ(gu��)��可以通过选�D产生的，��M��节点是对于集��内部来�?的。es的一个概念就是去中心化，字面上理解就是无中心节点�Q�这是对于集��外部来说的�Q�因��Z��外部来看es集群�Q�在逻辑上是个整体，你与��M��一个节点的�?信和与整个es集群通信是等��L(f��ng)��?/span>

　　shards

　　代表索引分片�Q�es可以把一个完整的索引分成多个分片�Q�这��L(f��ng)��好处是可以把一个大的烦引拆分成多个�Q�分布到不同的节点上。构成分布式搜烦。分片的数量只能在烦引创建前指定�Q��ƈ且烦引创建后不能更改�?/span>

　　replicas

　　代表索引副本�Q�es可以讄��多个索引的副本，副本的作用一是提高系�l�的定w��性，当个某个节点某个分片损坏或丢失时可以从副本中恢复。二是提高es的查询效率，es�?x��)自动对搜烦��h��q�行负蝲均衡�?/span>

　　recovery

　　代表数据恢复或叫数据重新分布�Q�es在有节点加入或退出时�?x��)根据机器的负蝲对烦引分片进行重新分配，挂掉的节炚w��新启动时也会(x��)�q�行数据恢复�?/span>

　　river

　　代表es的一个数据源�Q�也是其它存储方式（如：(x��)数据库）同步数据到es的一个方法。它是以插�g方式存在的一个es�?务，通过��d��river中的数据�q�把它烦引到es中，官方的river有couchDB的，RabbitMQ的，Twitter的，W(xu��)ikipedia 的�?/span>

　　gateway

　　代表es索引的持久化存储方式�Q�es默认是先把烦引存攑ֈ�内存中，当内存满了时再持久化到硬盘。当�q�个es集群关闭�?重新启动时就�?x��)从gateway中读取烦引数据。es支持多种�c�d��的gateway�Q�有本地文�g�pȝ��Q�默认）�Q�分布式文�g�pȝ��Q�Hadoop的HDFS�?amazon的s3云存储服务�?/span>

　　discovery.zen

　　代表es的自动发现节�Ҏ(gu��)��Ӟ��es是一个基于p2p的系�l�，它先通过�q�播��L��存在的节点，再通过多播协议来进行节点之间的通信�Q�同时也支持点对点的交互�?/span>

　　Transport

　　代表es内部节点或集��与客户端的交互方式�Q�默认内部是使用tcp协议�q�行交互�Q�同时它支持http协议�Q�json格式�Q�、thrift、servlet、memcached、zeroMQ�{�的传输协议�Q�通过插�g方式集成�Q��?br />

分布式搜索elasticsearch中文分词集成

elasticsearch官方只提供smartcn�q�个中文分词插�g�Q�效果不是很好，好在国内有medcl大神�Q�国内最早研�I�es的�h之一�Q�写的两个中文分词插�Ӟ��一个是ik的，一个是mmseg的，下面分别介绍下两者的用法�Q�其实都差不多的�Q�先安装插�g�Q�命令行�Q?br />安装ik插�g�Q?/p>

plugin -install medcl/elasticsearch-analysis-ik/1.1.0

下蝲ik相关配置词典文�g到config目录

cd config
wget http://github.com/downloads/medcl/elasticsearch-analysis-ik/ik.zip --no-check-certificate
unzip ik.zip
rm ik.zip

安装mmseg插�g�Q?/p>

bin/plugin -install medcl/elasticsearch-analysis-mmseg/1.1.0

下蝲相关配置词典文�g到config目录

cd config
wget http://github.com/downloads/medcl/elasticsearch-analysis-mmseg/mmseg.zip --no-check-certificate
unzip mmseg.zip
rm mmseg.zip

分词配置

ik分词配置�Q�在elasticsearch.yml文�g中加�?/p>

index:
analysis:
analyzer:
ik:
alias: [ik_analyzer]
type: org.elasticsearch.index.analysis.IkAnalyzerProvider

�?/p>

index.analysis.analyzer.ik.type : “ik”

�q�两句的意义相同
mmseg分词配置�Q�也是在在elasticsearch.yml文�g�?/p>

index:
analysis:
analyzer:
mmseg:
alias: [news_analyzer, mmseg_analyzer]
type: org.elasticsearch.index.analysis.MMsegAnalyzerProvider

�?/p>

index.analysis.analyzer.default.type : "mmseg"

mmseg分词�q�有些更加个性化的参数设�|�如�?/p>

index:
analysis:
tokenizer:
mmseg_maxword:
type: mmseg
seg_type: "max_word"
mmseg_complex:
type: mmseg
seg_type: "complex"
mmseg_simple:
type: mmseg
seg_type: "simple"

�q�样配置完后插�g安装完成�Q�启动es��׃��(x��)加蝲插�g�?/p>

定义mapping

在添加烦引的mapping时就可以�q�样定义分词�?/p>

{
"page":{
"properties":{
"title":{
"type":"string",
"indexAnalyzer":"ik",
"searchAnalyzer":"ik"
},
"content":{
"type":"string",
"indexAnalyzer":"ik",
"searchAnalyzer":"ik"
}
}
}
}

indexAnalyzer为烦引时使用的分词器�Q�searchAnalyzer为搜索时使用的分词器�?/p>

java mapping代码如下�Q?/p>

XContentBuilder content = XContentFactory.jsonBuilder().startObject()
.startObject("page")
.startObject("properties")
.startObject("title")
.field("type", "string")
.field("indexAnalyzer", "ik")
.field("searchAnalyzer", "ik")
.endObject()
.startObject("code")
.field("type", "string")
.field("indexAnalyzer", "ik")
.field("searchAnalyzer", "ik")
.endObject()
.endObject()
.endObject()
.endObject()

定义完后操作索引��׃��(x��)以指定的分词器来�q�行分词�?/p>

附：(x��)

ik分词插�g��目地址�Q?a >https://github.com/medcl/elasticsearch-analysis-ik

mmseg分词插�g��目地址�Q?a >https://github.com/medcl/elasticsearch-analysis-mmseg

如果觉得配置�ȝ��Q�也可以下蝲个配�|�好的es版本�Q�地址如下�Q?a >https://github.com/medcl/elasticsearch-rtf

elasticsearch的基本用�?/strong>

最大的特点�Q?nbsp;
1. 数据库的 database, ��是 index
2. 数据库的 table, ��是 tag
3. 不要使用browser�Q?使用curl来进行客��L(f��ng)��操作. 否则�?x��)出�?java heap ooxx...

curl: -X 后面�?RESTful �Q?nbsp; GET, POST ...
-d 后面跟数据�?(d = data to send)

1. create:

指定 ID 来徏立新记录�?�Q�貌似PUT�Q?POST都可以）
$ curl -XPOST localhost:9200/films/md/2 -d '
{ "name":"hei yi ren", "tag": "good"}'

使用自动生成�?ID 建立新纪录：(x��)
$ curl -XPOST localhost:9200/films/md -d '
{ "name":"ma da jia si jia3", "tag": "good"}'

2. 查询�Q?nbsp;
2.1 查询所有的 index, type:
$ curl localhost:9200/_search?pretty=true

2.2 查询某个index下所有的type:
$ curl localhost:9200/films/_search

2.3 查询某个index 下，某个 type下所有的记录�Q?nbsp;
$ curl localhost:9200/films/md/_search?pretty=true

2.4 带有参数的查询：(x��)
$ curl localhost:9200/films/md/_search?q=tag:good
{"took":7,"timed_out":false,"_shards":{"total":5,"successful":5,"failed":0},"hits":{"total":2,"max_score":1.0,"hits":[{"_index":"film","_type":"md","_id":"2","_score":1.0, "_source" :
{ "name":"hei yi ren", "tag": "good"}},{"_index":"film","_type":"md","_id":"1","_score":0.30685282, "_source" :
{ "name":"ma da jia si jia", "tag": "good"}}]}}

2.5 使用JSON参数的查询：(x��) �Q�注�?query �?term 关键字）
$ curl localhost:9200/film/_search -d '
{"query" : { "term": { "tag":"bad"}}}'

3. update
$ curl -XPUT localhost:9200/films/md/1 -d { ...(data)... }

4. 删除�?删除所有的�Q?nbsp;
$ curl -XDELETE localhost:9200/films

ivaneeo 2013-10-04 02:09 发表评论

Cloudera Impala TarBall �~�译、安装与配置

ivaneeo — Sat, 29 Jun 2013 09:12:00 GMT

Impala是由Cloudera开发的高性能实时计算工具�Q�相比Hive性能提升了几十、甚臌��癑ր�，基本思想是将计算分发到每�?Datanode所在的节点�Q�依靠内存实现数据的�~�存�q�行快速计��，�c�M��的系�l�还有Berkeley的Shark。从实际��试来看�Q�Impala效率��实不错�Q�由于Impala大量使用C++实现�Q�不使用CDH的Image而自��q��译安装要费不��功夫，�q�里记录一下安装配�|�过�E�和��到的一些问题。我在测�?时候��用的是CentOS6.2�?br /> 一些基本的安装步骤在这里，但我在安装的时候碰��C��些问题，�q�里再详�l�说明一下过�E��?/p>
1.安装所需的依赖lib�Q�这一步没有什么不�?/strong>

sudo yum install boost-test boost-program-options libevent-devel automake libtool flex bison gcc-c++ openssl-devel make cmake doxygen.x86_64 glib-devel boost-devel python-devel bzip2-devel svn libevent-devel cyrus-sasl-devel wget git unzip

2.安装LLVM�Q�按照流�E�做卛_��Q�注意要在多台机器上�~�译安装Impala的话�Q�只用在一台机器上执行下面蓝色的部分，再把llvm分发到多台机器上执行后面�U�色部分的指令就可以了，没必要每个机器都通过svn下蝲一遍源代码�Q�很�Ҏ(gu��)��?/p>

wget http://llvm.org/releases/3.2/llvm-3.2.src.tar.gz
tar xvzf llvm-3.2.src.tar.gz
cd llvm-3.2.src/tools
svn co http://llvm.org/svn/llvm-project/cfe/tags/RELEASE_32/final/ clang
cd ../projects
svn co http://llvm.org/svn/llvm-project/compiler-rt/tags/RELEASE_32/final/ compiler-rt

cd ..
./configure –with-pic
make -j4 REQUIRES_RTTI=1
sudo make install

3.安装Maven�Q�这个没什么好说的�Q�按照步骤，讄��一下环境变量即可，Maven是�ؓ(f��)了后面build impala源代码用的�?/p>
wget http://www.fightrice.com/mirrors/apache/maven/maven-3/3.0.4/binaries/apache-maven-3.0.4-bin.tar.gz
tar xvf apache-maven-3.0.4.tar.gz && sudo mv apache-maven-3.0.4 /usr/local

修改~/.bashrc�Q�增加maven环境变量

export M2_HOME=/usr/local/apache-maven-3.0.4
export M2=$M2_HOME/bin
export PATH=$M2:$PATH

更新环境变量�Q�查看mvn版本是否正确

source ~/.bashrc
mvn -version

4.下蝲Impala源代�?/strong>

git clone https://github.com/cloudera/impala.git

5.讄��Impala环境变量�Q�编译时需�?/strong>

cd impala
./bin/impala-config.sh

6.下蝲impala依赖的第三方package

cd thirdparty
./download_thirdparty.sh

注意�q�里其中一个包cyrus-sasl-2.1.23可能下蝲��p�|�Q�可以自行搜�?CSDN里面��有)下蝲下来然后解压�~�到thirdparty 文�g夹，最好是在执行完download_thirdparty.sh之后做这一步，因�ؓ(f��)download_thirdparty.sh�?x��)把所有目录下�?载下来的tar.gz�l�删除掉�?/p>
7.理论上现在可以开始build impala�?/strong>�Q�但是实际build�q�程中可能会(x��)出现问题�Q�我��到的问题和 Boost相关�?具体错误不记得了)�Q�最后发现是�׃��boost版本太低��D��的，CentOS 6.2�pȝ��默认yum源中的boost和boost-devel版本�?.41�Q�但是impala�~�译需�?.44以上的版本，因此需要做的是自己重新�~?译boost�Q�我用的是boost 1.46版本�?/p>
#删除已安装的boost和boost-devel
yum remove boost
yum remove boost-devel
#下蝲boost
#可以�?http://www.boost.org/users/history/)下蝲boost
#下蝲后解压羃
tar xvzf boost_1_46_0.tar.gz
mv boost_1_46_0 /usr/local/
cd /usr/include
./bootstrap.sh
./bjam
#执行后若打印以下内容�Q�则表示安装成功
# The Boost C++ Libraries were successfully built!
# The following directory should be added to compiler include paths:
# /usr/local/boost_1_46_0
# The following directory should be added to linker library paths:
# /usr/local/boost_1_46_0/stage/lib
#现在�q�需要设�|�Boost环境变量和Impala环境变量
export BOOST_ROOT=’/usr/local/boost_1_46_0′
export IMPALA_HOME=’/home/extend/impala’

#注意一下，�q�里虽然安装了boost�Q�但是我在实际��用的时候，�~�译�q�是�?x��)报错的�Q�报的错误是找不到这个包�Q?libboost_filesystem-mt.so�Q�这个包是由boost-devel提供的，所以我的做法是把boost-devel�l�重新装�?br /> #我没有试�q�如果之前不删除boost-devel�?x��)不会(x��)有问题�Q�能��定的是按这里写的流�E�做是没问题�?/p>
yum install boost-devel

8.现在�l�于可以�~�译impala�?/strong>

cd $IMPALA_HOME
./build_public.sh -build_thirdparty
#�~�译首先�?x��)编译C++部分�Q�然后再用mvn�~�译java部分�Q�整个过�E�比较慢�Q�我在虚拟机上大概需�?-2个小时�?br /> #Impala�~�译完后的东西在be/build/debug里面

9.启动impala_shell需要用到的python�?/strong>

#�W�一�ơ执行impalad_shell可能�?x��)报错，�q�里需要安装python的两个包:thrift和prettytable�Q��用easy_install卛_��
easy_install prettytable
easy_install thrift

10.如果你以为到�q�里��׃��事大吉就太天真了�Q�在配置、启动、��用Impala的时候还�?x��)有很多奇葩的问题�?/p>
问题1�Q�Hive和Hadoop使用的版�?/strong>
CDH对版本的依赖要求比较高，��Z��保证Impala正常�q�行�Q�强烈徏议��用Impala里面thirdparty目录中自带的Hadoop(native lib已经�~�译好的)和Hive版本�?br /> Hadoop的配�|�文件在$HADOOP_HOME/etc/hadoop中，要注意的是需要启用native lib

#修改hadoop的core-site.xml�Q�除了这个选项之外�Q�其他配�|�和问题2中的core-site.xml一�?br /> >
>hadoop.native.lib>
>true>
>Should native hadoop libraries, if present, be used.>
>

问题2�Q�Impala的配�|�文件位�|?/strong>
Impala默认使用的配�|�文件�\径是在bin/set-classpath.sh中配�|�的�Q�徏议把CLASSPATH部分�Ҏ(gu��)��

CLASSPATH=\
$IMPALA_HOME/conf:\
$IMPALA_HOME/fe/target/classes:\
$IMPALA_HOME/fe/target/dependency:\
$IMPALA_HOME/fe/target/test-classes:\
${HIVE_HOME}/lib/datanucleus-core-2.0.3.jar:\
${HIVE_HOME}/lib/datanucleus-enhancer-2.0.3.jar:\
${HIVE_HOME}/lib/datanucleus-rdbms-2.0.3.jar:\
${HIVE_HOME}/lib/datanucleus-connectionpool-2.0.3.jar:

卌��求Impala使用其目录下的Conf文�g夹作为配�|�文�Ӟ��然后创徏一下Conf目录�Q�把3样东西拷贝进来：(x��)core-site.xml、hdfs-site.xml、hive-site.xml�?br /> core-site.xml的配�|�，下面几个选项是必��要配置的，

version="1.0"?>
type="text/xsl" href="configuration.xsl"?>
>
>
>fs.defaultFS>
>hdfs://10.200.4.11:9000>
>
>
>dfs.client.read.shortcircuit>
>true>
>
>
>dfs.client.use.legacy.blockreader.local>
>false>
>
>
>dfs.client.read.shortcircuit.skip.checksum>
>false>
>
>

hdfs-site.xml的配�|?/p>

version="1.0" encoding="UTF-8"?>
type="text/xsl" href="configuration.xsl"?>
>
>
>dfs.block.local-path-access.user>
>${your user}>
>
>
>dfs.datanode.hdfs-blocks-metadata.enabled>
>true>
>
>
>dfs.datanode.data.dir>
>${yourdatadir}>
>
>
>dfs.client.use.legacy.blockreader.local>
>false>
>
>
>dfs.datanode.data.dir.perm>
>750>
>
>
>dfs.client.file-block-storage-locations.timeout>
>5000>
>
>
>dfs.domain.socket.path>
>/home/extend/cdhhadoop/dn.8075>
>
>

最后是hive-site.xml�Q�这个比较简单，指定使用DBMS为元数据存储卛_��(impala必须和hive�׃�n元数据，因�ؓ(f��)impala�?法create table)�Q�Hive-site.xml使用mysql作�ؓ(f��)metastore的说明在很多地方都可以查刎ͼ�配置如下�Q?/p>

version="1.0"?>
type="text/xsl" href="configuration.xsl"?>
>
>
>javax.jdo.option.ConnectionURL>
>jdbc:mysql://10.28.0.190:3306/impala?createDatabaseIfNotExist=true>
>JDBC connect string for a JDBC metastore>
>
>
>javax.jdo.option.ConnectionDriverName>
>com.mysql.jdbc.Driver>
>Driver class name for a JDBC metastore>
>

>
>javax.jdo.option.ConnectionUserName>
>root>
>username to use against metastore database>
>
>
>javax.jdo.option.ConnectionPassword>
>root>
>password to use against metastore database>
>
>

记得把mysql-connector的jar包给拯��到hive的lib里面去，同样也要拯��l�impala ( 拯��?IMPALA_HOME/fe/target/dependency)

11.启动Impala。到此，Impala是可以正常启动的。这里说明一下，官方文档没有说很清楚Impala的Service之间是如何互相协调的�Q�按照官方的步骤�Q�最后通过如下�Ҏ(gu��)��来在一台机器上启动Impala Service�Q?/p>
#启动单机impala service
${IMPALA_HOME}/bin/start-impalad.sh -use_statestore=false
#启动impala shell
${IMPALA_HOME}/bin/impala-shell.sh

然后impala-shell��可以连接到l(f��)ocalhost�q�行查询了；注意�Q�这里只是单机查询，可以用来验证你的Impala是否正常work 了；如何启动一个Impala集群�Q�蟩到第12步。这里��l�说一下可能遇到的问题�Q�我遇到的一个比较奇葩的问题是show tables和count(1)没有问题�Q�但是select * from table的时候impala在读取数据的时候就崩溃�?有时报错could not find method close from class org/apache/hadoop/fs/FSDataInputStream with signature ()V )�Q�这里修改了两个地方解决�q�个问题:

a.修改impala的set-classpath.sh�q�移�?IMPALA_HOME/fe/target/dependency目录中除了hadoop-auth-2.0.0-*.jar之外所有hadoop-*开头的jar包�?/p>
#把impala dependency中和hadoop相关的包�l�弄出来�Q�只保留auth
mv $IMPALA_HOME/fe/target/dependency/hadoo* $IMPALA_HOME
mv $IMPALA_HOME/hadoop-auth*.jar mv $IMPALA_HOME/fe/target/dependency
#修改bin/set-classpath.sh�Q�将$HADOOP_HOME中的lib�l�加入，在set-classpath.sh最后一行export CLASSPATH之前#��d��
for jar in `ls $HADOOP_HOME/share/hadoop/common/*.jar`; do
CLASSPATH=${CLASSPATH}:$jar
done
for jar in `ls $HADOOP_HOME/share/hadoop/yarn/*.jar`; do
CLASSPATH=${CLASSPATH}:$jar
done
for jar in `ls $HADOOP_HOME/share/hadoop/hdfs/*.jar`; do
CLASSPATH=${CLASSPATH}:$jar
done
for jar in `ls $HADOOP_HOME/share/hadoop/mapreduce/*.jar`; do
CLASSPATH=${CLASSPATH}:$jar
done
for jar in `ls $HADOOP_HOME/share/hadoop/tools/lib/*.jar`; do
CLASSPATH=${CLASSPATH}:$jar
done

b.注意到Impala对待table的时候只能够使用hive的默认列分隔�W�，如果在hive里面create table的时候��用了自定义的分隔�W�，Impala servive��׃��(x��)在读数据的时候莫名其妙的崩溃�?/p>
12.启动Impala 集群
Impala实际上由两部分组成，一个是StateStore�Q�用来协调各个机器计��，相当于Master�Q�然后就是Impalad�Q�相当于Slave�Q�启动方法如下：(x��)

#启动statestore
#�Ҏ(gu��)��1�Q�直接利用impala/bin下面的这个python脚本
#�q�个脚本�?x��)启动一个StateStore�Q�同时启�?s个数量的Impala Service在本�?br /> $IMPALA_HOME/bin/start-impala-cluster.py -s 1 –log_dir /home/extend/impala/impalaLogs
#�Ҏ(gu��)��2�Q�手动启动StateStore
$IMPALA_HOME/be/build/debug/statestore/statestored -state_store_port=24000
#启动impala service
#在每个编译安装了impala的节点上执行命��o(h��)
#参数-state_store_host指定启动了stateStore的机器名
#-nn即namenode�Q�指定hadoop的namenode
#-nn_port是namenode的HDFS入口端口�?br /> $IMPALA_HOME/bin/start-impalad.sh -state_store_host=m11 -nn=m11 -nn_port=9000

正常启动之后�Q�访问http://${stateStore_Server}:25010/ 可以看到StateStore的状态，其中的subscribers��面可以看到已经�q�接上的impala service node�Q?/p>
13.使用Impala客户�?/strong>
�q�一步最��单，随便找一个机器启�?/p> $IMPALA_HOME/bin/impala-shell.sh
#启动之后可以随便�q�接一个impala service
connect m12
#�q�接上之后就可以执行show tables之类的操作了
#需要注意的是，如果hive创徏表或更新了表�l�构�Q�impala的节�Ҏ(gu��)��不知道的
#必须通过客户端连接各个impala service�q�执行refresh来刷新metadata
#或者重启所有impala service

ivaneeo 2013-06-29 17:12 发表评论

Virtual Desktop

ivaneeo — Sat, 20 Oct 2012 05:18:00 GMT

8 Virtual Desktop program: Ulteo, NX Enteprise Server, FoSS CLOUD, Orcale Virtualbox, Thinstuff, JetClouding, Go Grid,2xCloud Computing

ivaneeo 2012-10-20 13:18 发表评论

kvm创徏

ivaneeo — Fri, 08 Jun 2012 09:55:00 GMT

sudo qemu-img create -f qcow2 -o size=30240M,preallocation=metadata win2003_hda.img
http://blog.kreyolys.com/2011/09/27/kvm-virtual-machines-disk-format-file-basedqcow2-or-block-devicelvm2/---比较
sudo virt-install \
--name win2003_test \
--ram=1024 \
--vcpus=2 \
--disk /kvm/win2003_hda.img,bus=virtio \
--network bridge:br0,model=virtio \
--vnc \
--accelerate \
-c /share/os/win2003-i386.iso \
--disk /home/kvm/virtio-win-1.1.16.vfd,device=floppy \
-c /home/kvm/virtio-win-0.1-22.iso \
--os-type=windows \
--os-variant=win2k3 \
--noapic \
--connect \
qemu:///system \
--hvm

http://www.howtoforge.com/installing-kvm-guests-with-virt-install-on-ubuntu-12.04-lts-server

http://www.linuxwind.org/download/virtio-win-1.1.16.vfd

http://alt.fedoraproject.org/pub/alt/virtio-win/latest/images/bin/virtio-win-0.1-22.iso

半虚拟化参考：(x��)
#!/bin/sh
WINISO=/path/to/win7.iso #Windows ISO
INSTALLDISK=win7virtio.img #Disk location. Can be LVM LV
VFD=http://alt.fedoraproject.org/pub/alt/virtio-win/latest/images/bin/virtio-win-1.1.16.vfd
DRVRISO=http://alt.fedoraproject.org/pub/alt/virtio-win/latest/images/bin/virtio-win-0.1-22.iso

[ -e $(basename $VFD) ] || wget $VFD
[ -e $(basename $DRVRISO) ] || wget $DRVRISO
[ -e $INSTALLDISK ] || qemu-img create $INSTALLDISK 30G

sudo virt-install -c qemu:///system --virt-type kvm --name win7virtio --ram 1024 --disk path="$INSTALLDISK",bus=virtio \
--disk $(basename $VFD),device=floppy --os-variant win7 --cdrom $(basename $DRVRISO) --cdrom "$WINISO" --vcpus 2
ENDING OF BASH SCRIPT
其他参考：(x��)

In my previous article KVM Guests: Using Virt-Install to Import an Existing Disk Image we discussed how to use virt-install to import an existing disk image, which already has an OS installed into it. Additionally in KVM Guests: Using Virt-Install to Install Debian and Ubuntu Guests I documented how to initiate an install directly off of the apt mirror of your choice for Debian and Ubuntu Guests using virt-install. In this article we will use virt-install to create a guest and begin the installation using a CD or ISO image for installation media.

Assumptions I Have Made

My KVM host is Ubuntu 10.10 and I am assuming that yours is as well. If it is not then the syntax might be slightly different or may not include the same features.
That you have kvm installed on the host and you can manually create VMs using virt-manager and they work perfectly.
That you have a bridge configured and working on other guests.
That you have virt-install and libvirt-bin installed as well as virt-manager or virt-viewer so that you can complete the install after the virt-install command has completed.
That you are trying to import disk images that support VirtIO devices (most recent Linux distributions, Windows does not natively support the VirtIO interface, so you will had to have manually installed the VirtIO drivers into your disk image).

The Basic Command

# virt-install -n vmname -r 2048 --os-type=linux --os-variant=ubuntu --disk /kvm/images/disk/vmname_boot.img,device=disk,bus=virtio,size=40,sparse=true,format=raw -w bridge=br0,model=virtio --vnc --noautoconsole -c /kvm/images/iso/ubuntu.iso

Parameters Detailed

-n vmname [the name of your VM]
-r 2048 [the amount of RAM in MB for your VM]
–os-type=linux [the type of OS linux or windows]
–os-variant=ubuntu [the distribution or version of Windows for a full list see man virt-install]
–disk /kvm/images/disk/vmname_boot.img,device=disk,bus=virtio,size=40,sparse=true,format=raw [this is a long one you define the path, then comma delimited options, device is the type of storage cdrom, disk, floppy, bus is the interface ide, scsi, usb, virtio - virtio is the fastest but you need to install the drivers for Windows and older versions of Linux don't have support]
-w bridge=br0,model=virtio [the network configuration, in this case we are connecting to a bridge named br0, and using the virtio drivers which perform much better if you are using an OS which doesn't support virtio you can use e1000 or rtl8139. You could alternatively use --nonetworks if you do not need networking]
–vnc [configures the graphics card to use VNC allowing you to use virt-viewer or virt-manager to see the desktop as if you were at the a monitor of a physical machine]
–noautoconsole [configures the installer to NOT automatically try to open virt-viewer to view the console to complete the installation - this is helpful if you are working on a remote system through SSH]
-c /kvm/images/iso/ubuntu.iso [this option specifies the cdrom device or iso image with which to boot off of. You could additionally specify the cdrom device as a disk device, and not use the -c option, it will then boot off of the cdrom if you don't specify another installation method]

LVM Disk Variation

# virt-install -n vmname -r 2048 --os-type=linux --os-variant=ubuntulucid --disk /dev/vg_name/lv_name,device=disk,bus=virtio -w bridge=br0,model=virtio --vnc --noautoconsole -c /kvm/images/iso/ubuntu.iso

No VirtIO Variation (Uses IDE and e1000 NIC Emulation)

# virt-install -n vmname -r 2048 --os-type=linux --os-variant=ubuntulucid --disk /kvm/images/disk/vmname_boot.img,device=disk,bus=ide,size=40,sparse=true,format=raw -w bridge=br0,model=e1000 --vnc --noautoconsole -c /kvm/images/iso/ubuntu.iso

Define VM Without Installation Method

# virt-install -n vmname -r 2048 --os-type=linux --os-variant=ubuntulucid --disk /kvm/images/disk/vmname_boot.img,device=disk,bus=virtio,size=40,sparse=true,format=raw --disk /kvm/images/iso/ubuntu.iso,device=cdrom -w bridge=br0,model=virtio --vnc --noautoconsole

ivaneeo 2012-06-08 17:55 发表评论

Cassandra、MongoDB、CouchDB、Redis、Riak、HBase比较

ivaneeo — Tue, 05 Jul 2011 07:11:00 GMT

本文有标题党之嫌。在NoSQL如日中天的今天，各种NoSQL产品可谓百花齐放�Q�但每一个��品都有自��q��特点�Q�有长处也有不适合的场景。本文对Cassandra, Mongodb, CouchDB, Redis, Riak 以及(qi��ng) HBase �q�行了多斚w��的特点分析，希望看完此文的�?zh��n)�能够对这些NoSQL产品的特性有所了解�?/p>

CouchDB

Written in: Erlang
Main point: DB consistency, ease of use
License: Apache
Protocol: HTTP/REST
Bi-directional (!) replication,
continuous or ad-hoc,
with conflict detection,
thus, master-master replication. (!)
MVCC – write operations do not block reads
Previous versions of documents are available
Crash-only (reliable) design
Needs compacting from time to time
Views: embedded map/reduce
Formatting views: lists & shows
Server-side document validation possible
Authentication possible
Real-time updates via _changes (!)
Attachment handling
thus, CouchApps (standalone js apps)
jQuery library included

Best used: For accumulating, occasionally changing data, on which pre-defined queries are to be run. Places where versioning is important.

For example: CRM, CMS systems. Master-master replication is an especially interesting feature, allowing easy multi-site deployments.

Redis

Written in: C/C++
Main point: Blazing fast
License: BSD
Protocol: Telnet-like
Disk-backed in-memory database,
but since 2.0, it can swap to disk.
Master-slave replication
Simple keys and values,
but complex operations like ZREVRANGEBYSCORE
INCR & co (good for rate limiting or statistics)
Has sets (also union/diff/inter)
Has lists (also a queue; blocking pop)
Has hashes (objects of multiple fields)
Of all these databases, only Redis does transactions (!)
Values can be set to expire (as in a cache)
Sorted sets (high score table, good for range queries)
Pub/Sub and WATCH on data changes (!)

Best used: For rapidly changing data with a foreseeable database size (should fit mostly in memory).

For example: Stock prices. Analytics. Real-time data collection. Real-time communication.

MongoDB

Written in: C++
Main point: Retains some friendly properties of SQL. (Query, index)
License: AGPL (Drivers: Apache)
Protocol: Custom, binary (BSON)
Master/slave replication
Queries are javascript expressions
Run arbitrary javascript functions server-side
Better update-in-place than CouchDB
Sharding built-in
Uses memory mapped files for data storage
Performance over features
After crash, it needs to repair tables
Better durablity coming in V1.8

Best used: If you need dynamic queries. If you prefer to define indexes, not map/reduce functions. If you need good performance on a big DB. If you wanted CouchDB, but your data changes too much, filling up disks.

For example: For all things that you would do with MySQL or PostgreSQL, but having predefined columns really holds you back.

Cassandra

Written in: Java
Main point: Best of BigTable and Dynamo
License: Apache
Protocol: Custom, binary (Thrift)
Tunable trade-offs for distribution and replication (N, R, W)
Querying by column, range of keys
BigTable-like features: columns, column families
Writes are much faster than reads (!)
Map/reduce possible with Apache Hadoop
I admit being a bit biased against it, because of the bloat and complexity it has partly because of Java (configuration, seeing exceptions, etc)

Best used: When you write more than you read (logging). If every component of the system must be in Java. (“No one gets fired for choosing Apache’s stuff.”)

For example: Banking, financial industry (though not necessarily for financial transactions, but these industries are much bigger than that.) Writes are faster than reads, so one natural niche is real time data analysis.

Riak

Written in: Erlang & C, some Javascript
Main point: Fault tolerance
License: Apache
Protocol: HTTP/REST
Tunable trade-offs for distribution and replication (N, R, W)
Pre- and post-commit hooks,
for validation and security.
Built-in full-text search
Map/reduce in javascript or Erlang
Comes in “open source” and “enterprise” editions

Best used: If you want something Cassandra-like (Dynamo-like), but no way you’re gonna deal with the bloat and complexity. If you need very good single-site scalability, availability and fault-tolerance, but you’re ready to pay for multi-site replication.

For example: Point-of-sales data collection. Factory control systems. Places where even seconds of downtime hurt.

HBase

Written in: Java
Main point: Billions of rows X millions of columns
License: Apache
Protocol: HTTP/REST (also Thrift)
Modeled after BigTable
Map/reduce with Hadoop
Query predicate push down via server side scan and get filters
Optimizations for real time queries
A high performance Thrift gateway
HTTP supports XML, Protobuf, and binary
Cascading, hive, and pig source and sink modules
Jruby-based (JIRB) shell
No single point of failure
Rolling restart for configuration changes and minor upgrades
Random access performance is like MySQL

Best used: If you’re in love with BigTable. And when you need random, realtime read/write access to your Big Data.

For example: Facebook Messaging Database (more general example coming soon)

原文链接�Q?a >Cassandra vs MongoDB vs CouchDB vs Redis vs Riak vs HBase comparison

ivaneeo 2011-07-05 15:11 发表评论

Java虚拟机类型卸载和�c�d��更新解析

ivaneeo — Thu, 16 Jun 2011 12:05:00 GMT

前面�pȝ��讨论�q�java�c�d��加蝲(loading)的问题，在这��文章中��要分析一下java�c�d��卸蝲(unloading)的问题，�q�简要分析一下如何解军_��何运行时加蝲newly compiled version的问题�?br />
【相兌��范摘要�?br />    首先看一下，关于java虚拟��范中时如何阐�q�类型卸�?unloading)的：(x��)
    A class or interface may be unloaded if and only if its class loader is unreachable. The bootstrap class loader is always reachable; as a result�Q?system classes may never be unloaded.
    Java虚拟��范中关于�c�d��卸蝲的内容就�q�么��单两句话�Q�大致意思就是：(x��)只有当加载该�c�d��的类加蝲器实�?非类加蝲器类�?为unreachable状态时�Q�当前被加蝲的类型才被卸�?启动�c�d��载器实例永远为reachable状态，由启动类加蝲器加载的�c�d��可能永远不会(x��)被卸�?

    我们再看一下Java语言规范提供的关于类型卸载的更详�l�的信息(部分摘录)�Q?br />    //摘自JLS 12.7 Unloading of Classes and Interfaces
    1、An implementation of the Java programming language may unload classes.
    2、Class unloading is an optimization that helps reduce memory use. Obviously�Q�the semantics of a program should not depend on whether and how a system chooses to implement an optimization such as class unloading.
    3、Consequently�Q�whether a class or interface has been unloaded or not should be transparent to a program

    通过以上我们可以得出�l�论�Q?�c�d��卸蝲(unloading)仅仅是作��Z��U�减��内存��用的性能优化措施存在的，具体和虚拟机实现有关�Q�对开发者来说是透明�?

    �U�观java语言规范�?qi��ng)其相关的API规范�Q�找不到昄��c�d��卸蝲(unloading)的接口，换句话说�Q?
    1、一个已�l�加载的�c�d��被卸载的几率很小臛_��被卸载的旉��是不��定�?br />    2、一个被特定�c�d��载器实例加蝲的类型运行时可以认�ؓ(f��)是无法被更新�?br />
【类型卸载进一步分析�?br />     前面提到�q�，如果惛_��载某�c�d��Q�必��M��证加载该�c�d��的类加蝲器处于unreachable状态，现在我们再看看有关unreachable状态的解释�Q?br />    1、A reachable object is any object that can be accessed in any potential continuing computation from any live thread.
    2、finalizer-reachable: A finalizer-reachable object can be reached from some finalizable object through some chain of references, but not from any live thread. An unreachable object cannot be reached by either means.

    某种�E�度上讲�Q�在一个稍微复杂的java应用中，我们很难准确判断��Z��个实例是否处于unreachable状态，所    以�ؓ(f��)了更加准��的��D��q�个所谓的unreachable状态，我们下面的测试代码尽量简单一�?

    【测试场景一】��用自定义�c�d��载器加蝲�Q?然后��试��其讄��为unreachable的状�?br />    说明�Q?br />    1、自定义�c�d��载器(��Z��单�v见， �q�里��假讑֊�载当前工�E�以外D盘某文�g夹的class)
    2、假讄��前有一个简单自定义�c�d��MyClass对应的字节码存在于D�Q?classes目录�?br />
public class MyURLClassLoader extends URLClassLoader {
   public MyURLClassLoader() {
      super(getMyURLs());
   }

   private static URL[] getMyURLs() {
    try {
       return new URL[]{new File ("D�Q?classes/").toURL()};
    } catch (Exception e) {
       e.printStackTrace();
       return null;
    }
}
}

1 public class Main {
2     public static void main(String[] args) {
3       try {
4          MyURLClassLoader classLoader = new MyURLClassLoader();
5          Class classLoaded = classLoader.loadClass("MyClass");
6          System.out.println(classLoaded.getName());
7
8          classLoaded = null;
9          classLoader = null;
10
11          System.out.println("开始GC");
12          System.gc();
13          System.out.println("GC完成");
14        } catch (Exception e) {
15            e.printStackTrace();
16        }
17     }
18 }

        我们增加虚拟机参�?verbose�Q�gc来观察垃圾收集的情况�Q�对应输出如下：(x��)
MyClass
开始GC
[Full GC[Unloading class MyClass]
207K->131K(1984K)�Q?0.0126452 secs]
GC完成

    【测试场景二】��用系�l�类加蝲器加载，但是无法��其讄��为unreachable的状�?br />      说明�Q�将场景一中的MyClass�c�d��字节码文件放�|�到工程的输出目录下�Q�以便系�l�类加蝲器可以加�?br />
1 public class Main {
2     public static void main(String[] args) {
3      try {
4       Class classLoaded = ClassLoader.getSystemClassLoader().loadClass(
5 "MyClass");
6
7
8      System.out.printl(sun.misc.Launcher.getLauncher().getClassLoader());
9      System.out.println(classLoaded.getClassLoader());
10      System.out.println(Main.class.getClassLoader());
11
12      classLoaded = null;
13
14      System.out.println("开始GC");
15      System.gc();
16      System.out.println("GC完成");
17
18      //判断当前�pȝ��c�d��载器是否有被引用(是否是unreachable状�?
19      System.out.println(Main.class.getClassLoader());
20     } catch (Exception e) {
21         e.printStackTrace();
22     }
23   }
24 }

        我们增加虚拟机参�?verbose�Q�gc来观察垃圾收集的情况�Q?对应输出如下�Q?
sun.misc.Launcher$AppClassLoader@197d257
sun.misc.Launcher$AppClassLoader@197d257
sun.misc.Launcher$AppClassLoader@197d257
开始GC
[Full GC 196K->131K(1984K)�Q?0.0130748 secs]
GC完成
sun.misc.Launcher$AppClassLoader@197d257

        �׃��pȝ��ClassLoader实例(AppClassLoader@197d257">sun.misc.Launcher$AppClassLoader@197d257)加蝲了很多类型，而且又没有明��的接口��其讄��为null�Q�所以我们无法将加蝲MyClass�c�d��的系�l�类加蝲器实例设�|��ؓ(f��)unreachable状态，所以通过��试�l�果我们可以看出�Q�MyClass�c�d��q�没有被卸蝲.(说明�Q?像类加蝲器实例这�U�较为特�D�的对象一般在很多地方被引用， �?x��)在虚拟��Z��呆比较长的时�?

    【测试场景三】��用扩展类加蝲器加载，但是无法��其讄��为unreachable的状�?br />
        说明�Q�将��试场景二中的MyClass�c�d��字节码文件打包成jar攄��到JRE扩展目录下，以便扩展�c�d��载器可以加蝲的到。由于标志扩展ClassLoader实例(ExtClassLoader@7259da">sun.misc.Launcher$ExtClassLoader@7259da)加蝲了很多类型，而且又没有明��的接口��其讄��为null�Q�所以我们无法将加蝲MyClass�c�d��的系�l�类加蝲器实例设�|��ؓ(f��)unreachable状态，所以通过��试�l�果我们可以看出�Q�MyClass�c�d��q�没有被卸蝲.

1 public class Main {
2      public static void main(String[] args) {
3        try {
4          Class classLoaded = ClassLoader.getSystemClassLoader().getParent()
5 .loadClass("MyClass");
6
7          System.out.println(classLoaded.getClassLoader());
8
9          classLoaded = null;
10
11          System.out.println("开始GC");
12          System.gc();
13          System.out.println("GC完成");
14          //判断当前标准扩展�c�d��载器是否有被引用(是否是unreachable状�?
15          System.out.println(Main.class.getClassLoader().getParent());
16       } catch (Exception e) {
17          e.printStackTrace();
18       }
19    }
20 }

        我们增加虚拟机参�?verbose�Q�gc来观察垃圾收集的情况�Q�对应输出如下：(x��)
sun.misc.Launcher$ExtClassLoader@7259da
开始GC
[Full GC 199K->133K(1984K)�Q?0.0139811 secs]
GC完成
sun.misc.Launcher$ExtClassLoader@7259da

    关于启动�c�d��载器我们��׃��需再做相关的测试了�Q�jvm规范和JLS中已�l�有明确的说明了.

    【类型卸载�ȝ��?br />    通过以上的相��x��?虽然��试的场景较为简�?我们可以大致�q�样概括�Q?br />    1、有启动�c�d��载器加蝲的类型在整个�q�行期间是不可能被卸载的(jvm和jls规范).
    2、被�pȝ��c�d��载器和标准扩展类加蝲器加载的�c�d��在运行期间不太可能被卸蝲�Q�因为系�l�类加蝲器实例或者标准扩展类的实例基本上在整个运行期间总能直接或者间接的讉K��的到�Q�其辑ֈ�unreachable的可能性极��?(当然�Q�在虚拟机快退出的时候可以，因�ؓ(f��)不管ClassLoader实例或者Class(java.lang.Class)实例也都是在堆中存在�Q�同样遵循垃圾收集的规则).
    3、被开发者自定义的类加蝲器实例加载的�c�d��只有在很��单的上下文环境中才能被卸载，而且一般还要借助于强制调用虚拟机的垃圾收集功能才可以做到.可以预想�Q�稍微复杂点的应用场景中(��其很多时候，用户在开发自定义�c�d��载器实例的时候采用缓存的�{�略以提高系�l�性能)�Q�被加蝲的类型在�q�行期间也是几乎不太可能被卸载的(臛_��卸蝲的时间是不确定的).

      �l�合以上三点�Q�我们可以默认前面的�l�论1�Q?一个已�l�加载的�c�d��被卸载的几率很小臛_��被卸载的旉��是不��定�?同时�Q�我们可以看的出来，开发者在开发代码时候，不应该对虚拟机的�c�d��卸蝲做�Q何假讄��前提下来实现�pȝ��中的特定功能.

      【类型更新进一步分析�?br />    前面已经明确说过�Q�被一个特定类加蝲器实例加载的特定�c�d��在运行时是无法被更新�?注意�q�里说的
         是一个特定的�c�d��载器实例�Q�而非一个特定的�c�d��载器�c�d��.

        【测试场景四�?br />        说明�Q�现在要删除前面已经攑֜�工程输出目录下和扩展目录下的对应的MyClass�c�d��对应的字节码

1 public class Main {
2      public static void main(String[] args) {
3        try {
4          MyURLClassLoader classLoader = new MyURLClassLoader();
5          Class classLoaded1 = classLoader.loadClass("MyClass");
6          Class classLoaded2 = classLoader.loadClass("MyClass");
7          //判断两次加蝲classloader实例是否相同
8           System.out.println(classLoaded1.getClassLoader() == classLoaded2.getClassLoader());
9
10         //判断两个Class实例是否相同
11           System.out.println(classLoaded1 == classLoaded2);
12       } catch (Exception e) {
13          e.printStackTrace();
14       }
15    }
16 }
        输出如下�Q?br />        true
        true

        通过�l�果我们可以看出来，两次加蝲获取到的两个Class�c�d��实例是相同的.那是不是��实是我们的自定�?br />       �c�d��载器真正意义上加载了两次�?即从获取class字节码到定义class�c�d��…整个�q�程�??
      通过对java.lang.ClassLoader的loadClass(String name�Q�boolean resolve)�Ҏ(gu��)��q�行调试�Q�我们可以看出来�Q�第�?br />      ��?nbsp; 加蝲�q�不是真正意义上的加载，而是直接�q�回了上�ơ加载的�l�果.

       说明�Q��ؓ(f��)了调试方便，在Class classLoaded2 = classLoader.loadClass("MyClass");行设�|�断点，然后单步跛_��Q?可以看到�W�二�ơ加载请求返回的�l�果直接是上�ơ加载的Class实例. 调试�q�程中的截图�?最好能自己调试一�?.


        【测试场景五】同一个类加蝲器实例重复加载同一�c�d��
        说明�Q�首先要对已有的用户自定义类加蝲器做一定的修改�Q�要覆盖已有的类加蝲逻辑�Q?MyURLClassLoader.java�cȝ��要修改如下：(x��)重新�q�行��试场景四中的测试代�?br />
1 public class MyURLClassLoader extends URLClassLoader {
2     //省略部分的代码和前面相同�Q�只是新增如下覆盖方�?
3     /*
4     * 覆盖默认的加载逻辑�Q�如果是D�Q?classes/下的�c�d��每次强制重新完整加蝲
5     *
6     * @see java.lang.ClassLoader#loadClass(java.lang.String)
7     */
8     @Override
9     public Class loadClass(String name) throws ClassNotFoundException {
10      try {
11        //首先调用�pȝ��c�d��载器加蝲
12         Class c = ClassLoader.getSystemClassLoader().loadClass(name);
13        return c;
14      } catch (ClassNotFoundException e) {
15       // 如果�pȝ��c�d��载器�?qi��ng)其父类加蝲器加载不上，则调用自�w�逻辑来加载D�Q?classes/下的�c�d��
16          return this.findClass(name);
17      }
18   }
19 }
说明�Q?this.findClass(name)�?x��)进一步调用父�c�URLClassLoader中的对应�Ҏ(gu��)��Q�其中涉�?qi��ng)到了defineClass(String name)的调用，所以说现在�c�d��载器MyURLClassLoader�?x��)针对D�Q?classes/目录下的�c�d��q�行真正意义上的强制加蝲�q�定义对应的�c�d��信息.

        ��试输出如下�Q?br />        Exception in thread "main" java.lang.LinkageError�Q?duplicate class definition�Q?MyClass
       at java.lang.ClassLoader.defineClass1(Native Method)
       at java.lang.ClassLoader.defineClass(ClassLoader.java�Q?20)
       at java.security.SecureClassLoader.defineClass(SecureClassLoader.java�Q?24)
       at java.net.URLClassLoader.defineClass(URLClassLoader.java�Q?60)
       at java.net.URLClassLoader.access$100(URLClassLoader.java�Q?6)
       at java.net.URLClassLoader$1.run(URLClassLoader.java�Q?95)
       at java.security.AccessController.doPrivileged(Native Method)
       at java.net.URLClassLoader.findClass(URLClassLoader.java�Q?88)
       at MyURLClassLoader.loadClass(MyURLClassLoader.java�Q?1)
       at Main.main(Main.java�Q?7)

       �l�论�Q�如果同一个类加蝲器实例重复强制加�?含有定义�c�d��defineClass动作)相同�c�d��Q�会(x��)引�vjava.lang.LinkageError: duplicate class definition.

       【测试场景六】同一个加载器�c�d��的不同实例重复加载同一�c�d��

1 public class Main {
2     public static void main(String[] args) {
3       try {
4         MyURLClassLoader classLoader1 = new MyURLClassLoader();
5         Class classLoaded1 = classLoader1.loadClass("MyClass");
6         MyURLClassLoader classLoader2 = new MyURLClassLoader();
7         Class classLoaded2 = classLoader2.loadClass("MyClass");
8
9         //判断两个Class实例是否相同
10          System.out.println(classLoaded1 == classLoaded2);
11       } catch (Exception e) {
12          e.printStackTrace();
13       }
14    }
15 }

      ��试对应的输出如下：(x��)
      false


        【类型更新�ȝ��?nbsp;
     �׃��同类加蝲器实例重复强制加�?含有定义�c�d��defineClass动作)同一�c�d��不会(x��)引�vjava.lang.LinkageError错误�Q?但是加蝲�l�果对应的Class�c�d��实例是不同的�Q�即实际上是不同的类�?虽然包名+�c�d��相同). 如果强制转化使用�Q�会(x��)引�vClassCastException.(说明�Q?头一�D�|��间那��文章中解释�q�，��Z��么不同类加蝲器加载同名类型实际得到的�l�果其实是不同类型，在JVM中一个类用其全名和一个加载类ClassLoader的实例作为唯一标识�Q�不同类加蝲器加载的�c�d��被置于不同的命名�I�间).

        应用场景�Q�我们在开发的时候可能会(x��)遇到�q�样的需求，��是要动态加载某指定�c�d��class文�g的不同版本，以便能动态更新对应功�?
         ��Q?br />        1. 不要寄希望于�{�待指定�c�d��的以前版本被卸蝲�Q�卸载行为对java开发�h员透明�?
        2. 比较可靠的做法是�Q�每�ơ创建特定类加蝲器的新实例来加蝲指定�c�d��的不同版本，�q�种使用场景下，一般就要牺牲缓存特定类型的�c�d��载器实例以带来性能优化的策略了.对于指定�c�d��已经被加载的版本�Q?�?x��)在适当时机辑ֈ�unreachable状态，被unload�q�垃圑֛��?每次使用完类加蝲器特定实例后(��定不需要再使用�?�Q?��其昄��赋�ؓ(f��)null�Q?�q�样可能�?x��)比较快的达到jvm 规范中所说的�c�d��载器实例unreachable状态，增大已经不再使用的类型版本被��快卸蝲的机�?
        3. 不得不提的是�Q�每�ơ用新的�c�d��载器实例��d��载指定类型的指定版本�Q�确实会(x��)带来一定的内存消耗，一般类加蝲器实例会(x��)在内存中保留比较长的旉��. 在bea开发者网站上扑ֈ�一��相关的文章(有专门分析ClassLoader的部�?�Q�http�Q?/dev2dev.bea.com/pub/a/2005/06/memory_leaks.html

           写的�q�程中参考了jvm规范和jls�Q?�q�参考了sun公司官方�|�站上的一些bug的分析文档�?br />
           �Ƣ迎大家批评指正�Q?br />

本博客中的所有文章、随�W�除了标题中含有引用或者�{载字��L(f��ng)��Q�其他均为原创。�{载请注明出处�Q�谢谢！

ivaneeo 2011-06-16 20:05 发表评论

hbase单独启动region server

ivaneeo — Thu, 16 Jun 2011 04:10:00 GMT

启动集群中所有的regionserver
./hbase-daemons.sh start regionserver
启动某个regionserver
./hbase-daemon.sh start regionserver

ivaneeo 2011-06-16 12:10 发表评论

ivaneeo — Wed, 15 Jun 2011 09:17:00 GMT

做了几天工程�Q�对HBase中的表操作熟�(zh��n)�了一下。下面�ȝ��一下常用的表操作和�Ҏ(gu��)��出错的几个方面。当然主要来源于大牛们的文章。我在前人的基础上稍作解释�?/p>
1.�q�接HBase中的表testtable,用户名：(x��)root,密码�Q�root

public void ConnectHBaseTable()
{
  Configuration conf = new Configuration();
        conf.set("hadoop.job.ugi", "root,root");
  HBaseConfiguration config = new HBaseConfiguration();
  try
  {
   table = new HTable(config, "testtable");
  }catch(Exception e){e.printStackTrace();}
}

2.�Ҏ(gu��)��行名name获得一行数据，存入Result.注意HBase中的表数据是字节存储的�?/p>
   下面的例子表�C��得行名�ؓ(f��)name的行的famA列族col1列的数据�?/p>
      String rowId = "name";
      Get get = new Get(rowId);
  Result result = hTable.get(get);
  byte[] value = result.getValue(famA, col1);
  System.out.println(Bytes.toString(value));

3.向表中存数据

      下面的例子表�C�写入一行。行名�ؓ(f��)abcd�Q�famA列族col1列的数据�?hello world!"�?/p>
      byte[] rowId = Bytes.toBytes("abcd");
  byte[] famA = Bytes.toBytes("famA");
  byte[] col1 = Bytes.toBytes("col1");
  Put put = new Put(rowId).
add(famA, col1, Bytes.toBytes("hello world!"));
hTable.put(put);


4.扫描的用法（scan�Q�：(x��)便于获得自己需要的数据�Q�相当于SQL查询�?/span>

      byte[] famA = Bytes.toBytes("famA");
  byte[] col1 = Bytes.toBytes("col1");

  HTable hTable = new HTable("test");

      //表示要查询的行名是从a开始，到z�l�束�?br />      Scan scan = new Scan(Bytes.toBytes("a"), Bytes.toBytes("z"));


      //用scan.setStartRow(Bytes.toBytes(""));讄��起始�?/span>

      //用scan.setStopRow(Bytes.toBytes(""));讄��l�止�?/span>

      //表示查询famA族col1�?/span>

      scan.addColumn(famA, col1);

      //注意�Q�下面是filter的写法。相当于SQL的where子句

      //表示famA族col1列的数据�{�于"hello world!"
      SingleColumnValueFilter singleColumnValueFilterA = new SingleColumnValueFilter(
famA, col1, CompareOp.EQUAL, Bytes.toBytes("hello world!"));
singleColumnValueFilterA.setFilterIfMissing(true);

      //表示famA族col1列的数据�{�于"hello hbase!"
      SingleColumnValueFilter singleColumnValueFilterB = new SingleColumnValueFilter(
famA, col1, CompareOp.EQUAL, Bytes.toBytes("hello hbase!"));
singleColumnValueFilterB.setFilterIfMissing(true);


      //表示famA族col1列的数据是两者中的一�?br />      FilterList filter = new FilterList(Operator.MUST_PASS_ONE, Arrays
.asList((Filter) singleColumnValueFilterA,
singleColumnValueFilterB));

scan.setFilter(filter);

  ResultScanner scanner = hTable.getScanner(scan);
      //遍历每个数据
      for (Result result : scanner) {
System.out.println(Bytes.toString(result.getValue(famA, col1)));
  }

5.上面的代码容易出错的地方在于�Q�需要导入HBase的类所在的包。导入时需要选择包，�׃��c�d��能出现在HBase的各个子包中�Q�所以要选择好，下面列出常用的包。尽量用HBase的包

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.client.Get;
import org.apache.hadoop.hbase.client.HTable;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.client.ResultScanner;
import org.apache.hadoop.hbase.client.Scan;
import org.apache.hadoop.hbase.filter.Filter;
import org.apache.hadoop.hbase.filter.FilterList;
import org.apache.hadoop.hbase.filter.SingleColumnValueFilter;
import org.apache.hadoop.hbase.filter.CompareFilter.CompareOp;
import org.apache.hadoop.hbase.filter.FilterList.Operator;
import org.apache.hadoop.hbase.util.Bytes;

import java.io.IOException;
import java.text.SimpleDateFormat;
import java.util.Arrays;
import java.util.Date;

6.下面列出HBase常用的操�?/span>

�Q?�Q�时间戳到时间的转换.单一的时间戳无法�l�出直观的解释�?/span>

public String GetTimeByStamp(String timestamp)
{

  long datatime= Long.parseLong(timestamp);
     Date date=new Date(datatime);
     SimpleDateFormat   format=new   SimpleDateFormat("yyyy-MM-dd HH:MM:ss");
     String timeresult=format.format(date);
     System.out.println("Time : "+timeresult);
     return timeresult;
}

�Q?�Q�时间到旉��戳的转换。注意时间是字符串格式。字�W�串与时间的�怺�转换�Q�此不赘�q?/span>�?/span>

public String GetStampByTime(String time)
{
  String Stamp="";
  SimpleDateFormat sdf=new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");
  Date date;
  try
  {
   date=sdf.parse(time);
   Stamp=date.getTime()+"000";
   System.out.println(Stamp);
  }catch(Exception e){e.printStackTrace();}
  return Stamp;
}

上面��是我的一点心得。以后碰��C��么问题，再来解决�?/span>

参考文献：(x��)http://www.nearinfinity.com/blogs/aaron_mccurry/using_hbase-dsl.html

ivaneeo 2011-06-15 17:17 发表评论

HBase性能调优

ivaneeo — Wed, 15 Jun 2011 05:39:00 GMT

�?a target="_blank">官方Book Performance Tuning部分章节没有按配�|�项�q�行索引�Q�不能达到快速查阅的效果。所以我以配�|�项驱动�Q�重新整理了原文�Q��ƈ补充一些自��q��理解�Q�如有错误，�Ƣ迎指正�?/p>
配置优化

zookeeper.session.timeout
默认�?/strong>�Q?分钟�Q?80000ms�Q?br /> 说明�Q�RegionServer与Zookeeper间的�q�接��时旉��。当��时旉��到后�Q�ReigonServer�?被Zookeeper从RS集群清单中移除，HMaster收到�U�除通知后，�?x��)对�q�台server负责的regions重新balance�Q�让其他存活�?RegionServer接管.
调优�Q?br /> �q�个timeout军_��了RegionServer是否能够�?qi��ng)时的failover。设�|�成1分钟或更低，可以减少因等待超时而被廉��的failover旉��?br /> 不过需要注意的是，对于一些Online应用�Q�RegionServer的宕机到恢复旉��本��n��很短的�Q�网�l�闪断，crash�{�故障，�q�维可快速介入）�Q?如果调低timeout旉��Q�会(x��)得不偿失。因为当ReigonServer被正式从RS集群中移除时�Q�HMaster��开始做balance了，当故障的 RS快速恢复后�Q�这个balance动作是毫无意义的�Q�反而会(x��)使负载不均匀�Q�给RS带来更多负担�?/p>
hbase.regionserver.handler.count
默认�?/strong>�Q?0
说明�Q�RegionServer的请求处理IO�U�程数�?br /> 调优�Q?br /> �q�个参数的调优与内存息息相关�?br /> 较少的IO�U�程�Q�适用于处理单�ơ请求内存消耗较高的Big PUT场景�Q�大定w��单次PUT或设�|�了较大cache的scan�Q�均属于Big PUT�Q�或ReigonServer的内存比较紧张的场景�?br /> 较多的IO�U�程�Q�适用于单�ơ请求内存消耗低�Q�TPS要求非常高的场景�?br /> �q�里需要注意的是如果server的region数量很少�Q�大量的��h��都落在一个region上，因快速充满memstore触发flush��D��的读写锁�?x��)媄响全局TPS�Q�不是IO�U�程数越高越好�?br /> 压测�Ӟ��开�?a title="Enabling RPC-level logging" >Enabling RPC-level logging�Q�可以同时监控每�ơ请求的内存消耗和GC的状况，最后通过多次压测�l�果来合理调节IO�U�程数�?br /> �q�里是一个案�?nbsp;Hadoop and HBase Optimization for Read Intensive Search Applications�Q�作者在SSD的机器上讄��IO�U�程��Cؓ(f��)100�Q�仅供参考�?/p>
hbase.hregion.max.filesize
默认�?/strong>�Q?56M
说明�Q�在当前ReigonServer上单个Reigon的大��，单个Region��过指定值时�Q�这个Region�?x��)被自动split成更��的region�?br /> 调优�Q?br /> ��region对split和compaction友好�Q�因为拆分region或compact��region里的storefile速度很快�Q�内存占用低。缺�Ҏ(gu��)��split和compaction�?x��)很频繁�?br /> 特别是数量较多的��region不停地split, compaction�Q�会(x��)使响应时间�L动很大，region数量太多不仅�l�管理上带来�ȝ��Q�甚臛_��发一些Hbase的bug�?br /> 一�?12以下的都��小region�?/p>
大region�Q�则不太适合�l�常split和compaction�Q�因为做一�ơcompact和split�?x��)��生较长时间的停顿�Q�对应用的读写性能冲击非常大。此外，大region意味着较大的storefile�Q�compaction时对内存也是一个挑战�?br /> 当然�Q�大region�q�是有其用武之地�Q�你只要在某个访问量低峰的时间点�l�一做compact和split�Q�大region��可以发挥优势了�Q�毕竟它能保证绝大多数时间��^�E�的��d��性能�?/p>
既然split和compaction如此影响性能�Q�有没有办法��L��Q?br /> compaction是无法避免的�Q�split倒是可以从自动调整�ؓ(f��)手动�?br /> 只要通过��这个参数��D��大到某个很难辑ֈ�的��|��比如100G�Q�就可以间接��用自动split�Q�RegionServer不会(x��)�Ҏ(gu��)��到达100G的region做split�Q��?br /> 再配�?a title="class in org.apache.hadoop.hbase.util" >RegionSplitter�q�个工具�Q�在需要split�Ӟ��手动split�?br /> 手动split在灵�z�L��和�E�_��性上比�v自动split要高很多�Q�相反，��理成本增加不多�Q�比较推荐online实时�pȝ��使用�?/p>
内存斚w��Q�小region在设�|�memstore的大��g��比较灉|��Q�大region则过大过��都不行�Q�过大会(x��)��D��flush时app的IO wait增高�Q�过��则因store file�q�多��L��能降低�?/p>
hbase.regionserver.global.memstore.upperLimit/lowerLimit

默认��|��(x��)0.4/0.35
upperlimit说明�Q�hbase.hregion.memstore.flush.size �q�个参数的作用是当单个memstore辑ֈ�指定值时�Q�flush该memstore。但是，一台ReigonServer可能有成百上千个memstore�Q�每�?memstore也许未达到flush.size�Q�jvm的heap��׃��够用了。该参数��是��Z��限制memstores占用的��d��存�?br /> 当ReigonServer内所有的memstore所占用的内存综合达到heap�?0%�Ӟ��HBase�?x��)强制block所有的更新�q�flush�q�些memstore以释放所有memstore占用的内存�?br /> lowerLimit说明�Q? 同upperLimit�Q�只不过当全局memstore的内存达�?5%�Ӟ��它不�?x��)flush所有的memstore�Q�它�?x��)找一些内存占用较大的 memstore�Q�个别flush�Q�当然更新还是会(x��)被block。lowerLimit��是一个在全局flush前的补救措施。可以想象一下，如果 memstore需要在一�D�|��间内全部flush�Q�且�q�段旉��内无法接受写��h��Q�对HBase集群的性能影响是很大的�?br /> 调优�Q�这是一个Heap内存保护参数�Q�默认值已�l�能适用大多数场景。它的调整一般是��Z��配合某些专属优化�Q�比如读密集型应用，��读�~�存开大，降低该��|��腑և�更多内存�l�其他模块��用�?br /> �q�个参数�?x��)给使用者带来什么媄响？
比如�Q?0G内存�Q?00个region�Q�每个memstore 64M�Q�假设每个region只有一个memstore�Q�那么当100个memstore�q�_��占用�?0%左右�Ӟ��׃��(x��)辑ֈ�l(f��)owerLimit的限制�?假设此时�Q�其他memstore同样有很多的写请求进来。在那些大的region未flush完，��可能又��过了upperlimit�Q�则所�?region都会(x��)被block�Q�开始触发全局flush�?/p>
hfile.block.cache.size

默认�?/strong>�Q?.2
说明�Q�storefile的读�~�存占用Heap的大��百分比�Q?.2表示20%。该值直接媄响数据读的性能�?br /> 调优�Q�当然是��大��好�Q�如果读比写��，开�?.4-0.5也没问题。如果读写较均衡�Q?.3左右。如果写比读多，果断默认吧。设�|�这个值的时候，你同时要参�?nbsp;hbase.regionserver.global.memstore.upperLimit �Q�该值是 memstore占heap的最大百分比�Q�两个参��C��个媄响读�Q�一个媄响写。如果两值加��h��过80-90%�Q�会(x��)有OOM的风险，谨慎讄��?/p>
hbase.hstore.blockingStoreFiles

默认��|��(x��)7
说明�Q�在compaction�Ӟ��如果一个Store�Q�Coulmn Family�Q�内有超�q?个storefile需要合�qӞ��则block所有的写请求，�q�行flush�Q�限制storefile数量增长�q�快�?br /> 调优�Q�block��h��?x��)媄响当前region的读写性能�Q�将��D��为单个region可以支撑的最大store file数量�?x��)是个不错的选择。最大storefile数量可通过region size/memstore size来计��。如果你��region size设�ؓ(f��)无限大，那么你需要预��C��个region可能产生的最大storefile数�?/p>
hbase.hregion.memstore.block.multiplier

默认��|��(x��)2
说明�Q�当一个region里的memstore��过单个memstore.size两倍的大小�Ӟ��block�?region的所有请求，�q�行flush�Q�释攑ֆ�存。虽然我们设�|�了memstore的��d��，比如64M�Q�但惌��一下，在最�?3.9M的时候，�?Put了一�?00M的数据或写请求量暴增�Q�最后一�U�钟put�?万次�Q�此时memstore的大��会(x��)瞬间暴涨到超�q�预期的memstore.size�?�q�个参数的作用是当memstore的大��增臌��q�memstore.size�Ӟ��block所有请求，遏制风险�q�一步扩大�?br /> 调优�Q? �q�个参数的默认��D��是比较靠��q��。如果你预估你的正常应用场景�Q�不包括异常�Q�不�?x��)出现突发写或写的量可控�Q�那么保持默认值即可。如果正常情况下�Q�你的写�?��׃��(x��)�l�常暴增�Q�那么你应该调大�q�个倍数�q�调整其他参数��|��比如hfile.block.cache.size�?hbase.regionserver.global.memstore.upperLimit/lowerLimit�Q�以预留更多内存�Q�防止HBase server OOM�?/p>
其他

启用LZO压羃
LZO�Ҏ(gu��)��Hbase默认的GZip�Q�前者性能较高�Q�后者压�~�比较高�Q�具体参�?nbsp;Using LZO Compression �?/strong>对于��x��高HBase��d��性能的开发者，采用LZO是比较好的选择。对于非常在乎存储空间的开发者，则徏议保持默认�?/p>
不要在一张表里定义太多的Column Family

Hbase目前不能良好的处理超�q?-3个CF的表。因为某个CF在flush发生�Ӟ��它邻�q�的CF也会(x��)因关联效应被触发flush�Q�最�l�导致系�l��生很多IO�?/p>
扚w��导入

在批量导入数据到Hbase前，你可以通过预先创徏region�Q�来�q��数据的负载。详�?nbsp;Table Creation: Pre-Creating Regions

Hbase客户端优�?/h3>
AutoFlush

��?a target="_top">HTable的setAutoFlush设�ؓ(f��)false�Q�可以支持客��L(f��ng)��扚w��更新。即当P(y��ng)ut填满客户端flush�~�存�Ӟ��才发送到服务端�?br /> 默认是true�?/p>
Scan Caching

scanner一�ơ缓存多��数据来scan�Q�从服务端一�ơ抓多少数据回来scan�Q��?br /> 默认值是 1�Q�一�ơ只取一条�?/p>
Scan Attribute Selection

scan时徏议指定需要的Column Family�Q�减��通信量，否则scan默认�?x��)返回整个row的所有数据（所有Coulmn Family�Q��?/p>
Close ResultScanners

通过scan取完数据后，记得要关闭ResultScanner�Q�否则RegionServer可能�?x��)出现问题�?/p>
Optimal Loading of Row Keys

当你scan一张表的时候，�q�回�l�果只需要row key�Q�不需要CF, qualifier,values,timestaps�Q�时�Q�你可以在scan实例中添加一个filterList�Q��ƈ讄�� MUST_PASS_ALL操作�Q�filterList中add FirstKeyOnlyFilter�?a target="_top">KeyOnlyFilter。这样可以减��网�l�通信量�?/p>
Turn off WAL on Puts

当P(y��ng)ut某些非重要数据时�Q�你可以讄��writeToWAL(false)�Q�来�q�一步提高写性能。writeToWAL(false)�?x��)在Put时放弃写WAL log。风险是�Q�当RegionServer宕机�Ӟ��可能你刚才Put的那些数据会(x��)丢失�Q�且无法恢复�?/p>
启用Bloom Filter

Bloom Filter通过�I�间换时��_(d��)��提高��L��作性能�?/p>
转蝲��h��明原文链接：(x��)http://kenwublog.com/hbase-performance-tuning

ivaneeo 2011-06-15 13:39 发表评论

HBase Compound Indexes

ivaneeo — Sat, 11 Jun 2011 08:21:00 GMT

We recently set up HBase and HBase-trx (from https://github.com/hbase-trx) to use multiple-column indexes with this code. After you compile it, just copy the jar and the hbase-trx jar into your hbase’s lib folder and you should be good to to!

When you create a composite index, you can see the metadata for the index by looking at the table description. One of the properties will read “INDEXES =>” followed by index names and ‘family:qualifier’ style column names in the index.

KeyGeneratorFactory:
package com.ir.store.hbase.indexes;

import java.util.List;

import org.apache.hadoop.hbase.client.tableindexed.IndexKeyGenerator;

public class KeyGeneratorFactory {

public static IndexKeyGenerator getInstance(List columns) { return new HBaseIndexKeyGenerator(columns); } }
HBaseIndexKeyGenerator:
package com.ir.store.hbase.indexes;

import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import java.util.ArrayList; import java.util.List; import java.util.Map; import org.apache.hadoop.hbase.client.tableindexed.IndexKeyGenerator; import org.apache.hadoop.hbase.util.Bytes;

public class HBaseIndexKeyGenerator extends Object implements IndexKeyGenerator { public static byte[] KEYSEPERATOR = "~;?".getBytes();

private int columnCount; private List columnNames = new ArrayList();

public HBaseIndexKeyGenerator(List memberColumns) {
// For new key generators
columnNames = memberColumns;
columnCount = memberColumns.size();
}

public HBaseIndexKeyGenerator() {
// Hollow constructor for deserializing -- should call readFields shortly
columnCount = 0;
}

public void readFields(DataInput binaryInput) throws IOException {
columnCount = binaryInput.readInt();
for (int currentColumn = 0; currentColumn < columnCount; currentColumn++)
columnNames.add(Bytes.readByteArray(binaryInput));
}

public void write(DataOutput binaryOutput) throws IOException {
binaryOutput.writeInt(columnCount);
for (byte[] columnName : columnNames)
Bytes.writeByteArray(binaryOutput, columnName);
}

public byte[] createIndexKey(byte[] baseRowIdentifier, Map baseRowData) { byte[] indexRowIdentifier = null; for (byte[] columnName: columnNames) { if (indexRowIdentifier == null) indexRowIdentifier = baseRowData.get(columnName); else indexRowIdentifier = Bytes.add(indexRowIdentifier, HBaseIndexKeyGenerator.KEYSEPERATOR, baseRowData.get(columnName)); } if (baseRowIdentifier != null) return Bytes.add(indexRowIdentifier, HBaseIndexKeyGenerator.KEYSEPERATOR, baseRowIdentifier); return indexRowIdentifier; } }

ivaneeo 2011-06-11 16:21 发表评论

HBase性能深度分析

ivaneeo — Fri, 10 Jun 2011 15:33:00 GMT

对于Bigtable�c�d��的分布式数据库应用来��_(d��)��用户往往�?x��)对其性能状况有极大的兴趣�Q�这其中又对实时数据插入性能更�ؓ(f��)��x��。HBase作�ؓ(f��)Bigtable的一个实玎ͼ�在这斚w��的性能�?x��)如何呢�Q�这��需要通过��试数据来说话了�?/p>
数据插入性能��试的设计场景是�q�样的，取随机值的Rowkey长度�?000字节�Q�固定值的Value长度�?000字节�Q�由于单行Row插入速度太快�Q�系�l�统计精度不够，所以将插入500行Row做一�ơ耗时�l�计�?/p>
�q�里要对HBase的特点做个说明，首先是Rowkey��gؓ(f��)何取随机敎ͼ��q�是因�ؓ(f��)HBase是对Rowkey�q�行排序的，随机Rowkey��被分配��C��同的region上，�q�样才能发挥出分布式数据库的性能优点。而Value对于HBase来说不会(x��)�q�行��M��解析�Q�其数据是否变化�Q�对性能是不应该有�Q何媄响的。同时�ؓ(f��)了简单�v见，所有的数据都将只插入到一个表格的同一个Column中�?/p>
在测试之初，需要对集群�q�行调优�Q�关闭可能大量耗费内存、带宽以�?qi��ng)CPU的服务，例如Apache的Http服务。保持集��的宁静度。此外，��Z��保证��试不受�q�扰�Q�Hbase的集��系�l�需要被独立�Q�以保证不与HDFS所在的Hadoop集群有所交叉�?/p>
那么做好一切准备，��开始进行数据灌入，客户端从Zookeeper上查询到Regionserver的地址后，开始源源不断的向Hbase的Regionserver上喂入Row�?/p>
�q�里�Q�我写了一个通过JFreeChart来实时生成图片的�E�序�Q�每3分钟�Q�喂数据的客��L(f��ng)��?x��)将获取到的耗时�l�计打印在一张十字坐标图中，�q�些囑֏�被保存在制定的web站点中，�q��过http服务展示出来。在通过长时间不间断的测试后�Q�我得到了如下图形：(x��)
�q�个囑�Ş非常有特点，好似一条直�U�上�Q�每隔一�D�|��间就�?x��)泛起一个�L��，且两个高��C��间必有一个较矮的波浪。高峰的间隔则呈现出��来��大的趋�ѝ��而较矮的波浪恰好处于两高峰的中间位置�?/p>
��Z��解释�q�个现象�Q�我对HDFS上Hbase所在的�ȝ��录下文�g�Q�以�?qi��ng)被插入表格的region情况�q�行了实时监控，以期发现�q�些波浪上发生了什么事情�?/p>
回溯到客��L(f��ng)��喂入数据的开始阶�D�，创徏表格�Q�在HDFS上便被创��Z��一个与表格同名的目录，该目录下��出现第一个region�Q�region中会(x��)以family名创��Z��个目录，�q�个目录下才存在记录具体数据的文件。同时在该表表名目录下，�q�会(x��)生成一�?#8220;compaction.dir”目录�Q�该目录��在family名目录下region文�g��过指定数目时用于合�q�region�?/p>
当第一个region目录出现的时候，内存中最初被写入的数据将被保存到�q�个文�g中，�q�个间隔是由选项“hbase.hregion.memstore.flush.size”军_��的，默认�?4MB�Q�该region所在的Regionserver的内存中一旦有��过64MB的数据的时候，��将被写入到region文�g中。这个文件将不断增殖�Q�直到超�q�由“hbase.hregion.max.filesize”军_��的文件大��时�Q�默认是256MB�Q�此时加上内存刷入的数据�Q�实际最大可能到256+64M�Q�，该region��被执行split�Q�立卌��一切�ؓ(f��)二，其过�E�是在该目录下创��Z��个名�?#8220;.splits”的目录作为标讎ͼ�然后由Regionserver��文件信息读取进来，分别写入��C��个新的region目录中，最后再��老的region删除。这里的标记目录“.splits”��避免在split�q�程中发生其他操作，起到�c�M��于多�U�程安全的锁功能。在新的region中，从老的region中切分出的数据独立�ؓ(f��)一个文件�ƈ不再接受新的数据�Q�该文�g大小��过�?4M�Q�最大可辑ֈ��Q?56+64�Q?2=160MB�Q�，内存中新的数据将被保存到一个重新创建的文�g中，该文件大��将�?4MB。内存每��h��一�ơ，region所在的目录下就��增加一�?4M的文�Ӟ��直到��L��件数��过�?#8220;hbase.hstore.compactionThreshold”指定的数量时�Q�默认�ؓ(f��)3�Q�，compaction�q�程��将被触发了。在上述��gؓ(f��)3�Ӟ��此时该region目录下，实际文�g数只有两个，�q�有额外的一个正处于内存中将要被刷入到磁盘的�q�程中。Compaction�q�程是Hbase的一个大动作�Q�Hbase不仅要将�q�些文�g转移�?#8220;compaction.dir”目录�q�行压羃�Q�而且在压�~�后的文件超�q?56MB�Ӟ��q�必��ȝ��卌��行split动作。这一�p�d��行�ؓ(f��)在HDFS上可谓是��d��倒�v�Q�媄响颇大。待Compaction�l�束之后�Q�后�l�的split依然�?x��)持�l�进行一��段旉��Q�直到所有的region都被切割分配完毕�Q�Hbase才会(x��)恢复�q�静�q�等待下一�ơ数据从内存写入到HDFS的到来�?/p>
理解了上�q�过�E�，则必然对HBase的数据插入性能��Z��是上图所�C�的曲线的原因一目了然。与X轴几乎��^行的直线�Q�表明数据正在被写入HBase的Regionserver所在机器的内存中。而较低的波峰意味着Regionserver正在��内存写入到HDFS上，较高的�L峰意味着Regionserver不仅正在��内存刷入到HDFS�Q�而且�q�在执行Compaction和Split两种操作。如果调�?#8220;hbase.hstore.compactionThreshold”的��gؓ(f��)一个较大的数量�Q�例如改�?�Q�可以预见，在每两个高峰之间必然�?x��)等间隔的出��C��ơ较低的波峰�Q��ƈ可预见到�Q�高峰的高度��远��过上述��gؓ(f��)3时的高峰高度�Q�因为Compaction的工作更��巨）。由于region数量由少到多�Q�而我们插入的Row的Rowkey是随机的�Q�因此每一个region中的数据都会(x��)均匀的增加，同一�D�|��间插入的数据��被分布到越来越多的region上，因此波峰之间的间隔时间也��会(x��)��来��长�?/p>
再次理解上述��Q�我们可以推断出Hbase的数据插入性能实际上应该被分�ؓ(f��)三种情况�Q�即直线状态、低峰状态和高峰状态。在�q�三�U�情况下得到的性能数据才是最�l�Hbase数据插入性能的真实描�q�。那么提供给用户的数据该是采取哪一个呢�Q�我认�ؓ(f��)直线状态由于其所占时间会(x��)较长�Q�尤其在用户写入数据的速度也许�q�不是那么快的情况下�Q�所以这个状态下得到的性能数据�l�果更应该提供给用户�?/p>

ivaneeo 2011-06-10 23:33 发表评论

ivaneeo — Fri, 10 Jun 2011 15:14:00 GMT

HBase的写效率�q�是很高的，但其随机��d��效率�q�不�?/p>
可以采取一些优化措施来提高其性能�Q�如�Q?/p>
1. 启用lzo压羃�Q�见�q�里
2. 增大hbase.regionserver.handler.count��Cؓ(f��)100
3. 增大hfile.block.cache.size�?.4�Q�提高cache大小
4. 增大hbase.hstore.blockingStoreFiles�?5
5. 启用BloomFilter�Q�在HBase0,89中可以设�|?/p>
6.Put时可以设�|�setAutoFlush为false�Q�到一定数目后再flushCommits

�?4个Region Server的集��上�Q�新建立一个lzo压羃�?/p>
��试的Put和Get的性能如下�Q?/p>
1. Put数据�Q?/p>
单线�E�灌�?.4亿数据，��p��?0分钟�Q�每�U�能辑ֈ�4万个�Q�这个性能��实很好了，不过插入的value比较?y��u)��，只有不到几十个字�?/p>
多线�E�put�Q�没有测试，因�ؓ(f��)单线�E�的效率已经相当高了
2. Get数据�Q?/p>
在没有�Q何Block Cache�Q�而且是Random Read的情况：(x��)
单线�E��^均每�U�只能到250个左�?/p>
6个线�E��^均每�U�能辑ֈ�1100个左�?/p>
16个线�E��^均每�U�能辑ֈ�2500个左�?/p>
有BlockCache�Q�曾�l�get�q�对应的row�Q�而且�q�在cache中）的情况：(x��)
单线�E��^均每�U�能�?600个左�?/p>
6个线�E��^均每�U�能辑ֈ�1.2万个左右
16个线�E��^均每�U�能辑ֈ�2.5万个左右

ivaneeo 2011-06-10 23:14 发表评论

HADOOP报错Incompatible namespaceIDs

ivaneeo — Thu, 09 Jun 2011 06:20:00 GMT

今早一来，�H�然发现使用-put命��o(h��)往HDFS里传数据传不上去了，�׃��大堆错误�Q�然后我使用bin/hadoop dfsadmin -report查看�pȝ��状�?/p>
admin@adw1:/home/admin/joe.wangh/hadoop-0.19.2>bin/hadoop dfsadmin -report
Configured Capacity: 0 (0 KB)
Present Capacity: 0 (0 KB)
DFS Remaining: 0 (0 KB)
DFS Used: 0 (0 KB)
DFS Used%: ?%

-------------------------------------------------
Datanodes available: 0 (0 total, 0 dead)

使用bin/stop-all.sh关闭HADOOP

admin@adw1:/home/admin/joe.wangh/hadoop-0.19.2>bin/stop-all.sh
stopping jobtracker
172.16.197.192: stopping tasktracker
172.16.197.193: stopping tasktracker
stopping namenode
172.16.197.193: no datanode to stop
172.16.197.192: no datanode to stop
172.16.197.191: stopping secondarynamenode

哦，看到了吧�Q�发现datanode前面�q�没有启动�v来。去DATANODE上查看一下日�?/p>
admin@adw2:/home/admin/joe.wangh/hadoop-0.19.2/logs>vi hadoop-admin-datanode-adw2.hst.ali.dw.alidc.net.log

************************************************************/
2010-07-21 10:12:11,987 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Incompatible namespaceIDs in /home/admin/joe.wangh/hadoop/data/dfs.data.dir: namenode namespaceID = 898136669; datanode namespaceID = 2127444065
        at org.apache.hadoop.hdfs.server.datanode.DataStorage.doTransition(DataStorage.java:233)
        at org.apache.hadoop.hdfs.server.datanode.DataStorage.recoverTransitionRead(DataStorage.java:148)
        at org.apache.hadoop.hdfs.server.datanode.DataNode.startDataNode(DataNode.java:288)
        at org.apache.hadoop.hdfs.server.datanode.DataNode.(DataNode.java:206)
        at org.apache.hadoop.hdfs.server.datanode.DataNode.makeInstance(DataNode.java:1239)
        at org.apache.hadoop.hdfs.server.datanode.DataNode.instantiateDataNode(DataNode.java:1194)
        at org.apache.hadoop.hdfs.server.datanode.DataNode.createDataNode(DataNode.java:1202)
        at org.apache.hadoop.hdfs.server.datanode.DataNode.main(DataNode.java:1324)
......

错误提示namespaceIDs不一致�?/span>

下面�l�出两种解决办法�Q�我使用的是�W�二�U��?/span>

Workaround 1: Start from scratch

I can testify that the following steps solve this error, but the side effects won't make you happy (me neither). The crude workaround I have found is to:

1.     stop the cluster

2.     delete the data directory on the problematic datanode: the directory is specified by dfs.data.dir in conf/hdfs-site.xml; if you followed this tutorial, the relevant directory is /usr/local/hadoop-datastore/hadoop-hadoop/dfs/data

3.     reformat the namenode (NOTE: all HDFS data is lost during this process!)

4.     restart the cluster

When deleting all the HDFS data and starting from scratch does not sound like a good idea (it might be ok during the initial setup/testing), you might give the second approach a try.

Workaround 2: Updating namespaceID of problematic datanodes

Big thanks to Jared Stehler for the following suggestion. I have not tested it myself yet, but feel free to try it out and send me your feedback. This workaround is "minimally invasive" as you only have to edit one file on the problematic datanodes:

1.     stop the datanode

2.     edit the value of namespaceID in /current/VERSION to match the value of the current namenode

3.     restart the datanode

If you followed the instructions in my tutorials, the full path of the relevant file is /usr/local/hadoop-datastore/hadoop-hadoop/dfs/data/current/VERSION (background: dfs.data.dir is by default set to ${hadoop.tmp.dir}/dfs/data, and we set hadoop.tmp.dir to /usr/local/hadoop-datastore/hadoop-hadoop).

If you wonder how the contents of VERSION look like, here's one of mine:

#contents of /current/VERSION

namespaceID=393514426

storageID=DS-1706792599-10.10.10.1-50010-1204306713481

cTime=1215607609074

storageType=DATA_NODE

layoutVersion=-13

原因:每次namenode format�?x��)重新创��Z��个namenodeId,而tmp/dfs/data下包含了上次format下的id,namenode format清空了namenode下的数据,但是没有晴空datanode下的数据,��D��启动时失�?所要做的就是每�ơfotmat�?清空tmp一�?的所有目�?

ivaneeo 2011-06-09 14:20 发表评论

CouchDB	Written in: Erlang Main point: DB consistency, ease of use License: Apache Protocol: HTTP/REST Bi-directional (!) replication, continuous or ad-hoc, with conflict detection, thus, master-master replication. (!) MVCC – write operations do not block reads Previous versions of documents are available Crash-only (reliable) design Needs compacting from time to time Views: embedded map/reduce Formatting views: lists & shows Server-side document validation possible Authentication possible Real-time updates via _changes (!) Attachment handling thus, CouchApps (standalone js apps) jQuery library included Best used: For accumulating, occasionally changing data, on which pre-defined queries are to be run. Places where versioning is important. For example: CRM, CMS systems. Master-master replication is an especially interesting feature, allowing easy multi-site deployments.
Redis	Written in: C/C++ Main point: Blazing fast License: BSD Protocol: Telnet-like Disk-backed in-memory database, but since 2.0, it can swap to disk. Master-slave replication Simple keys and values, but complex operations like ZREVRANGEBYSCORE INCR & co (good for rate limiting or statistics) Has sets (also union/diff/inter) Has lists (also a queue; blocking pop) Has hashes (objects of multiple fields) Of all these databases, only Redis does transactions (!) Values can be set to expire (as in a cache) Sorted sets (high score table, good for range queries) Pub/Sub and WATCH on data changes (!) Best used: For rapidly changing data with a foreseeable database size (should fit mostly in memory). For example: Stock prices. Analytics. Real-time data collection. Real-time communication.
MongoDB	Written in: C++ Main point: Retains some friendly properties of SQL. (Query, index) License: AGPL (Drivers: Apache) Protocol: Custom, binary (BSON) Master/slave replication Queries are javascript expressions Run arbitrary javascript functions server-side Better update-in-place than CouchDB Sharding built-in Uses memory mapped files for data storage Performance over features After crash, it needs to repair tables Better durablity coming in V1.8 Best used: If you need dynamic queries. If you prefer to define indexes, not map/reduce functions. If you need good performance on a big DB. If you wanted CouchDB, but your data changes too much, filling up disks. For example: For all things that you would do with MySQL or PostgreSQL, but having predefined columns really holds you back.
Cassandra	Written in: Java Main point: Best of BigTable and Dynamo License: Apache Protocol: Custom, binary (Thrift) Tunable trade-offs for distribution and replication (N, R, W) Querying by column, range of keys BigTable-like features: columns, column families Writes are much faster than reads (!) Map/reduce possible with Apache Hadoop I admit being a bit biased against it, because of the bloat and complexity it has partly because of Java (configuration, seeing exceptions, etc) Best used: When you write more than you read (logging). If every component of the system must be in Java. (“No one gets fired for choosing Apache’s stuff.”) For example: Banking, financial industry (though not necessarily for financial transactions, but these industries are much bigger than that.) Writes are faster than reads, so one natural niche is real time data analysis.
Riak	Written in: Erlang & C, some Javascript Main point: Fault tolerance License: Apache Protocol: HTTP/REST Tunable trade-offs for distribution and replication (N, R, W) Pre- and post-commit hooks, for validation and security. Built-in full-text search Map/reduce in javascript or Erlang Comes in “open source” and “enterprise” editions Best used: If you want something Cassandra-like (Dynamo-like), but no way you’re gonna deal with the bloat and complexity. If you need very good single-site scalability, availability and fault-tolerance, but you’re ready to pay for multi-site replication. For example: Point-of-sales data collection. Factory control systems. Places where even seconds of downtime hurt.
HBase	Written in: Java Main point: Billions of rows X millions of columns License: Apache Protocol: HTTP/REST (also Thrift) Modeled after BigTable Map/reduce with Hadoop Query predicate push down via server side scan and get filters Optimizations for real time queries A high performance Thrift gateway HTTP supports XML, Protobuf, and binary Cascading, hive, and pig source and sink modules Jruby-based (JIRB) shell No single point of failure Rolling restart for configuration changes and minor upgrades Random access performance is like MySQL Best used: If you’re in love with BigTable. And when you need random, realtime read/write access to your Big Data. For example: Facebook Messaging Database (more general example coming soon)

一本大道香蕉久在线播放29,成年永久一区二区三区免费视频,男人天堂亚洲

mesos调度框架

centos6.5 docker install

docker run restart

mincloud install log

mysql cluster install faq

centos7 testing yum

わV��ップ�Q?/etc/yum.repos.d/virt7-testing.repo というファイルを作ります�?/h1>/etc/yum.repos.d/virt7-testing.repo[virt7-testing] name=virt7-testing baseurl=http://cbs.centos.org/repos/virt7-testing/x86_64/os/ enabled=0 gpgcheck=0

解决KVM中鼠标不同步问题

Linux:

Windows:

openstack virt vnc port

ceilometer alarm例子

curl openstack

ubuntu docker1.5 install

docker api demo

ndb manage show

docker!

docker-registry:

cloudstack xenserver agent

Hazelcast River Plugin for ElasticSearch

安装

安装插�g

ES概念

elasticsearch的基本用�?/strong>

Cloudera Impala TarBall �~�译、安装与配置

Virtual Desktop

kvm创徏

Cassandra、MongoDB、CouchDB、Redis、Riak、HBase比较

CouchDB

Redis

MongoDB

Cassandra

Riak

HBase

Java虚拟机类型卸载和�c�d��更新解析

hbase单独启动region server

HBase性能调优

配置优化

其他

HBase Compound Indexes

HBase性能深度分析

HADOOP报错Incompatible namespaceIDs

わV��ップ�Q?/etc/yum.repos.d/virt7-testing.repo というファイルを作ります�?/h1>
/etc/yum.repos.d/virt7-testing.repo
[virt7-testing] name=virt7-testing baseurl=http://cbs.centos.org/repos/virt7-testing/x86_64/os/ enabled=0 gpgcheck=0