国内在线精品,中文字幕av免费专区久久,成年人视频免费在线播放

Nut开发环境搭�?虚拟��Z��hadoop0.20.2+zookeeper3.3.3+hbase0.90.2开发环境的搭徏)

nianzai — Tue, 19 Apr 2011 03:32:00 GMT

blog: http://www.aygfsteel.com/nianzai/

code: http://code.google.com/p/nutla/

一、安�?br /> 1�?nbsp;安装虚拟�?Oracle VM VirtualBox4.0.4
2�?nbsp;在虚拟机下安�?Red Hat 6.0
3�?nbsp;安装jdk jdk-6u24-linux-i586.bin 安装路径为：/home/nianzai/jdk1.6.0_24
4�?nbsp;安装hadoop hadoop-0.20.2.tar.gz 安装路径为：/home/nianzai/hadoop-0.20.2
5�?nbsp;安装zookeeper zookeeper-3.3.3.tar.gz 安装路径为：/home/nianzai/zookeeper-3.3.3
6�?nbsp;安装hbase hbase-0.90.2.tar.gz 安装路径为：/home/nianzai/hbase-0.90.2

二、配�|?br /> 1、Linux配置
ssh-keygen –t rsa -P ''
cd .ssh
cp id_rsa.pub authorized_keys

/etc/hosts里增�?192.168.195.128 master
/etc/profile 里增�?br /> export JAVA_HOME=/home/nianzai/jdk1.6.0_24
export PATH=$PATH:$JAVA_HOME/bin

2、hadoop配置
hadoop-env.sh
JAVA_HOME=/home/nianzai/jdk1.6.0._24

core-site.xml

hadoop.tmp.dir
/home/nianzai/hadoop

fs.default.name
hdfs://master:9000

hdfs-site.xml

dfs.replication
1

mapred-site.xml

mapred.job.tracker
master:9001

masters
master

sh hadoop namenode -format
sh start-all.sh
sh hadoop fs -mkdir input

3、zookeeper配置
zoo.cfg
tickTime=2000
initLimit=10
syncLimit=5
dataDir=/home/nianzai/zkdata
clientPort=2181

sh zkServer.sh start

4、hbase配置
hbase-env.sh
export JAVA_HOME=/home/nianzai/jdk1.6.0_24
export HBASE_MANAGES_ZK=false

��hbase0.90.2 lib目录下hadoop-core-0.20-append-r1056497.jar删除�Q�替换成hadoop0.20.2 下的hadoop-0.20.2-core.jar

hbase-site.xml

    hbase.rootdir
    hdfs://master:9000/hbase

    hbase.cluster.distributed
    true

    hbase.master.port
    60000

      hbase.zookeeper.quorum
      master

regionservers
master

sh start-hbase.sh

nianzai 2011-04-19 11:32 发表评论

lucene + hadoop 分布式搜索运行框�?Nut 1.0a9

nianzai — Thu, 17 Feb 2011 05:20:00 GMT

http://code.google.com/p/nutla/

1、概�q?br /> 不管�E�序性能有多高，机器处理能力有多强，都会有其极限。能够快速方便的横向与纵向扩展是Nut设计最重要的原则，以此原则形成以分布式�q�行计算为核心的架构设计。以分布式�ƈ行计��ؓ核心的架构设计是Nut区别于Solr、Katta的地斏V�?/p>

Nut是一个Lucene+Hadoop分布式�ƈ行计��搜索框�Ӟ��能对千G以上索引提供7*24��时搜烦服务。在服务器资源��够的情况下能辑ֈ�每秒处理100万次的搜索请求�?br />
Nut开发环境：jdk1.6.0.23+lucene3.0.3+eclipse3.6.1+hadoop0.20.2+zookeeper3.3.2+hbase0.20.6+memcached+mongodb+linux

2、特�?br /> a、热插拔
b、可扩展
c、高负蝲
d、易使用,与现有项目无�~�集�?br /> e、支持排�?br /> f�?*24服务
g、失败�{�U?

3、搜索流�E?br /> Nut由Index、Search、Client、Cache和DB五部分构成�?Cache实现了对memcached的支�?DB实现了对hbase,mongodb的支�?
Client处理用户��h��和对搜烦�l�果排序。Search对请求进行搜索，Search上只攄��引，数据存储在DB中，Nut��烦引和存储分离。Cache�~�存的是搜烦条�g和结果文档id。DB存储着数据�Q�Client�Ҏ(gu��)��搜烦排序�l�果,取出当前��中的文��id从DB上读取数据�?/p>

用户发�v搜烦��h��l�由Nut Client构成的集��，由某个Nut Client�Ҏ(gu��)��搜烦条�g查询Cache服务器是否有该缓存，如果有缓存根据缓存的文档id直接从DB��d��数据�Q�如果没有缓存将随机选择一�l�搜索服务器�l?Search Group i),��查询条件同时发�l�该�l�搜索服务器�l�里的n台搜索服务器�Q�搜索服务器��搜索结果返回给Nut Client由其排序�Q�取出当前页文��id�Q�将搜烦条�g和当前文��id�~�存�Q�同时从DB��d��数据�?/p>

4、烦引流�E?br /> Hadoop Mapper/Reducer 建立索引。再��烦引从HDFS分发到各个烦引服务器�?br /> 对烦引的更新分�ؓ两种�Q�删除和��d��Q�更新分解�ؓ删除和添加）�?br /> a、删�?br /> 在HDFS上删除烦引，��生成的*.del文�g分发到所有的索引服务器上��L��者对HDFS索引目录删除索引再分发到对应的烦引服务器上去�?br /> b、添�?br /> 新添加的数据用另一台服务器来生成�?br /> 删除和添加步骤可按不同定时策略来实现�?/p>

5、Nut分布式�ƈ行计��特�?br /> Nut分布式�ƈ行计��虽然也是基于M/R模型�Q�但是与Hadoop M/R模型是不同的。在Hadoop M/R模型�?Mapper和Reducer是一个完整的��程�Q�Reducer依赖于Mapper。数据源通过Mapper分发本��n��׃��消耗大量的I/O�Q��ƈ且是消耗I/O最大的部分。所以Hadoop M/R �q�发是有限的�?br /> Nut M/R模型是将Mapper和Reducer分离�Q�各自独立存在。在Nut�?索引以及索引��理构成M,搜烦以及搜烦服务器组构成 R�?br /> 以一个分�cȝ��计来说明Nut分布式�ƈ行计��的��程。假设有10个分�c�，对�Q意关键词搜烦要求�l�计��关键词在�q?0个分�c�M��的��L��。同时假设有10�l�搜索服务器。烦引以及烦引管理进行烦引数据的Mapper�Q�这块是后台独自�q�行��理的。Nut Client��这10个分�cȝ��计分发到10�l�搜索服务器上，每组搜烦服务器对其中一个分�c�进行Reducer�Q��ƈ且每�l�搜索服务器可进行多�U�Reducer。最后将最�l�结果返回给Nut Client�?/p>

6、设计图

7、Zookeeper服务器状态管理策�?/p>

在架构设计上通过使用多组搜烦服务器可以支持每�U�处�?00万个搜烦��h��?br /> 每组搜烦服务器能处理的搜索请求数�?万�?�?千之间。如果��?00�l�搜索服务器�Q�理��Z��每秒可处�?00万个搜烦��h��?/p>

假如每组搜烦服务器有100份烦引放�?00台正在运行中搜烦服务�?run)上，那么��烦引按照如下的方式攑֜�备用中搜索服务器(bak)上：index 1,index 2,index 3,index 4,index 5,index 6,index 7,index 8,index 9,index 10攑֜�B 1 上，index 6,index 7,index 8,index 9,index 10,index 11,index 12,index 13,index 14,index 15攑֜�B 2上。。。。。。index 96,index 97,index 98,index 99,index 100,index 5,index 4,index 3,index 2,index 1攑֜�最后一台备用搜索服务器上。那么每份烦引会存在3台机器中�Q?份正在运行中�Q?份备份中�Q��?br /> ��管�q�样设计每䆾索引会存�?台机器中�Q�仍然不是绝对安全的。假如运行中的index 1,index 2,index 3同时宕机的话�Q�那么就会有一份烦引搜索服务无法正��启用。这栯��计，作者认为是在安全性和机器资源两者之间一个比较适合的方案�?/p>

备用中的搜烦服务器会定时��查运行中搜烦服务器的状态。一旦发��C��自己索引对应的服务器宕机��׃��向lock甌��分布式锁�Q�得到分布式锁的服务器就��自己加入到�q�行中搜索服务器�l�，同时从备用搜索服务器�l�中删除自己�Q��ƈ停止�q�行中搜索服务器��查服务�?/p>

��够更快速的得到搜烦�l�果�Q�设计上��搜索服务器分优先等�U�。通常是将最新的数据攑֜�一台或几台内存搜烦服务器上。通常情况下前几页数据能在�q�几台搜索服务器里搜索到。如果在�q�几台搜索服务器上没有数据时再向其他旧数据搜索服务器上搜索�?br /> 优先搜烦�{��的逻辑是这��L��Q?最大�ؓ搜烦全部服务器�ƈ�?不能作�ؓlevel标识。当搜烦�{��level�?�Q�搜索优先��?的服务器�Q�当level�?时搜索优先��?�?的服务器�Q�依此类推�?br />

nianzai 2011-02-17 13:20 发表评论

Nut开发环境搭�?虚拟��Z��hadoop0.20.2+zookeeper3.3.1+hbase0.20.6开发环境的搭徏)

nianzai — Wed, 17 Nov 2010 05:43:00 GMT

http://www.aygfsteel.com/nianzai/

http://code.google.com/p/nutla/

一、安�?br /> 1�?nbsp;安装虚拟�?vmware6.5.2
2�?nbsp;在虚拟机下安装Linux Fedora14
3�?nbsp;安装jdk jdk-6u22-linux-i586.bin 安装路径为：/home/nianzai/jdk1.6.0_22
4�?nbsp;安装hadoop hadoop-0.20.2.tar.gz 安装路径为：/home/nianzai/hadoop-0.20.2
5�?nbsp;安装zookeeper zookeeper-3.3.1.tar.gz 安装路径为：/home/nianzai/zookeeper-3.3.1
6�?nbsp;安装hbase hbase-0.20.6.tar.gz 安装路径为：/home/nianzai/hbase-0.20.6

二、配�|?br /> 1、Linux配置
ssh-keygen –t rsa -P ''
cd .ssh
cp id_rsa.pub authorized_keys

/etc/hosts里增�?192.168.195.128 nz �q�且��?27.0.0.1 改�ؓ 192.168.195.128

2、hadoop配置
hadoop-env.sh
JAVA_HOME=/home/nianzai/jdk1.6.0._22

core-site.xml

hadoop.tmp.dir
/tmp/hadoop-nianzai

fs.default.name
hdfs://nz:9000

hdfs-site.xml

dfs.replication
1

mapred-site.xml

mapred.job.tracker
nz:9001

sh hadoop namenode -format
sh start-all.sh
sh hadoop fs -mkdir input

3、zookeeper配置
zoo.cfg
tickTime=2000
initLimit=10
syncLimit=5
dataDir=/home/nianzai/zkdata
clientPort=2181

sh zkServer.sh start

4、hbase配置
hbase-env.sh
export JAVA_HOME=/home/nianzai/jdk1.6.0_22
export HBASE_MANAGES_ZK=false

hbase-site.xml

    hbase.rootdir
    hdfs://nz:9000/hbase

    hbase.cluster.distributed
    true

    hbase.master.port
    60000

      hbase.zookeeper.quorum
      nz

regionservers
nz

sh start-hbase.sh

nianzai 2010-11-17 13:43 发表评论

lucene + hadoop 分布式搜索运行框�?Nut 1.0a8

nianzai — Wed, 27 Oct 2010 02:38:00 GMT

http://code.google.com/p/nutla/

1、概�q?br /> 不管�E�序性能有多高，机器处理能力有多强，都会有其极限。能够快速方便的横向与纵向扩展是Nut设计最重要的原则�?br /> Nut是一个Lucene+Hadoop分布式搜索框�Ӟ��能对千G以上索引提供7*24��时搜烦服务。在服务器资源��够的情况下能辑ֈ�每秒处理100万次的搜索请求�?br /> Nut开发环境：jdk1.6.0.21+lucene3.0.2+eclipse3.6.1+hadoop0.20.2+zookeeper3.3.1+hbase0.20.6+memcached+linux

2、特�?br /> a、热插拔
b、可扩展
c、高负蝲
d、易使用,与现有项目无�~�集�?br /> e、支持排�?br /> f�?*24服务
g、失败�{�U?

3、搜索流�E?br /> Nut由Index、Search、Client、Cache和DB五部分构成�?Cache默认使用memcached,DB默认使用hbase)
Client处理用户��h��和对搜烦�l�果排序。Search对请求进行搜索，Search上只攄��引，数据存储在DB中，Nut��烦引和存储分离。Cache�~�存的是搜烦条�g和结果文档id。DB存储着数据�Q�Client�Ҏ(gu��)��搜烦排序�l�果,取出当前��中的文��id从DB上读取数据�?/p>

用户发�v搜烦��h��l�由Nut Client构成的集��，由某个Nut Client�Ҏ(gu��)��搜烦条�g查询Cache服务器是否有该缓存，如果有缓存根据缓存的文��id直接从DB��d��数据�Q�如果没有缓存将随机选择一�l�搜索服务器�l?Search Group i),��查询条件同时发�l�该�l�搜索服务器�l�里的n台搜索服务器�Q�搜索服务器��搜索结果返回给Nut Client由其排序�Q�取出当前页文��id�Q�将搜烦条�g和当前文��id�~�存�Q�同时从DB��d��数据�?br />

5、Zookeeper服务器状态管理策�?/p>

nianzai 2010-10-27 10:38 发表评论

lucene + hadoop 分布式搜索运行框�?Nut 1.0a7

nianzai — Sat, 25 Sep 2010 07:41:00 GMT

http://code.google.com/p/nutla/

1、概�q?br /> 只�ؓlucene提供分布式搜索框架�?*24千G以上索引文�g支持数千万��的用��h��索访问�?br /> Nut开发环境：jdk1.6.0.21+lucene3.0.2+eclipse3.6+hadoop0.20.2+zookeeper3.3.1+linux

2、特�?br /> a、热插拔
b、可扩展
c、高负蝲
d、易使用,与现有项目无�~�集�?br /> e、支持排�?br /> f�?*24服务
g、失败�{�U?

3、搜索流�E?br /> Nut由Index、Search、Client、Cache和DB五部分构成�?br /> Client处理用户��h��和对搜烦�l�果排序。Search对请求进行搜索，Search上只攄��引，数据存储在DB中，Nut��烦引和存储分离。Cache�~�存的是搜烦条�g和结果文��id。DB存储着数据�Q�Client�Ҏ(gu��)��搜烦排序�l�果,取出当前��中的文��id从DB上读取数据�?/p>

用户发�v搜烦��h��l�由Nut Client构成的集��，由某个Nut Client�Ҏ(gu��)��搜烦条�g查询Cache服务器是否有该缓存，如果有缓存根据缓存的文��id直接从DB��d��数据�Q�如果没有缓存将查询条�g同时发给后面的n台搜索服务器�Q�搜索服务器��搜索结果返回给Nut Client由其排序�Q�取出当前页文��id�Q�将搜烦条�g和当前文��id�~�存�Q�同时从DB��d��数据�?/p>

5、Zookeeper服务器状态管理策�?br />

假如我们�?00份烦引放�?00台正在运行中搜烦服务器上�Q�那么将索引按照如下的方式放在备用中搜烦服务器上�Q�index 1,index 2,index 3,index 4,index 5,index 6,index 7,index 8,index 9,index 10攑֜�B 1 上，index 6,index 7,index 8,index 9,index 10,index 11,index 12,index 13,index 14,index 15攑֜�B 2上。。。。。。index 96,index 97,index 98,index 99,index 100,index 5,index 4,index 3,index 2,index 1攑֜�最后一台备用搜索服务器上。那么每份烦引会存在3台机器中�Q?份正在运行中�Q?份备份中�Q��?br /> ��管�q�样设计每䆾索引会存�?台机器中�Q�仍然不是绝对安全的。假如运行中的index 1,index 2,index 3同时宕机的话�Q�那么就会有一份烦引搜索服务无法正��启用。那么这栯��计，作者认为是在安全性和机器资源两者之间一个比较适合的方案�?/p>

备用中的搜烦服务器会定时��查运行中搜烦服务器的状态。一旦发��C��自己索引对应的服务器宕机��׃��先向zookeeper甌��分布式锁�Q�得到锁的服务器��将自己加入到运行中搜烦服务器组�Q�同时从备用搜烦服务器组中删除自己，�q�停止运行中搜烦服务器检查服务�?br />

nianzai 2010-09-25 15:41 发表评论