日韩精品福利视频,色狠狠一区二区三区香蕉,亚洲一区色图

SPRING CACHE资源

paulwong — Wed, 25 Feb 2015 08:04:00 GMT

SPRING手册
http://docs.spring.io/spring/docs/3.2.x/spring-framework-reference/htmlsingle/#cache

SPRING CONCURRENTMAP MANAGER加过期策�?br />http://stackoverflow.com/questions/8181768/can-i-set-a-ttl-for-cacheable

�l�合KEY
http://stackoverflow.com/questions/14072380/cacheable-key-on-multiple-method-arguments

Spring Cache抽象详解
http://www.open-open.com/lib/view/open1389575623336.html

注释驱动�?Spring cache �~�存介绍
https://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/

Spring Cache抽象详解

paulwong 2015-02-25 16:04 发表评论

使用WILDFLY中的分布式缓存INFISHPAN

paulwong — Mon, 23 Feb 2015 05:40:00 GMT

��目部��v的应用服务器�Q�WILDFLY

通过http://127.0.0.1:9991/console/App.html#infinispan��d��CACHE

<cache-container name="tickets" default-cache="default" jndi-name="java:jboss/infinispan/tickets">
       <local-cache name="default" batching="true">
              <locking isolation="REPEATABLE_READ"/>
       local-cache>
cache-container>
pom.xml��d��依赖�?br />
  <dependency>
            <groupId>org.infinispangroupId>
            <artifactId>infinispan-coreartifactId>
            <scope>providedscope>
        dependency>

        <dependency>
            <groupId>org.infinispangroupId>
            <artifactId>infinispan-client-hotrodartifactId>
            <scope>providedscope>
        dependency>

    <dependency>
        <groupId>org.jgroupsgroupId>
        <artifactId>jgroupsartifactId>
        <scope>providedscope>
    dependency>

        <dependency>
            <groupId>org.infinispangroupId>
            <artifactId>infinispan-springartifactId>
            <version>6.0.2.Finalversion>
        dependency>

        <dependency>
            <groupId>org.infinispangroupId>
            <artifactId>infinispan-jcacheartifactId>
            <version>6.0.2.Finalversion>
        dependency>
��d��拦截器，WEB-INF/beans.xml

xml version="1.0"?>
<beans xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
    xsi:schemaLocation="http://java.sun.com/xml/ns/javaee http://jboss.org/schema/cdi/beans_1_0.xsd">
    <interceptors>
        <class>org.infinispan.jcache.annotation.CacheResultInterceptorclass>
        <class>org.infinispan.jcache.annotation.CachePutInterceptorclass>
        <class>org.infinispan.jcache.annotation.CacheRemoveEntryInterceptorclass>
        <class>org.infinispan.jcache.annotation.CacheRemoveAllInterceptorclass>
    interceptors>
beans>
��d��目的全局依赖�Q�WEB-INF/jboss-deployment-structure.xml

xml version="1.0" encoding="UTF-8"?>
<jboss-deployment-structure>
    <deployment>
        <dependencies>
            <module name="org.jboss.xnio" />
            <module name="org.infinispan" export="true"/>
            <module name="org.infinispan.commons" export="true"/>
            <module name="org.infinispan.client.hotrod" export="true"/>
        dependencies>
    deployment>
jboss-deployment-structure>
在CDI BEAN中��用CACHE

package com.paul.myejb;

import javax.annotation.Resource;
import javax.cache.annotation.CacheResult;
import javax.ejb.Remote;
import javax.ejb.Stateless;
import javax.interceptor.Interceptors;

import org.infinispan.Cache;
import org.infinispan.manager.EmbeddedCacheManager;
//import org.springframework.cache.annotation.Cacheable;
import org.springframework.ejb.interceptor.SpringBeanAutowiringInterceptor;

/**
* Session Bean implementation class HelloWorldBean
*/
@Stateless
//@Local(HelloWorld.class)
@Remote(HelloWorld.class)
@Interceptors(SpringBeanAutowiringInterceptor.class)
//@RolesAllowed({Roles.ADMIN})
public class HelloWorldBean implements HelloWorld {

    @Resource(lookup = "java:jboss/infinispan/tickets")
    private EmbeddedCacheManager container;


    /**
     * Default constructor.
     */
    public HelloWorldBean() {
    }

//    @Transactional
//    @Cacheable(value = "books", key = "#name")
    @CacheResult
    public String sayHello(String name) {
        System.out.println("NO CACHE");
        String result = "Hello " + name + ", I am HelloWorldBean.";
        Cache cache = this.container.getCache();
        cache.put(name, result);
        return result;
    }

}
修改modules/system/layers/base/org/infinispan/client/hotrod/main/modules.xml

xml version="1.0" encoding="UTF-8"?>

<module xmlns="urn:jboss:module:1.3" name="org.infinispan.client.hotrod">
    <properties>
        <property name="jboss.api" value="private"/>
    properties>

    <resources>
        <resource-root path="infinispan-client-hotrod-6.0.2.Final.jar"/>
    resources>

    <dependencies>
        <module name="javax.api"/>


        <module name="org.apache.commons.pool"/>
        <module name="org.infinispan.commons"/>
        <module name="org.infinispan.query.dsl"/>
        <module name="org.jboss.logging"/>
    dependencies>
module>

以下是SPRING版本

��d��依赖的SPRING BEAN
xml version="1.0" encoding="UTF-8"?>
<beans xmlns="http://www.springframework.org/schema/beans"
    xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:context="http://www.springframework.org/schema/context"
    xmlns:cache="http://www.springframework.org/schema/cache"
    xmlns:p="http://www.springframework.org/schema/p"
    xmlns:jee="http://www.springframework.org/schema/jee"
    xsi:schemaLocation="http://www.springframework.org/schema/context
          http://www.springframework.org/schema/context/spring-context-3.0.xsd
          http://www.springframework.org/schema/beans
          http://www.springframework.org/schema/beans/spring-beans-3.0.xsd
          http://www.springframework.org/schema/cache
          http://www.springframework.org/schema/cache/spring-cache.xsd
          http://www.springframework.org/schema/jee
          http://www.springframework.org/schema/jee/spring-jee.xsd">

    <cache:annotation-driven />

    <bean id="cacheManager"
          class="org.infinispan.spring.provider.ContainerCacheManagerFactoryBean">
          <constructor-arg ref="cacheContainer"  />
    bean>

    <jee:jndi-lookup id="cacheContainer" jndi-name="java:jboss/infinispan/tickets" >
    jee:jndi-lookup>



beans>
使用CACHE
package com.paul.myejb.spring;

import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.cache.CacheManager;
import org.springframework.cache.annotation.Cacheable;
import org.springframework.stereotype.Component;

@Component
public class MySpringBean {

    @Autowired
    private CacheManager cacheManager;

    @Cacheable(value = "my-local-cache", key = "#name")
    public String sayHello(String name)
    {
        System.out.println("MySpringBean NO CACHE");
        String result = "Hi " + name + ", I am Spring!";
        org.springframework.cache.Cache springCache = this.cacheManager.getCache("my-local-cache");
        System.out.println(springCache.get(name) == null ? "null" : springCache.get(name).get());
        springCache.put(name, result);
        return result;
    }

}

paulwong 2015-02-23 13:40 发表评论

SPRING-SESSION

paulwong — Wed, 19 Nov 2014 10:23:00 GMT

摘要: HTTP SESSION的管理通常是由容器来做�Q�但如果是在PAAS环境下，服务器不能做变更�Q�则需要由WEB应用来做处理HTTP SESSION。同��P��如果是分布式的环境下�Q�SESSION的管理也会带来性能问题。SPRING推出了处理SESSION的框�Ӟ��SPRING-SESSION�? SPRING会重写HTTP SESSION的那一套，使用SESSION也同栯��是用 Code ... 阅读全文

paulwong 2014-11-19 18:23 发表评论

分布式调度QUARTZ+SPRING

paulwong — Fri, 14 Nov 2014 10:46:00 GMT

使用SPRING的定时�Q务框�Ӟ��如果是在分布式的环境下，�׃��有多台节点，会��生相同的��d��Q�会被多个节�Ҏ��行，�q�时需引入分布式的QUARTZ�?br />触发器：存放旉��排程
��d��Q�蔟业务代码
排程器：负责调度�Q�即在指定的旉��执行对应的�Q�?br />
如果是分布式QUARTZ�Q�则各个节点会上报�Q务，存到数据库中�Q�执行时会从数据库中取出触发器来执行�Q�如果触发器的名�U�和执行旉��相同�Q�则只有一个节点去执行此�Q务�?br />如果此节�Ҏ��行失败，则此��d��则会被分�z�ֈ�另一节点执行�?br />

quartz.properties

#============================================================================
# Configure JobStore
# Using Spring datasource in quartzJobsConfig.xml
# Spring uses LocalDataSourceJobStore extension of JobStoreCMT
#============================================================================
org.quartz.jobStore.useProperties=true
org.quartz.jobStore.tablePrefix = QRTZ_
org.quartz.jobStore.isClustered = true
org.quartz.jobStore.clusterCheckinInterval = 5000
org.quartz.jobStore.misfireThreshold = 60000
org.quartz.jobStore.txIsolationLevelReadCommitted = true

# Change this to match your DB vendor
org.quartz.jobStore.class = org.quartz.impl.jdbcjobstore.JobStoreTX
org.quartz.jobStore.driverDelegateClass = org.quartz.impl.jdbcjobstore.StdJDBCDelegate

#============================================================================
# Configure Main Scheduler Properties
# Needed to manage cluster instances
#============================================================================
org.quartz.scheduler.instanceId=AUTO
org.quartz.scheduler.instanceName=MY_CLUSTERED_JOB_SCHEDULER
org.quartz.scheduler.rmi.export = false
org.quartz.scheduler.rmi.proxy = false

#============================================================================
# Configure ThreadPool
#============================================================================
org.quartz.threadPool.class = org.quartz.simpl.SimpleThreadPool
org.quartz.threadPool.threadCount = 10
org.quartz.threadPool.threadPriority = 5
org.quartz.threadPool.threadsInheritContextClassLoaderOfInitializingThread = true

web-schedule-applicationcontext.xml

xml version="1.0" encoding="UTF-8"?>
<beans xmlns="http://www.springframework.org/schema/beans"
    xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:context="http://www.springframework.org/schema/context"
    xmlns:mongo="http://www.springframework.org/schema/data/mongo"
    xsi:schemaLocation="http://www.springframework.org/schema/context
          http://www.springframework.org/schema/context/spring-context-3.0.xsd
          http://www.springframework.org/schema/data/mongo
          http://www.springframework.org/schema/data/mongo/spring-mongo-1.3.xsd
          http://www.springframework.org/schema/beans
          http://www.springframework.org/schema/beans/spring-beans-3.0.xsd">



    <bean id="executor" class="org.springframework.scheduling.concurrent.ThreadPoolTaskExecutor">
         <property name="corePoolSize" value="10" />
         <property name="maxPoolSize" value="100" />
         <property name="queueCapacity" value="500" />
    bean>


    <bean id="webScheduler"
        class="org.springframework.scheduling.quartz.SchedulerFactoryBean">

        <property name="configLocation" value="classpath:/properties/config/quartz.properties" />
        <property name="dataSource" ref="dataSourceCMS" />
        <property name="transactionManager" ref="txManager" />


        <property name="schedulerName" value="quartzScheduler" />


        <property name="overwriteExistingJobs" value="true" />

        <property name="startupDelay" value="5"/>
        <property name="applicationContextSchedulerContextKey" value="applicationContext" />
        <property name="jobFactory">
            <bean class="com.tcl.project7.boss.common.scheduling.AutowiringSpringBeanJobFactory" />
        property>

        <property name="triggers">
              <list>
                       <ref bean="springQuertzClusterTaskSchedulerTesterTigger" />
              list>
         property>
        <property name="jobDetails">
            <list>
                <ref bean="springQuertzClusterTaskSchedulerTesterJobDetail" />
            list>
        property>
         <property name="taskExecutor" ref="executor" />

    bean>





    <bean id="springQuertzClusterTaskSchedulerTesterTigger" class="common.scheduling.PersistableCronTriggerFactoryBean">
        <property name="jobDetail" ref="springQuertzClusterTaskSchedulerTesterJobDetail"/>
        <property name="cronExpression" value="* * * * * ?" />
    bean>

    <bean id="springQuertzClusterTaskSchedulerTesterJobDetail" class="org.springframework.scheduling.quartz.JobDetailBean">
        <property name="jobClass" value="common.scheduling.SpringQuertzClusterTaskSchedulerTester" />


        <property name="requestsRecovery" value="false"/>
    bean>



beans>

JOB文�g�Q�SpringQuertzClusterTaskSchedulerTester.java

package common.scheduling;

import java.util.Date;

import org.quartz.JobExecutionContext;
import org.quartz.JobExecutionException;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.scheduling.quartz.QuartzJobBean;

import com.tcl.project7.boss.common.util.UrlUtil;
import com.tcl.project7.boss.common.util.time.TimeUtils;
/**
*

Title:SpringQuertzClusterTaskSchedulerTester

Description:
* 应�ؓ要持久化�{�特性操�?需要��?nbsp;QuartzJobBean
*
�׃��要被持久�?所以不能存放xxxxManager�c�M��对象,
* 只能从每�ơ从QuartzJobBean注入的ApplicationContext 中去取出
*
*

*
*
*/
public class SpringQuertzClusterTaskSchedulerTester extends QuartzJobBean {

    private static Logger logger = LoggerFactory.getLogger(SpringQuertzClusterTaskSchedulerTester.class);

    @Autowired
    private UrlUtil urlUtil;


    protected void executeInternal(JobExecutionContext arg0)
            throws JobExecutionException {
        logger.info("------" + TimeUtils.formatTime(new Date()) + "------" + urlUtil.getNginxHost());
        System.out.println("------" + TimeUtils.formatTime(new Date()) + "------" + urlUtil.getNginxHost());
    }

}

如果JOB中有需要调用SPRING的BEAN�Q�则需要此文�gAutowiringSpringBeanJobFactory.java

package common.scheduling;

import org.quartz.spi.TriggerFiredBundle;
import org.springframework.beans.factory.config.AutowireCapableBeanFactory;
import org.springframework.context.ApplicationContext;
import org.springframework.context.ApplicationContextAware;
import org.springframework.scheduling.quartz.SpringBeanJobFactory;

/**
* Autowire Quartz Jobs with Spring context dependencies
* @see http://stackoverflow.com/questions/6990767/inject-bean-reference-into-a-quartz-job-in-spring/15211030#15211030
*/
public final class AutowiringSpringBeanJobFactory extends SpringBeanJobFactory implements ApplicationContextAware {

    private transient AutowireCapableBeanFactory beanFactory;

    public void setApplicationContext(final ApplicationContext context) {
        beanFactory = context.getAutowireCapableBeanFactory();
    }

    @Override
    protected Object createJobInstance(final TriggerFiredBundle bundle) throws Exception {
        final Object job = super.createJobInstance(bundle);
        beanFactory.autowireBean(job);
        return job;
    }
}

�׃��JOB需要存储到数据库中�Q�会产生PROPERTY的问题，需剔除JOB-DATA�Q�需此文件PersistableCronTriggerFactoryBean.java

package common.scheduling;

import org.springframework.scheduling.quartz.CronTriggerFactoryBean;
import org.springframework.scheduling.quartz.JobDetailAwareTrigger;

/**
* Needed to set Quartz useProperties=true when using Spring classes,
* because Spring sets an object reference on JobDataMap that is not a String
*
* @see http://site.trimplement.com/using-spring-and-quartz-with-jobstore-properties/
* @see http://forum.springsource.org/showthread.php?130984-Quartz-error-IOException
*/
public class PersistableCronTriggerFactoryBean extends CronTriggerFactoryBean {
    @Override
    public void afterPropertiesSet() {
        super.afterPropertiesSet();

        //Remove the JobDetail element
        getJobDataMap().remove(JobDetailAwareTrigger.JOB_DETAIL_KEY);
    }
}

��语句�Q�MYSQL�Q�quartzTables.sql

#
# Quartz seems to work best with the driver mm.mysql-2.0.7-bin.jar
#
# In your Quartz properties file, you'll need to set
# org.quartz.jobStore.driverDelegateClass = org.quartz.impl.jdbcjobstore.StdJDBCDelegate
#

DROP TABLE IF EXISTS QRTZ_JOB_LISTENERS;
DROP TABLE IF EXISTS QRTZ_TRIGGER_LISTENERS;
DROP TABLE IF EXISTS QRTZ_FIRED_TRIGGERS;
DROP TABLE IF EXISTS QRTZ_PAUSED_TRIGGER_GRPS;
DROP TABLE IF EXISTS QRTZ_SCHEDULER_STATE;
DROP TABLE IF EXISTS QRTZ_LOCKS;
DROP TABLE IF EXISTS QRTZ_SIMPLE_TRIGGERS;
DROP TABLE IF EXISTS QRTZ_CRON_TRIGGERS;
DROP TABLE IF EXISTS QRTZ_BLOB_TRIGGERS;
DROP TABLE IF EXISTS QRTZ_TRIGGERS;
DROP TABLE IF EXISTS QRTZ_JOB_DETAILS;
DROP TABLE IF EXISTS QRTZ_CALENDARS;

CREATE TABLE QRTZ_JOB_DETAILS
  (
    JOB_NAME  VARCHAR(200) NOT NULL,
    JOB_GROUP VARCHAR(200) NOT NULL,
    DESCRIPTION VARCHAR(250) NULL,
    JOB_CLASS_NAME   VARCHAR(250) NOT NULL,
    IS_DURABLE VARCHAR(1) NOT NULL,
    IS_VOLATILE VARCHAR(1) NOT NULL,
    IS_STATEFUL VARCHAR(1) NOT NULL,
    REQUESTS_RECOVERY VARCHAR(1) NOT NULL,
    JOB_DATA BLOB NULL,
    PRIMARY KEY (JOB_NAME,JOB_GROUP)
);

CREATE TABLE QRTZ_JOB_LISTENERS
  (
    JOB_NAME  VARCHAR(200) NOT NULL,
    JOB_GROUP VARCHAR(200) NOT NULL,
    JOB_LISTENER VARCHAR(200) NOT NULL,
    PRIMARY KEY (JOB_NAME,JOB_GROUP,JOB_LISTENER),
    FOREIGN KEY (JOB_NAME,JOB_GROUP)
        REFERENCES QRTZ_JOB_DETAILS(JOB_NAME,JOB_GROUP)
);

CREATE TABLE QRTZ_TRIGGERS
  (
    TRIGGER_NAME VARCHAR(200) NOT NULL,
    TRIGGER_GROUP VARCHAR(200) NOT NULL,
    JOB_NAME  VARCHAR(200) NOT NULL,
    JOB_GROUP VARCHAR(200) NOT NULL,
    IS_VOLATILE VARCHAR(1) NOT NULL,
    DESCRIPTION VARCHAR(250) NULL,
    NEXT_FIRE_TIME BIGINT(13) NULL,
    PREV_FIRE_TIME BIGINT(13) NULL,
    PRIORITY INTEGER NULL,
    TRIGGER_STATE VARCHAR(16) NOT NULL,
    TRIGGER_TYPE VARCHAR(8) NOT NULL,
    START_TIME BIGINT(13) NOT NULL,
    END_TIME BIGINT(13) NULL,
    CALENDAR_NAME VARCHAR(200) NULL,
    MISFIRE_INSTR SMALLINT(2) NULL,
    JOB_DATA BLOB NULL,
    PRIMARY KEY (TRIGGER_NAME,TRIGGER_GROUP),
    FOREIGN KEY (JOB_NAME,JOB_GROUP)
        REFERENCES QRTZ_JOB_DETAILS(JOB_NAME,JOB_GROUP)
);

CREATE TABLE QRTZ_SIMPLE_TRIGGERS
  (
    TRIGGER_NAME VARCHAR(200) NOT NULL,
    TRIGGER_GROUP VARCHAR(200) NOT NULL,
    REPEAT_COUNT BIGINT(7) NOT NULL,
    REPEAT_INTERVAL BIGINT(12) NOT NULL,
    TIMES_TRIGGERED BIGINT(10) NOT NULL,
    PRIMARY KEY (TRIGGER_NAME,TRIGGER_GROUP),
    FOREIGN KEY (TRIGGER_NAME,TRIGGER_GROUP)
        REFERENCES QRTZ_TRIGGERS(TRIGGER_NAME,TRIGGER_GROUP)
);

CREATE TABLE QRTZ_CRON_TRIGGERS
  (
    TRIGGER_NAME VARCHAR(200) NOT NULL,
    TRIGGER_GROUP VARCHAR(200) NOT NULL,
    CRON_EXPRESSION VARCHAR(200) NOT NULL,
    TIME_ZONE_ID VARCHAR(80),
    PRIMARY KEY (TRIGGER_NAME,TRIGGER_GROUP),
    FOREIGN KEY (TRIGGER_NAME,TRIGGER_GROUP)
        REFERENCES QRTZ_TRIGGERS(TRIGGER_NAME,TRIGGER_GROUP)
);

CREATE TABLE QRTZ_BLOB_TRIGGERS
  (
    TRIGGER_NAME VARCHAR(200) NOT NULL,
    TRIGGER_GROUP VARCHAR(200) NOT NULL,
    BLOB_DATA BLOB NULL,
    PRIMARY KEY (TRIGGER_NAME,TRIGGER_GROUP),
    FOREIGN KEY (TRIGGER_NAME,TRIGGER_GROUP)
        REFERENCES QRTZ_TRIGGERS(TRIGGER_NAME,TRIGGER_GROUP)
);

CREATE TABLE QRTZ_TRIGGER_LISTENERS
  (
    TRIGGER_NAME  VARCHAR(200) NOT NULL,
    TRIGGER_GROUP VARCHAR(200) NOT NULL,
    TRIGGER_LISTENER VARCHAR(200) NOT NULL,
    PRIMARY KEY (TRIGGER_NAME,TRIGGER_GROUP,TRIGGER_LISTENER),
    FOREIGN KEY (TRIGGER_NAME,TRIGGER_GROUP)
        REFERENCES QRTZ_TRIGGERS(TRIGGER_NAME,TRIGGER_GROUP)
);

CREATE TABLE QRTZ_CALENDARS
  (
    CALENDAR_NAME  VARCHAR(200) NOT NULL,
    CALENDAR BLOB NOT NULL,
    PRIMARY KEY (CALENDAR_NAME)
);

CREATE TABLE QRTZ_PAUSED_TRIGGER_GRPS
  (
    TRIGGER_GROUP  VARCHAR(200) NOT NULL,
    PRIMARY KEY (TRIGGER_GROUP)
);

CREATE TABLE QRTZ_FIRED_TRIGGERS
  (
    ENTRY_ID VARCHAR(95) NOT NULL,
    TRIGGER_NAME VARCHAR(200) NOT NULL,
    TRIGGER_GROUP VARCHAR(200) NOT NULL,
    IS_VOLATILE VARCHAR(1) NOT NULL,
    INSTANCE_NAME VARCHAR(200) NOT NULL,
    FIRED_TIME BIGINT(13) NOT NULL,
    PRIORITY INTEGER NOT NULL,
    STATE VARCHAR(16) NOT NULL,
    JOB_NAME VARCHAR(200) NULL,
    JOB_GROUP VARCHAR(200) NULL,
    IS_STATEFUL VARCHAR(1) NULL,
    REQUESTS_RECOVERY VARCHAR(1) NULL,
    PRIMARY KEY (ENTRY_ID)
);

CREATE TABLE QRTZ_SCHEDULER_STATE
  (
    INSTANCE_NAME VARCHAR(200) NOT NULL,
    LAST_CHECKIN_TIME BIGINT(13) NOT NULL,
    CHECKIN_INTERVAL BIGINT(13) NOT NULL,
    PRIMARY KEY (INSTANCE_NAME)
);

CREATE TABLE QRTZ_LOCKS
  (
    LOCK_NAME  VARCHAR(40) NOT NULL,
    PRIMARY KEY (LOCK_NAME)
);

INSERT INTO QRTZ_LOCKS values('TRIGGER_ACCESS');
INSERT INTO QRTZ_LOCKS values('JOB_ACCESS');
INSERT INTO QRTZ_LOCKS values('CALENDAR_ACCESS');
INSERT INTO QRTZ_LOCKS values('STATE_ACCESS');
INSERT INTO QRTZ_LOCKS values('MISFIRE_ACCESS');

commit;

参考：
http://wenku.baidu.com/view/82e3bcbdfd0a79563c1e7223.html

Quartz集成springMVC 的方案二�Q�持久化��d��、集��和分布式）
http://blog.csdn.net/congcong68/article/details/39256307

paulwong 2014-11-14 18:46 发表评论

樂視 TV 載入 4K 片點解咁快？CDN �E�絡解構

paulwong — Fri, 07 Nov 2014 09:03:00 GMT

�E�過�q�次搶購�Q�相信有�?unwire 讀者已�E�買�?Letv X50 Air ��級��電視�Q�在家��n受它的豐富內容，以及準備�ƣ賞 HKTV 直播劇集了吧�?br />
而它提供的內容中�Q�最吸引的肯定是 4K ��q��及劇集。相信大安��知道�Q?K 內容檔案本��n定w��十分大，還要透過�E�絡進行串流�Q�一般情況也會「窒下窒下」，但為何在 X50 Air 上會如此順暢�Q�以下小�R�就為大家解構一下：

好了�Q�謎底揭曉！

其實很多時候欣賞串��內容（streaming�Q�時要等�Q�是因為 cache 時間十分��P��致影響載入時候�?br />
�?Letv ��採用了 CDN�Q�Content Delivery / Distribution Network�Q�內容傳遞網路）�E��\�Q�它的總承載量比單一骨嘋最大的��d��還要大，而且有異地備��_��萬一某個伺服器出現故障�Q�系�i�就會自動調用其他鄰�q�地區的伺服器資源�Q�所以可靠度極之接近 100%�Q?br />
��q��沒有故障時，樂視香港�?CDN �E�絡亦可有效回避�J�忙擠塞的網�i�，並自動尋找距離用家最接近的快取伺服器接收內容�Q�因此可以改善內容存取速度�Q�大大縮短下載時間，自然可以用串��網�i�，順暢�ƣ賞極致 4K ��q��內容啦�?img src ="http://www.aygfsteel.com/paulwong/aggbug/419670.html" width = "1" height = "1" />

paulwong 2014-11-07 17:03 发表评论

Java�q�行处理框架 JPPF

paulwong — Sat, 19 Jul 2014 01:55:00 GMT

JPPF是一个MASTER/SLAVE的结构，提供客户端的JAR包，客户端只要把执行的代码封闭成一个TASK�q�提交到MASTER中，MASTER会把此�Q务分�z��SLAVE/NODE��L��行，然后把结果返回�?br />
http://www.jppf.org/doc/v4/index.php?title=Main_Page

paulwong 2014-07-19 09:55 发表评论

paulwong — Tue, 15 Jul 2014 23:58:00 GMT

paulwong 2014-07-16 07:58 发表评论

【�{载】经典�O画讲解HDFS原理

paulwong — Sat, 26 Oct 2013 01:15:00 GMT

分布式文件系�l�比较出名的有HDFS �?GFS�Q�其中HDFS比较��单一炏V��本文是一��描�q�非常简�z�易懂的漫画形式讲解HDFS的原理。比一般PPT要通俗易懂很多。不隑־�的学习资料�?br />

1、三个部�? 客户端、nameserver�Q�可理解��Z��控和文�g索引,�c�M��linux的inode�Q�、datanode�Q�存攑֮�际数据）

在这里，client的�Ş式我所了解的有两种�Q�通过hadoop提供的api所�~�写的程序可以和hdfs�q�行交互�Q�另外一�U�就是安装了hadoop的datanode其也可以通过命��o行与hdfs�pȝ��q�行交互�Q�如在datanode上上传则使用如下命��o行：bin/hadoop fs -put example1 user/chunk/

2、如何写数据�q�程

3、读取数据过�E?/span>

4、容错：�W�一部分�Q�故障类型及其检��方法（nodeserver 故障�Q�和�|�络故障�Q�和脏数据问题）

5、容错第二部分：��d��定w��

6、容错第三部分：dataNode 失效

7、备份规�?/span>

8、结束语

paulwong 2013-10-26 09:15 发表评论

一些数据切分、缓存、rpc框架、nosql�Ҏ��资料

paulwong — Mon, 14 Oct 2013 02:14:00 GMT

1、数据切�?/span>

1.1�?a style="color: #108ac6;" target="_blank">mysql中间件研�IӞ��Atlas�Q�cobar�Q�TDDL�Q?/a>

1.2�?a style="color: #108ac6;" target="_blank">利用 MySQL Proxy 实现数据切分及整�?nbsp;

1.3�?a style="color: #108ac6;" target="_blank">��Z��MySQL分库分表�Ҏ��?nbsp;

1.4�?a style="color: #108ac6;" target="_blank">tddl和diamond

2、缓�?/p>

2.1�?a style="color: #108ac6;" target="_blank">java客户端三�U�方式操�?nbsp;

2.2�?a style="color: #108ac6;" target="_blank">myibatis配置memcached评测

2.3�?a style="color: #108ac6;" target="_blank">Memcached + Spring Caching

2.4�?a style="color: #108ac6;" target="_blank">memcachedb-持久化存储的�~�存�pȝ��

2.5�?a style="color: #108ac6;" target="_blank">memcachedb让memcache的数据持久化

2.6�?a style="color: #108ac6;" target="_blank">淘宝kv�~�存框架tair

2.7�?a style="color: #108ac6;" target="_blank">ibatis之扩展缓存ibatis-tair-cache

3、rpc框架

3.1�?a style="color: #108ac6;">dubbo

3.2、hsf 未开�?/p>

3.3�?a style="color: #108ac6;" target="_blank">服务框架HSF分析之一容器启动

4、noSql

4.1�?a style="color: #108ac6;" target="_blank">学习NoSQL数据库的必读资料

paulwong 2013-10-14 10:14 发表评论

paulwong — Sat, 31 Aug 2013 07:52:00 GMT

云端分布式搜索技�?br />http://www.searchtech.pro

ELASTICSEARCH中文�C�֌�
http://es-bbs.medcl.net/categories/%E6%9C%80%E6%96%B0%E5%8A%A8%E6%80%81

http://wangwei3.iteye.com/blog/1818599

Welcome to the Apache Nutch Wiki
https://wiki.apache.org/nutch/FrontPage

elasticsearch客户端大�?br />http://www.searchtech.pro/elasticsearch-clients

客户�?br />http://es-cn.medcl.net/guide/concepts/scaling-lucene/
https://github.com/aglover/elasticsearch_article/blob/master/src/main/java/com/b50/usat/load/MusicReviewSearch.java

paulwong 2013-08-31 15:52 发表评论

Install hadoop+hbase+nutch+elasticsearch

paulwong — Fri, 30 Aug 2013 17:17:00 GMT

摘要: This document is for Anyela Chavarro. Only these version of each framework work together Code highlighting produced by Actipro CodeHighlighter (freeware) http://www.CodeHighlighter.com/ -->H... 阅读全文

paulwong 2013-08-31 01:17 发表评论

Implementation for CombineFileInputFormat Hadoop 0.20.205

paulwong — Thu, 29 Aug 2013 08:08:00 GMT

�q�行MAPREDUCE JOB�Ӟ��如果输入的文件比较小而多�Ӟ��默认情况下会生成很多的MAP JOB�Q�即一个文件一个MAP JOB�Q�因此需要优化，使多个文件能合成一个MAP JOB的输入�?br />
具体的原理是下述三步:

1.�Ҏ��输入目录下的每个文�g,如果光��度超�q�mapred.max.split.size,以block为单位分成多个split(一个split是一个map的输�?,每个split的长度都大于mapred.max.split.size, 因�ؓ以block为单�? 因此也会大于blockSize, 此文件剩下的长度如果大于mapred.min.split.size.per.node, 则生成一个split, 否则先暂时保�?

2. 现在剩下的都是一些长度效短的��片,把每个rack下碎片合�q? 只要长度��过mapred.max.split.size��合�q�成一个split, 最后如果剩下的��片比mapred.min.split.size.per.rack�? ��合�q�成一个split, 否则暂时保留.

3. 把不同rack下的��片合�ƈ, 只要长度��过mapred.max.split.size��合�q�成一个split, 剩下的碎片无论长�? 合�ƈ成一个split.
举例: mapred.max.split.size=1000
mapred.min.split.size.per.node=300
mapred.min.split.size.per.rack=100
输入目录下五个文�?rack1下三个文�?长度�?050,1499,10, rack2下两个文�?长度�?010,80. 另外blockSize�?00.
�l�过�W�一�? 生成五个split: 1000,1000,1000,499,1000. 剩下的碎片�ؓrack1�?50,10; rack2�?0:80
�׃��两个rack下的��片和都不超�q?00, 所以经�q�第二步, split和碎片都没有变化.
�W�三�?合�ƈ四个��片成一个split, 长度�?50.

如果要减��map数量, 可以调大mapred.max.split.size, 否则调小卛_��.

其特�Ҏ��: 一个块臛_��作�ؓ一个map的输入，一个文件可能有多个块，一个文件可能因为块多分�l�做��Z��同map的输入，一个map可能处理多个块，可能处理多个文�g�?br />
注：CombineFileInputFormat是一个抽象类�Q�需要编写一个��承类�?br />

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.FileSplit;
import org.apache.hadoop.mapred.InputSplit;
import org.apache.hadoop.mapred.JobConf;
import org.apache.hadoop.mapred.LineRecordReader;
import org.apache.hadoop.mapred.RecordReader;
import org.apache.hadoop.mapred.Reporter;
import org.apache.hadoop.mapred.lib.CombineFileInputFormat;
import org.apache.hadoop.mapred.lib.CombineFileRecordReader;
import org.apache.hadoop.mapred.lib.CombineFileSplit;

@SuppressWarnings("deprecation")
public class CombinedInputFormat extends CombineFileInputFormat {

    @SuppressWarnings({ "unchecked", "rawtypes" })
    @Override
    public RecordReader getRecordReader(InputSplit split, JobConf conf, Reporter reporter) throws IOException {

        return new CombineFileRecordReader(conf, (CombineFileSplit) split, reporter, (Class) myCombineFileRecordReader.class);
    }

    public static class myCombineFileRecordReader implements RecordReader {
        private final LineRecordReader linerecord;

        public myCombineFileRecordReader(CombineFileSplit split, Configuration conf, Reporter reporter, Integer index) throws IOException {
            FileSplit filesplit = new FileSplit(split.getPath(index), split.getOffset(index), split.getLength(index), split.getLocations());
            linerecord = new LineRecordReader(conf, filesplit);
        }

        @Override
        public void close() throws IOException {
            linerecord.close();

        }

        @Override
        public LongWritable createKey() {
            // TODO Auto-generated method stub
            return linerecord.createKey();
        }

        @Override
        public Text createValue() {
            // TODO Auto-generated method stub
            return linerecord.createValue();
        }

        @Override
        public long getPos() throws IOException {
            // TODO Auto-generated method stub
            return linerecord.getPos();
        }

        @Override
        public float getProgress() throws IOException {
            // TODO Auto-generated method stub
            return linerecord.getProgress();
        }

        @Override
        public boolean next(LongWritable key, Text value) throws IOException {

            // TODO Auto-generated method stub
            return linerecord.next(key, value);
        }

    }
}

在运行时�q�样讄��Q?br />

if (argument != null) {
                conf.set("mapred.max.split.size", argument);
            } else {
                conf.set("mapred.max.split.size", "134217728"); // 128 MB
            }
//

            conf.setInputFormat(CombinedInputFormat.class);

paulwong 2013-08-29 16:08 发表评论

使用Sqoop实现HDFS与Mysql互�{

paulwong — Sat, 11 May 2013 13:27:00 GMT

��?br /> Sqoop是一个用来将Hadoop和关�p�d��数据库中的数据相互�{�Uȝ��工具�Q�可以将一个关�p�d��数据库（例如 �Q?MySQL ,Oracle ,Postgres�{�）中的数据导入到Hadoop的HDFS中，也可以将HDFS的数据导入到关系型数据库中�?br />
http://sqoop.apache.org/

环境
当调试过�E�出现IncompatibleClassChangeError一般都是版本兼定w��题�?br />
��Z��保证hadoop和sqoop版本的兼�Ҏ��，使用Cloudera�Q?br />
Cloudera��介：

Cloudera��Z��让Hadoop的配�|�标准化�Q�可以帮助企业安装，配置�Q�运行hadoop以达到大规模企业数据的处理和分析�?br />
http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDHTarballs/3.25.2013/CDH4-Downloadable-Tarballs/CDH4-Downloadable-Tarballs.html

下蝲安装hadoop-0.20.2-cdh3u6�Q�sqoop-1.3.0-cdh3u6�?br />
安装
安装比较��单，直接解压卛_��

唯一需要做的就是将mysql的jdbc适配包mysql-connector-java-5.0.7-bin.jar copy�?SQOOP_HOME/lib下�?br />
配置好环境变量：/etc/profile

export SQOOP_HOME=/home/hadoop/sqoop-1.3.0-cdh3u6/

export PATH=$SQOOP_HOME/bin:$PATH

MYSQL转HDFS-�C�Z��
./sqoop import --connect jdbc:mysql://10.8.210.166:3306/recsys --username root --password root --table shop -m 1 --target-dir /user/recsys/input/shop/$today

HDFS转MYSQ-�C�Z��
./sqoop export --connect jdbc:mysql://10.8.210.166:3306/recsys --username root --password root --table shopassoc --fields-terminated-by ',' --export-dir /user/recsys/output/shop/$today

�C�Z��参数说明
(其他参数我未使用�Q�故不作解释�Q�未使用�Q�就没有发言权，详见命��ohelp)

参数�c�d��

参数�?br />
解释

公共

connect

Jdbc-url

公共

username

---

公共

password

---

公共

table

表名

Import

target-dir

制定输出hdfs目录�Q�默认输出到/user/$loginName/

export

fields-terminated-by

Hdfs文�g中的字段分割�W�，默认�?#8220;\t”

export

export-dir

hdfs文�g的�\�?img src ="http://www.aygfsteel.com/paulwong/aggbug/399153.html" width = "1" height = "1" />

paulwong 2013-05-11 21:27 发表评论

paulwong — Fri, 10 May 2013 16:17:00 GMT

http://www.iteye.com/topic/1128561 @import url(http://www.aygfsteel.com/CuteSoft_Client/CuteEditor/Load.ashx?type=style&file=SyntaxHighlighter.css);@import url(/css/cuteeditor.css);

paulwong 2013-05-11 00:17 发表评论

paulwong — Fri, 03 May 2013 01:05:00 GMT

下面��介�l�大数据领域支持Java的主��开源工�?/strong>�Q?/p>

1. HDFS

HDFS是Hadoop应用�E�序中主要的分布式储存系�l�， HDFS集群包含了一个NameNode�Q�主节点�Q�，�q�个节点负责��理所有文件系�l�的元数据及存储了真实数据的DataNode�Q�数据节点，可以有很多）。HDFS针对��量数据所设计�Q�所以相比传�l�文件系�l�在大批量小文�g上的优化�Q�HDFS优化的则是对��批量大型文件的讉K��和存储�?/p>

2. MapReduce

Hadoop MapReduce是一个��Y件框�Ӟ��用以��L��~�写处理��量�Q�TB�U�）数据的�ƈ行应用程序，以可靠和定w��的方式连�?span style="line-height: 1.45em;">大型集群�?/span>上万个节点（商用��g�Q��?/span>

3. HBase

Apache HBase是Hadoop数据库，一个分布式、可扩展的大数据存储。它提供了大数据集上随机和实时的�?写访问，�q��对了商用服务器集��上的大型表格做��Z��?#8212;—上百亿行�Q�上千万列。其核心是Google Bigtable论文的开源实玎ͼ�分布式列式存储。就像Bigtable利用GFS�Q�Google File System�Q�提供的分布式数据存储一��P��它是Apache Hadoop在HDFS基础上提供的一个类Bigatable�?/p>

4. Cassandra

Apache Cassandra是一个高性能、可�U�性扩展、高有效性数据库�Q�可以运行在商用��g或云基础设施上打造完��的��d��关键性数据��^台。在横跨数据中心的复制中�Q�Cassandra同类最佻I��为用��h��供更低的延时以及更可靠的��N��备䆾。通过log-structured update、反规范化和物化视图的强支持以及强大的内�|�缓存，Cassandra的数据模型提供了方便的二�U�烦引（column indexe�Q��?/p>

5. Hive

Apache Hive是Hadoop的一个数据仓库系�l�，促进了数据的�l�D��Q�将�l�构化的数据文�g映射��Z��张数据库表）、即席查询以及存储在Hadoop兼容�pȝ��中的大型数据集分析。Hive提供完整的SQL查询功能——HiveQL语言�Q�同时当使用�q�个语言表达一�?span style="line-height: 1.45em;">逻辑变得低效和繁�?/span>�Ӟ��HiveQL�q�允�怼��l�的Map/Reduce�E�序员��用自己定制的Mapper和Reducer�?/span>

6. Pig

Apache Pig是一个用于大型数据集分析的��^収ͼ�它包含了一个用于数据分析应用的高��语言以及评估�q�些应用的基��设施。Pig应用的闪光特性在于它们的�l�构�l�得起大量的�q�行�Q�也��是说让它们支撑起非常大的数据集。Pig的基��设施层包含了产生Map-Reduce��d��的编译器。Pig的语�a�层当前包含了一个原生语�a�——Pig Latin�Q�开发的初衷是易于编�E�和保证可扩展性�?/p>

7. Chukwa

Apache Chukwa是个开源的数据攉��pȝ��Q�用以监视大型分布系�l�。徏立于HDFS和Map/Reduce框架之上�Q��承了Hadoop的可扩展性和�E�_��性。Chukwa同样包含了一个灵�z�d��强大的工具包�Q�用以显�C�、监视和分析�l�果�Q�以保证数据的��用达到最��x��果�?/p>

8. Ambari

Apache Ambari是一个基于web的工��P��用于配置、管理和监视Apache Hadoop集群�Q�支持Hadoop HDFS,、Hadoop MapReduce、Hive、HCatalog,、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari同样�q�提供了集群状况仪表盘，比如heatmaps和查看MapReduce、Pig、Hive应用�E�序的能力，以友好的用户界面对它们的性能�Ҏ��进行诊断�?/p>

9. ZooKeeper

Apache ZooKeeper是一个针对大型分布式�pȝ��的可靠协调系�l�，提供的功能包括：配置�l�护、命名服务、分布式同步、组服务�{�。ZooKeeper的目标就是封装好复杂易出错的关键服务�Q�将��单易用的接口和性能高效、功能稳定的�pȝ��提供�l�用戗��?/p>

10. Sqoop

Sqoop是一个用来将Hadoop和关�p�d��数据库中的数据相互�{�Uȝ��工具�Q�可以将一个关�p�d��数据库中数据导入Hadoop的HDFS中，也可以将HDFS中数据导入关�p�d��数据库中�?/p>

11. Oozie

Apache Oozie是一个可扩展、可靠及可扩充的工作��调度系�l�，用以��理Hadoop作业。Oozie Workflow作业是活动的Directed Acyclical Graphs�Q�DAGs�Q�。Oozie Coordinator作业是由周期性的Oozie Workflow作业触发�Q�周期一般决定于旉��Q�频率）和数据可用性。Oozie与余下的Hadoop堆栈�l�合使用�Q�开��即用的支持多种�c�d��Hadoop作业�Q�比如：Java map-reduce、Streaming map-reduce、Pig�?Hive、Sqoop和Distcp�Q�以及其它系�l�作业（比如Java�E�序和Shell脚本�Q��?/p>

12. Mahout

Apache Mahout是个可扩展的机器学习和数据挖掘库�Q�当前Mahout支持主要�?个用例：

推荐挖掘�Q�搜集用户动作�ƈ以此�l�用��h��荐可能喜�Ƣ的事物�?/span>
聚集�Q�收集文件�ƈ�q�行相关文�g分组�?/span>
分类�Q�从现有的分�c�L��档中学习�Q�寻找文档中的相似特征，�q��ؓ无标�{��文档�q�行正确的归�c�R�?/span>
频繁��w��挖掘�Q�将一�l�项分组�Q��ƈ识别哪些个别��会�l�常一起出现�?/span>

13. HCatalog

Apache HCatalog是Hadoop建立数据的映��表和存储管理服务，它包括：

提供一个共享模式和数据�c�d��机制�?/span>
提供一个抽象表�Q�这��L��户就不需要关注数据存储的方式和地址�?/span>
为类似Pig、MapReduce及Hive�q�些数据处理工具提供互操作性�?/span>

paulwong 2013-05-03 09:05 发表评论

一个PIG脚本例子分析

paulwong — Sat, 13 Apr 2013 07:21:00 GMT
执行脚本�Q?br />
PIGGYBANK_PATH=$PIG_HOME/contrib/piggybank/java/piggybank.jar
INPUT=pig/input/test-pig-full.txt
OUTPUT=pig/output/test-pig-output-$(date  +%Y%m%d%H%M%S)
PIGSCRIPT=analyst_status_logs.pig

#analyst_500_404_month.pig
#analyst_500_404_day.pig
#analyst_404_percentage.pig
#analyst_500_percentage.pig
#analyst_unique_path.pig
#analyst_user_logs.pig
#analyst_status_logs.pig

pig -p PIGGYBANK_PATH=$PIGGYBANK_PATH -p INPUT=$INPUT -p OUTPUT=$OUTPUT $PIGSCRIPT

要分析的数据源，LOG 文�g
46.20.45.18 - - [25/Dec/2012:23:00:25 +0100] "GET / HTTP/1.0" 302 - "-" "Pingdom.com_bot_version_1.4_(http://www.pingdom.com/)" "-" "-" 46.20.45.18 "" 11011AEC9542DB0983093A100E8733F8 0
46.20.45.18 - - [25/Dec/2012:23:00:25 +0100] "GET /sign-in.jspx HTTP/1.0" 200 3926 "-" "Pingdom.com_bot_version_1.4_(http://www.pingdom.com/)" "-" "-" 46.20.45.18 "" 11011AEC9542DB0983093A100E8733F8 0
69.59.28.19 - - [25/Dec/2012:23:01:25 +0100] "GET / HTTP/1.0" 302 - "-" "Pingdom.com_bot_version_1.4_(http://www.pingdom.com/)" "-" "-" 69.59.28.19 "" 36D80DE7FE52A2D89A8F53A012307B0A 15

PIG脚本�Q?br />
--注册JAR包，因�ؓ要用到DateExtractor
register '$PIGGYBANK_PATH';

--声明一个短函数�?br />DEFINE DATE_EXTRACT_MM
org.apache.pig.piggybank.evaluation.util.apachelogparser.DateExtractor('yyyy-MM');

DEFINE DATE_EXTRACT_DD
org.apache.pig.piggybank.evaluation.util.apachelogparser.DateExtractor('yyyy-MM-dd');

-- pig/input/test-pig-full.txt
--把数据从变量所指的文�g加蝲到PIG中，�q�定义数据列名，此时的数据集为数�l?a,b,c)
raw_logs = load '$INPUT' USING org.apache.pig.piggybank.storage.MyRegExLoader('^(\\S+) (\\S+) (\\S+) \\[([\\w:/]+\\s[+\\-]\\d{4})\\] "(\\S+) (\\S+) (HTTP[^"]+)" (\\S+) (\\S+) "([^"]*)" "([^"]*)" "(\\S+)" "(\\S+)" (\\S+) "(.*)" (\\S+) (\\S+)')
as (remoteAddr: chararray,
n2: chararray,
n3: chararray,
time: chararray,
method: chararray,
path:chararray,
protocol:chararray,
status: int,
bytes_string: chararray,
referrer: chararray,
browser: chararray,
n10:chararray,
remoteLogname: chararray,
remoteAddr12: chararray,
path2: chararray,
sessionid: chararray,
n15: chararray
);

--�q��o数据
filter_logs = FILTER raw_logs BY not (browser matches '.*pingdom.*');
--item_logs = FOREACH raw_logs GENERATE browser;

--percent 500 logs
--重定义数据项�Q�数据集只取2��status,month
reitem_percent_500_logs = FOREACH filter_logs GENERATE status,DATE_EXTRACT_MM(time) as month;
--分组数据集，此时的数据结构�ؓMAP(a{(aa,bb,cc),(dd,ee,ff)},b{(bb,cc,dd),(ff,gg,hh)})
group_month_percent_500_logs = GROUP reitem_percent_500_logs BY (month);
--重定义分�l�数据集数据��，�q�行分组�l�计�Q�此时要联合分组数据集和原数据集�l�计
final_month_500_logs = FOREACH group_month_percent_500_logs
{
    --对原数据集做count�Q�因为是在foreachj里做count的，即��是对原数据集�Q�也会自动会加month==group的条�?br />    --从这里可以看出对于group里的数据集，完全没用�?br />    --�q�时是以每一行�ؓ单位的，�l�计MAP中的KEY-a对应的数�l�在原数据集中的个数
    total = COUNT(reitem_percent_500_logs);
    --对原数据集做filter�Q�因为是在foreachj里做count的，即��是对原数据集�Q�也会自动会加month==group的条�?br />    --重新�q��o一下原数据集，得到status==500,month==group的数据集
    t = filter reitem_percent_500_logs by status== 500; --create a bag which contains only T values
    --重定义数据项�Q�取group�Q�统计结�?br />    generate flatten(group) as col1, 100*(double)COUNT(t)/(double)total;
}
STORE final_month_500_logs into '$OUTPUT' using PigStorage(',');

paulwong 2013-04-13 15:21 发表评论

paulwong — Wed, 10 Apr 2013 07:32:00 GMT
http://wiki.apache.org/pig/ParameterSubstitution

%pig -param input=/user/paul/sample.txt -param output=/user/paul/output/

PIG中获�?br />
records = LOAD $input;

paulwong 2013-04-10 15:32 发表评论

PIG��议

paulwong — Fri, 05 Apr 2013 13:33:00 GMT

什么是PIG
是一�U�设计语�a��Q�通过设计数据怎么��动�Q�然后由相应的引擎将此变成MAPREDUCE JOB去HADOOP中运行�?/div>
PIG与SQL
两者有相同之处�Q�执行一个或多个语句�Q�然后出来一些结果�?/div>
但不同的是，SQL要先把数据导到表中才能执行，SQL不关心中间如何做�Q�即发一个SQL语句�q�去�Q�就有结果出来�?/div>
PIG�Q�无��d��数据到表中，但要设计直到出结果的中间�q�程�Q�步骤如何等�{��?/div>

paulwong 2013-04-05 21:33 发表评论

paulwong — Sat, 16 Mar 2013 15:04:00 GMT
在新节点安装好hadoop

把namenode的有关配�|�文件复制到该节�?br />

修改masters和slaves文�g,增加该节�?br />

讄��ssh免密码进��节点

单独启动该节点上的datanode和tasktracker(hadoop-daemon.sh start datanode/tasktracker)

�q�行start-balancer.sh�q�行数据负蝲均衡

负蝲均衡:作用:当节点出现故�?或新增加节点�?数据块分布可能不均匀,负蝲均衡可以重新�q��各个datanode上数据块的分�?img src ="http://www.aygfsteel.com/paulwong/aggbug/396544.html" width = "1" height = "1" />

paulwong 2013-03-16 23:04 发表评论

Phoenix: HBase�l�于有SQL接口了～

paulwong — Tue, 19 Feb 2013 15:15:00 GMT
�q�项利器是由CRM领域的领导Saleforce发布的。相当于HBase的JDBC�?br />
具体详见�Q?a target="_blank">https://github.com/forcedotcom/phoenix

支持select�Q�from�Q�where�Q�groupby�Q�having�Q�orderby和徏表操作，未来��支持二�U�烦引，join操作�Q�动态列��等功能�?br />
是徏立在原生HBASE API基础上的�Q�响应时�?0M�U�别的数据是毫秒�Q?00M�U�别是秒�?br />

http://www.infoq.com/cn/news/2013/02/Phoenix-HBase-SQL

paulwong 2013-02-19 23:15 发表评论

监控HBASE

paulwong — Mon, 04 Feb 2013 07:08:00 GMT
@import url(http://www.aygfsteel.com/CuteSoft_Client/CuteEditor/Load.ashx?type=style&file=SyntaxHighlighter.css);@import url(/css/cuteeditor.css);
Hadoop/Hbase是开源版的google Bigtable, GFS, MapReduce的实玎ͼ�随着互联�|�的发展�Q�大数据的处理显得越发重要，Hadoop/Hbase的用武之��C��发�q�泛。�ؓ了更好的使用Hadoop/Hbase�pȝ��Q�需要有一套完善的监控�pȝ��Q�来了解�pȝ��q�行的实时状态，做到一切尽在掌握。Hadoop/Hbase有自己非常完善的metrics framework, 里面包种各种�l�度的系�l�指标的�l�计�Q�另外，�q�套metrics framework设计的也非常不错�Q�用户可以很方便地添加自定义的metrics。更为重要的一�Ҏ��metrics的展�C�方式，目前它支持三�U�方式：一�U�是落地到本地文�Ӟ��一�U�是report�l�Ganglia�pȝ��Q�另一�U�是通过JMX来展�C�。本文主要介�l�怎么把Hadoop/Hbase的metrics report�l�Ganglia�pȝ��Q�通过��览器来查看�?br />
介绍后面的内容之前有必要先简单介�l�一下Ganglia�pȝ��。Ganglia是一个开源的用于�pȝ��监控的系�l�，它由三部分组成：gmond, gmetad, webfrontend, 三部分是�q�样分工的：

gmond: 是一个守护进�E�，�q�行在每一个需要监��的节点上，攉��监测�l�计�Q�发送和接受在同一个组播或单播通道上的�l�计信息
gmetad: 是一个守护进�E�，定期��查gmond�Q�从那里拉取数据�Q��ƈ��他们的指标存储在RRD存储引擎�?br /> webfrontend: 安装在有gmetad�q�行的机器上�Q�以便读取RRD文�g�Q�用来做前台展示

��单�ȝ��它们三者的各自的功用，gmond攉��数据各个node上的metrics数据�Q�gmetad汇总gmond攉��到的数据�Q�webfrontend在前台展�C�gmetad汇�ȝ��数据。Ganglia�~�省是对�pȝ��的一些metric�q�行监控�Q�比如cpu/memory/net�{�。不�q�Hadoop/Hbase内部做了对Ganglia的支持，只需要简单的攚w��|�就可以��Hadoop/Hbase的metrics也接入到ganglia�pȝ��中进行监控�?br />
接下来介�l�如何把Hadoop/Hbase接入到Ganglia�pȝ��Q�这里的Hadoop/Hbase的版本号�?.94.2�Q�早期的版本可能会有一些不同，��h��意区别。Hbase本来是Hadoop下面的子��目�Q�因此所用的metrics framework原本是同一套Hadoop metrics�Q�但后面hadoop有了改进版本的metrics framework:metrics2(metrics version 2), Hadoop下面的项目都已经开始��用metrics2, 而Hbase成了Apache的顶�U�子��目�Q�和Hadoop成�ؓ�q��的项目后�Q�目前还没跟�q�metrics2�Q�它用的�q�是原始的metrics.因此�q�里需要把Hadoop和Hbase的metrics分开介绍�?br />
Hadoop接入Ganglia:

1. Hadoop metrics2对应的配�|�文件�ؓ�Q�hadoop-metrics2.properties
2. hadoop metrics2中引用了source和sink的概念，source是用来收集数据的, sink是用来把source攉��的数据consume的（包括落地文�g�Q�上报ganglia�Q�JMX�{�）
3. hadoop metrics2配置支持Ganglia:

#*.sink.ganglia.class=org.apache.hadoop.metrics2.sink.ganglia.GangliaSink30
*.sink.ganglia.class=org.apache.hadoop.metrics2.sink.ganglia.GangliaSink31

*.sink.ganglia.period=10
*.sink.ganglia.supportsparse=true
*.sink.ganglia.slope=jvm.metrics.gcCount=zero,jvm.metrics.memHeapUsedM=both
*.sink.ganglia.dmax=jvm.metrics.threadsBlocked=70,jvm.metrics.memHeapUsedM=40

#uncomment as your needs
namenode.sink.ganglia.servers=10.235.6.156:8649
#datanode.sink.ganglia.servers=10.235.6.156:8649
#jobtracker.sink.ganglia.servers=10.0.3.99:8649
#tasktracker.sink.ganglia.servers=10.0.3.99:8649
#maptask.sink.ganglia.servers=10.0.3.99:8649
#reducetask.sink.ganglia.servers=10.0.3.99:8649

�q�里需要注意的几点�Q?br />
(1) 因�ؓGanglia3.1�?.0不兼容，需要根据Ganglia的版本选择使用GangliaSink30或者GangliaSink31
(2) period配置上报周期�Q�单位是�U?s)
(3) namenode.sink.ganglia.servers指定Ganglia gmetad所在的host:port�Q�用来向其上报数�?br /> (4) 如果同一个物理机器上同时启动了多个hadoop�q�程(namenode/datanode, etc)�Q�根据需要把相应的进�E�的sink.ganglia.servers配置好即�?br /> Hbase接入Ganglia:

1. Hbase所用的hadoop metrics对应的配�|�文件是: hadoop-metrics.properties
2. hadoop metrics里核心是Context�Q�写文�g有写文�g的TimeStampingFileContext, 向Ganglia上报有GangliaContext/GangliaContext31
3. hadoop metrics配置支持Ganglia:

# Configuration of the "hbase" context for ganglia
# Pick one: Ganglia 3.0 (former) or Ganglia 3.1 (latter)
# hbase.class=org.apache.hadoop.metrics.ganglia.GangliaContext
hbase.class=org.apache.hadoop.metrics.ganglia.GangliaContext31
hbase.period=10
hbase.servers=10.235.6.156:8649

�q�里需要注意几点：

(1) 因�ؓGanglia3.1�?.0不兼容，所以如果是3.1以前的版本，需要用GangliaContext, 如果�?.1版的Ganglia�Q�需要用GangliaContext31
(2) period的单位是�U?s)�Q�通过period可以配置向Ganglia上报数据的周�?br /> (3) servers指定的是Ganglia gmetad所在的host:port�Q�把数据上报到指定的gmetad
(4) 对rpc和jvm相关的指标都可以�q�行�c�M��的配�|?/div>

paulwong 2013-02-04 15:08 发表评论

HBASE部��v要点

paulwong — Mon, 04 Feb 2013 04:10:00 GMT

REGIONS SERVER和TASK TRACKER SERVER不要在同一台机器上�Q�最好如果有MAPREDUCE JOB�q�行的话�Q�应该分开两个CLUSTER�Q�即两群不同的服务器上，�q�样MAPREDUCE 的线下负载不会媄响到SCANER�q�些�U�上负蝲�?/div>

如果主要是做MAPREDUCE JOB的话�Q�将REGIONS SERVER和TASK TRACKER SERVER攑֜�一��h��可以的�?/div>

原始集群模式

10个或以下节点�Q�无MAPREDUCE JOB�Q�主要用于低延迟的访问。每个节点上的配�|��ؓ�Q�CPU4-6CORE�Q�内�?4-32G�Q?个SATA��盘。Hadoop NameNode, JobTracker, HBase Master, 和ZooKeeper全都在同一个NODE上�?

��型集群模式�Q?0-20台服务器�Q?/span>

HBase Master攑֜�单独一台机器上, 以便于��用较低配�|�的机器。ZooKeeper也放在单独一台机器上�Q�NameNode和JobTracker攑֜�同一台机器上�?/div>

中型集群模式�Q?0-50台服务器�Q?/span>

�׃��无须再节省费用，可以��HBase Master和ZooKeeper攑֜�同一台机器上, ZooKeeper和HBase Master要三个实例。NameNode和JobTracker攑֜�同一台机器上�?/div>

大型集群模式�Q?gt;50台服务器�Q?/span>

和中型集��模式相��|��但ZooKeeper和HBase Master要五个实例。NameNode和Second NameNode要有��_��大的内存�?/div>

HADOOP MASTER节点

NameNode和Second NameNode服务器配�|�要求：�Q�小型）8CORE CPU�Q?6G内存�Q?G�|�卡和SATA ��盘�Q�中弄再增加�?6G内存�Q�大型则再增加多32G内存�?/div>

HBASE MASTER节点

服务器配�|�要求：4CORE CPU�Q?-16G内存�Q?G�|�卡�?个SATA ��盘�Q�一个用于操作系�l�，另一个用于HBASE MASTER LOGS�?/div>

HADOOP DATA NODES和HBASE REGION SERVER节点

DATA NODE和REGION SERVER应在同一台服务器上，且不应该和TASK TRACKER在一赗��服务器配置要求�Q?-12CORE CPU�Q?4-32G内存�Q?G�|�卡�?2*1TB SATA ��盘�Q�一个用于操作系�l�，另一个用于HBASE MASTER LOGS�?/div>

ZOOPKEEPERS节点

服务器配�|�和HBASE MASTER�怼��Q�也可以与HBASE MASTER攑֜�一��P��但就要多增加一个硬盘单独给ZOOPKEEPER使用�?/div>

安装各节�?/span>

JVM配置�Q?/div> -Xmx8g—讄��HEAP的最大值到8G�Q�不��讑ֈ�15 GB.
-Xms8g—讄��HEAP的最��值到8GS.
-Xmn128m—讄��新生代的值到128 MB�Q�默认值太��?br /> -XX:+UseParNewGC—讄��对于新生代的垃圾回收器类型，�q�种�c�d��是会停止JAVA�q�程�Q�然后再�q�行回收的，但由于新生代体积比较��，持箋旉��通常只有几毫�U�，因此可以接受�?br /> -XX:+UseConcMarkSweepGC—讄��老生代的垃圾回收�c�d��Q�如果用新生代的那个会不合适，即会��D��JAVA�q�程停止的时间太长，用这�U�不会停止JAVA�q�程�Q�而是在JAVA�q�程�q�行的同�Ӟ��q�行的进行回收�?br /> -XX:CMSInitiatingOccupancyFraction—讄��CMS回收器运行的频率�?br />

paulwong 2013-02-04 12:10 发表评论

HBASE��M��W�记

paulwong — Fri, 01 Feb 2013 05:55:00 GMT

GET、PUT是ONLINE的操作，MAPREDUCE是OFFLINE的操�?/div>

HDFS写流�E?/span>

客户端收到要保存文�g的请求后�Q�将文�g�?4M为单位拆成若�q�䆾BLOCK�Q��Ş成一个列表，即由几个BLOCK�l�成�Q�将�q�些信息告诉NAME NODE�Q�我要保存这个，NAME NODE��出一个列表，哪段BLOCK应该写到哪个DATA NODE�Q�客��L��第一个BLOCK传到�W�一个节点DATA NODE A�Q�通知其保存，同时让它通知DATA NODE D和DATA NODE B也保存一份，DATA NODE D收到信息后进行了保存�Q�同旉��知DATA NODE B保存一份，DATA NODE B保存完成后则通知客户端保存完成，客户端再��d��NAME NODE中取下一个BLOCK要保存的位置�Q�重复以上的动作�Q�直到所有的BLOCK都保存完成�?/div>

HDFS��L��E?/span>

客户端向NAME NODE��h��M��个文�Ӟ��NAME NODE�q�回�q�个文�g所构成的所有BLOCK的DATA NODE IP及BLOCK ID�Q�客��L��q�行的向各DATA NODE发出��h��Q�要取某个BLOCK ID的BLOCK�Q�DATA NODE发回所要的BLOCK�l�客��L��Q�客��L��攉��到所有的BLOCK后，整合成一个完整的文�g后，此流�E�结束�?br />

MAPREDUCE��程

输入数据 -- 非多�U�程了，而是多进�E�的挑选数据，卛_��输入数据分成多块�Q�每个进�E�处理一�?-- 分组 -- 多进�E�的汇集数据 -- 输出

HBASE表结�?/span>

HBASE中将一个大表数据分成不同的��表�Q�每个小表叫REGION�Q�存放REGION的服务器叫REGIONSERVER�Q�一个REGIONSERVER可以存放多个REGION。通常REGIONSERVER和DATA NODE是在同一服务器，以减��NETWORK IO�?/div>

-ROOT-表存放于MASTER SERVER上，记录了一共有多少个REGIONSERVER�Q�每个REGION SERVER上都有一�?META.表，上面记录了本REGION SERVER放有哪几个表的哪几个REGION。如果要知道某个表共有几个REGION�Q�就得去所有的REGION SERVER上查.META.表，�q�行汇��L��能得知�?/div>

客户端如果要查ROW009的信息，先去咨询ZOOPKEEPER�Q?ROOT-表在哪里�Q�然后问-ROOT-表，哪个.META.知道�q�个信息�Q�然后去�?META.表，哪个REGION有这个信息，然后去那个REGION问ROW009的信息，然后那个REGION�q�回此信息�?br />

HBASE MAPREDUCE

一个REGION一个MAP��d��Q�而�Q务里的map�Ҏ��执行多少�ơ，则由查询出来的记录有多少条，则执行多��次�?/div>
REDUCE��d��负责向REGION写数据，但写到哪个REGION则由那个KEY归属哪个REGION��，则写到哪个REGION�Q�有可能REDUCE��d��会和所有的REGION SERVER交互�?br />

在HBASE的MAPREDUCE JOB中��用JOIN

REDUCE-SIDE JOIN
利用现有的SHUTTLE分组机制�Q�在REDUCE阶段做JOIN�Q�但�׃��MAP阶段数据大，可能会有性能问题�?/div>
MAP-SIDE JOIN

��数据较��的一表读��C��公共文�g中，然后在MPA�Ҏ��中��@环另一表的数据�Q�再��要的数据从公共文�g中读取。这样可以减��SHUTTLE和SORT的时��_��同时也不需要REDUCE��d��?/div>

paulwong 2013-02-01 13:55 发表评论

Hadoop的几�U�Join�Ҏ��

paulwong — Thu, 31 Jan 2013 10:24:00 GMT
1) 在Reduce阶段�q�行Join,�q�样�q�算量比较小.(�q�个适合被Join的数据比较小的情况下.)
2) 压羃字段,�Ҏ��据预处理,�q��o不需要的字段.
3) 最后一步就是在Mapper阶段�q��o,�q�个��是Bloom Filter的用武之��C��.也就是需要详�l�说明的地方.

下面��拿一个我们大安��熟悉的场景来说明�q�个问题: 扑և�上个月动感地带的客户资费的��用情�?包括接入和拨�?

(�q�个只是我臆惛_��来的例子,�Ҏ��实际的DB数据存储�l�构,在这个场景下肯定有更好的解决�Ҏ��,大家不要太较真哦)

�q�个时候的两个个数据集都是比较大的,�q�两个数据集分别�?上个月的通话记录,动感地带的手机号码列�?

比较直接的处理方法有2�U?

1)�?Reduce 阶段,通过动感地带��L��来过�?

优点:�q�样需要处理的数据相对比较��?�q�个也是比较常用的方�?

�~�点:很多数据在Mapper阶段�׃��老��E子力气汇��M��,�q�通过�|�络Shuffle到Reduce节点,�l�果到这个阶�D늻��q��o�?

2)�?Mapper 阶段�?通过动感地带��L��来过滤数�?

优点:�q�样可以�q��o很多不是动感地带的数�?比如��州�?全球�?�q�些�q��o的数据就可以节省很多�|�络带宽�?

�~�点:��是动感地带的号码不是小数目,如果�q�样处理��需要把�q�个大块头复制到所有的Mapper节点,甚至是Distributed Cache.(Bloom Filter��是用来解决�q�个问题�?

Bloom Filter��是用来解决上面�Ҏ��2的缺点的.

�Ҏ��2的缺点就是大量的数据需要在多个节点复制.Bloom Filter通过多个Hash��法, 把这个号码列表压�~�到了一个Bitmap里面. 通过允许一定的错误率来换空�? �q�个和我们��^时经常提到的旉��和空间的互换�c�M��.详细情况可以参�?

http://blog.csdn.net/jiaomeng/article/details/1495500

但是�q�个��法也是有缺��L��,��是会把很多��州�?全球通之�cȝ��L��当成动感地带.但在�q�个场景�?�q�根本不是问�?因�ؓ�q�个��法只是�q��o一些号�?漏网之鱼会在Reduce阶段�q�行�_��匚w��旉��虑掉.

�q�个�Ҏ��改进之后基本上完全回避了�Ҏ��2的缺�?

1) 没有大量的动感地带号码发送到所有的Mapper节点.
2) 很多非动感地带号码在Mapper阶段��p��滤了(虽然不是100%),避免了网�l�带宽的开销及�g�?

�l�箋需要学习的地方:Bitmap的大��? Hash函数的多��? 以及存储的数据的多少. �q?个变量如何取值才能才能在存储�I�间与错误率之间取得一个��^�?

paulwong 2013-01-31 18:24 发表评论

配置secondarynamenode

paulwong — Thu, 31 Jan 2013 09:39:00 GMT
NAME NODE起保存DATA NODE上文件的位置信息用，主要有两个保存文�Ӟ��FsImage和EditLog�Q�FsImage保存了上一�ơNAME NODE启动时的状态，EditLog则记录每�ơ成功后的对HDFS的操作行为。当NAME NODE重启�Ӟ��会合�q�FsImage和EditLog成�ؓ一个新的FsImage�Q�清�I�EditLog�Q�如果EditLog非常大的时候，则NAME NODE启动的时间会非常�ѝ��因此就有SECOND NAME NODE�?br />

SECOND NAME NODE会以HTTP的方式向NAME NODE要这两个文�g�Q�当NAME NODE收到��h��Ӟ��׃��韦一个新的EditLog来记录，�q�时SECOND NAME NODE��׃��取得的�q�两个文件合�qӞ��成一个新的FsImage�Q�再发给NAME NODE�Q�NAME NODE收到后，��׃��以这个�ؓ准，旧的��׃��归档不用�?br />

SECOND NAME NODE�q�有一个用途就是当NAME NODE DOWN了的时候，可以改SECOND NAME NODE的IP为NAME NODE所用的IP�Q�当NAME NODE用�?br />
secondary namenoded 配置很容易被忽视�Q�如果jps��查都正常�Q�大安��常不会太关心，除非namenode发生问题的时候，才会惌��v�q�有个secondary namenode�Q�它的配�|�共两步�Q?br />

集群配置文�gconf/master中添加secondarynamenode的机�?/li>
修改/��d�� hdfs-site.xml中如下属性：

<property>
<name>dfs.http.addressname>
<value>{your_namenode_ip}:50070value>
<description>
The address and the base port where the dfs namenode web ui will listen on.
If the port is 0 then the server will start on a free port.
description>
property>

�q�两��w��|�OK后，启动集群。进入secondary namenode 机器�Q�检查fs.checkpoint.dir�Q�core-site.xml文�g�Q�默认�ؓ${hadoop.tmp.dir}/dfs/namesecondary�Q�目录同步状态是否和namenode一致的�?br />
如果不配�|�第二项则，secondary namenode同步文�g�Ҏ��q��ؓ�I�，�q�时查看secondary namenode的log昄��错误为：

2011-06-09 11:06:41,430 INFO org.apache.hadoop.hdfs.server.common.Storage: Recovering storage directory /tmp/hadoop-hadoop/dfs/namesecondary from failed checkpoint.
2011-06-09 11:06:41,433 ERROR org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode: Exception in doCheckpoint:
2011-06-09 11:06:41,434 ERROR org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode: java.net.ConnectException: Connection refused
at java.net.PlainSocketImpl.socketConnect(Native Method)
at java.net.PlainSocketImpl.doConnect(PlainSocketImpl.java:351)
at java.net.PlainSocketImpl.connectToAddress(PlainSocketImpl.java:211)
at java.net.PlainSocketImpl.connect(PlainSocketImpl.java:200)
at java.net.SocksSocketImpl.connect(SocksSocketImpl.java:366)
at java.net.Socket.connect(Socket.java:529)
at java.net.Socket.connect(Socket.java:478)
at sun.net.NetworkClient.doConnect(NetworkClient.java:163)
at sun.net.www.http.HttpClient.openServer(HttpClient.java:394)
at sun.net.www.http.HttpClient.openServer(HttpClient.java:529)
at sun.net.www.http.HttpClient.(HttpClient.java:233)
at sun.net.www.http.HttpClient.New(HttpClient.java:306)
at sun.net.www.http.HttpClient.New(HttpClient.java:323)
at sun.net.www.protocol.http.HttpURLConnection.getNewHttpClient(HttpURLConnection.java:970)
at sun.net.www.protocol.http.HttpURLConnection.plainConnect(HttpURLConnection.java:911)
at sun.net.www.protocol.http.HttpURLConnection.connect(HttpURLConnection.java:836)
at sun.net.www.protocol.http.HttpURLConnection.getInputStream(HttpURLConnection.java:1172)
at org.apache.hadoop.hdfs.server.namenode.TransferFsImage.getFileClient(TransferFsImage.java:151)
at org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode.downloadCheckpointFiles(SecondaryNameNode.java:256)
at org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode.doCheckpoint(SecondaryNameNode.java:313)
at org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode.run(SecondaryNameNode.java:225)
at java.lang.Thread.run(Thread.java:662)

可能用到的core-site.xml文�g相关属�?/span>�Q?br />
<property>
<name>fs.checkpoint.periodname>
<value>300value>
<description>The number of seconds between two periodic checkpoints.
description>
property>

<property>
<name>fs.checkpoint.dirname>
<value>${hadoop.tmp.dir}/dfs/namesecondaryvalue>
<description>Determines where on the local filesystem the DFS secondary
name node should store the temporary images to merge.
If this is a comma-delimited list of directories then the image is
replicated in all of the directories for redundancy.
description>
property>

paulwong 2013-01-31 17:39 发表评论

paulwong — Thu, 31 Jan 2013 05:55:00 GMT
挺有意思的题目�?br />

1. �l�你A,B两个文�g�Q�各存放50亿条URL�Q�每条URL占用64字节�Q�内存限制是4G�Q�让你找�?A,B文�g共同的URL�?/strong>
解法一�Q�Hash成内存大��的��块文�g�Q�然后分块内存内查交集�?br />解法二：Bloom Filter�Q�广泛应用于URL�q��o、查重。参考http://en.wikipedia.org/wiki/Bloom_filter、http://blog.csdn.net/jiaomeng/archive/2007/01/28/1496329.aspx�Q?br />

2. �?0个文�Ӟ��每个文�g1G�Q?每个文�g的每一行都存放的是用户的query�Q�每个文件的query都可能重复。要你按照query的频度排序�?/strong>
解法一�Q�根据数据稀疏程度算法会有不同，通用�Ҏ��是用Hash把文仉��排，让相同query一定会在同一个文�Ӟ��同时�q�行计数�Q�然后归�qӞ��用最��堆来统计频度最大的�?br />解法二：�c�M��1�Q�但是用的是与简单Bloom Filter�E�有不同的CBF�Q�Counting Bloom Filter�Q�或者更�q�一步的SBF�Q�Spectral Bloom Filter�Q�参考http://blog.csdn.net/jiaomeng/archive/2007/03/19/1534238.aspx�Q?br />解法三：MapReduce�Q�几分钟可以在hadoop集群上搞定。参考http://en.wikipedia.org/wiki/MapReduce

3. 有一�?G大小的一个文�Ӟ��里面每一行是一个词�Q�词的大��不��过16个字节，内存限制大小�?M。返回频数最高的100个词�?/strong>
解法一�Q�跟2�c�M��Q�只是不需要排序，各个文�g分别�l�计�?00�Q�然后一��h��?00�?img src ="http://www.aygfsteel.com/paulwong/aggbug/394980.html" width = "1" height = "1" />

paulwong 2013-01-31 13:55 发表评论

paulwong — Mon, 28 Jan 2013 16:19:00 GMT

假设�q�程HADOOP��L��名�ؓubuntu�Q�则应在hosts文�g中加�?92.168.58.130 ubuntu

新徏MAVEN��目�Q�加上相应的配置
pom.xml

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
  xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
  <modelVersion>4.0.0modelVersion>

  <groupId>com.cloudputinggroupId>
  <artifactId>bigdataartifactId>
  <version>1.0version>
  <packaging>jarpackaging>

  <name>bigdataname>
  <url>http://maven.apache.orgurl>

  <properties>
    <project.build.sourceEncoding>UTF-8project.build.sourceEncoding>
  properties>

    <dependencies>
        <dependency>
            <groupId>junitgroupId>
            <artifactId>junitartifactId>
            <version>3.8.1version>
            <scope>testscope>
        dependency>
        <dependency>
            <groupId>org.springframework.datagroupId>
            <artifactId>spring-data-hadoopartifactId>
            <version>0.9.0.RELEASEversion>
        dependency>
        <dependency>
            <groupId>org.apache.hbasegroupId>
            <artifactId>hbaseartifactId>
            <version>0.94.1version>
        dependency>


        <dependency>
            <groupId>org.apache.hadoopgroupId>
            <artifactId>hadoop-coreartifactId>
            <version>1.0.3version>
        dependency>
        <dependency>
            <groupId>org.springframeworkgroupId>
            <artifactId>spring-testartifactId>
            <version>3.0.5.RELEASEversion>
        dependency>
    dependencies>
project>

hbase-site.xml

xml version="1.0"?>
xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>

    <property>
        <name>hbase.rootdirname>
        <value>hdfs://ubuntu:9000/hbasevalue>
    property>


    <property>
        <name>mapred.job.trackername>
        <value>ubuntu:9001value>
    property>

    <property>
        <name>hbase.cluster.distributedname>
        <value>truevalue>
    property>


    <property>
        <name>hbase.zookeeper.quorumname>
        <value>ubuntuvalue>
    property>
    <property skipInDoc="true">
        <name>hbase.defaults.for.versionname>
        <value>0.94.1value>
    property>

configuration>

��试文�g�Q�MapreduceTest.java

package com.cloudputing.mapreduce;

import java.io.IOException;

import junit.framework.TestCase;

public class MapreduceTest extends TestCase{

    public void testReadJob() throws IOException, InterruptedException, ClassNotFoundException
    {
        MapreduceRead.read();
    }

}

MapreduceRead.java

package com.cloudputing.mapreduce;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.client.Scan;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;
import org.apache.hadoop.hbase.mapreduce.TableMapper;
import org.apache.hadoop.hbase.util.Bytes;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.output.NullOutputFormat;

public class MapreduceRead {

    public static void read() throws IOException, InterruptedException, ClassNotFoundException
    {
        // Add these statements. XXX
//        File jarFile = EJob.createTempJar("target/classes");
//        EJob.addClasspath("D:/PAUL/WORK/WORK-SPACES/TEST1/cloudputing/src/main/resources");
//        ClassLoader classLoader = EJob.getClassLoader();
//        Thread.currentThread().setContextClassLoader(classLoader);

        Configuration config = HBaseConfiguration.create();
        addTmpJar("file:/D:/PAUL/WORK/WORK-SPACES/TEST1/cloudputing/target/bigdata-1.0.jar",config);

        Job job = new Job(config, "ExampleRead");
        // And add this statement. XXX
//        ((JobConf) job.getConfiguration()).setJar(jarFile.toString());

//        TableMapReduceUtil.addDependencyJars(job);
//        TableMapReduceUtil.addDependencyJars(job.getConfiguration(),
//                MapreduceRead.class,MyMapper.class);

        job.setJarByClass(MapreduceRead.class);     // class that contains mapper

        Scan scan = new Scan();
        scan.setCaching(500);        // 1 is the default in Scan, which will be bad for MapReduce jobs
        scan.setCacheBlocks(false);  // don't set to true for MR jobs
        // set other scan attrs

        TableMapReduceUtil.initTableMapperJob(
                "wiki",        // input HBase table name
                scan,             // Scan instance to control CF and attribute selection
                MapreduceRead.MyMapper.class,   // mapper
                null,             // mapper output key
                null,             // mapper output value
                job);
        job.setOutputFormatClass(NullOutputFormat.class);   // because we aren't emitting anything from mapper

//        DistributedCache.addFileToClassPath(new Path("hdfs://node.tracker1:9000/user/root/lib/stat-analysis-mapred-1.0-SNAPSHOT.jar"),job.getConfiguration());

        boolean b = job.waitForCompletion(true);
        if (!b) {
            throw new IOException("error with job!");
        }

    }

    /**
     * 为Mapreduce��d��W�三方jar�?br />      *
     * @param jarPath
     *            举例�Q�D:/Java/new_java_workspace/scm/lib/guava-r08.jar
     * @param conf
     * @throws IOException
     */
    public static void addTmpJar(String jarPath, Configuration conf) throws IOException {
        System.setProperty("path.separator", ":");
        FileSystem fs = FileSystem.getLocal(conf);
        String newJarPath = new Path(jarPath).makeQualified(fs).toString();
        String tmpjars = conf.get("tmpjars");
        if (tmpjars == null || tmpjars.length() == 0) {
            conf.set("tmpjars", newJarPath);
        } else {
            conf.set("tmpjars", tmpjars + ":" + newJarPath);
        }
    }

    public static class MyMapper extends TableMapper {

        public void map(ImmutableBytesWritable row, Result value,
                Context context) throws InterruptedException, IOException {
            String val1 = getValue(value.getValue(Bytes.toBytes("text"), Bytes.toBytes("qual1")));
            String val2 = getValue(value.getValue(Bytes.toBytes("text"), Bytes.toBytes("qual2")));
            System.out.println(val1 + " -- " + val2);
        }

        private String getValue(byte [] value)
        {
            return value == null? "null" : new String(value);
        }
    }

}

paulwong 2013-01-29 00:19 发表评论

某hadoop视频教程内容

paulwong — Sat, 05 Jan 2013 04:59:00 GMT
@import url(http://www.aygfsteel.com/CuteSoft_Client/CuteEditor/Load.ashx?type=style&file=SyntaxHighlighter.css);@import url(/css/cuteeditor.css); �W?章节:
> Hadoop背景
> HDFS设计目标
> HDFS不适合的场�?
> HDFS架构详尽分析
> MapReduce的基本原�?

�W?章节
> Hadoop的版本介�l?
> 安装单机版Hadoop
> 安装Hadoop集群

�W?章节
> HDFS命��o行基本操�?
> Namenode的工作机�?
> HDFS基本配置��理

�W?章节
> HDFS应用实战�Q�图片服务器(1) - �pȝ��设计
> 应用的环境搭�?php + bootstrap + java
> 使用Hadoop Java API实现向HDFS写入文�g

�W?章节
> HDFS应用实战�Q�图片服务器(2)
> 使用Hadoop Java API实现��d��HDFS中的文�g
> 使用Hadoop Java API实现获取HDFS目录列表
> 使用Hadoop Java API实现删除HDFS中的文�g

�W?章节
> MapReduce的基本原�?
> MapReduce的运行过�E?
> 搭徏MapReduce的java开发环�?
> 使用MapReduce的java接口实现WordCount

�W?章节
> WordCount�q�算�q�程分析
> MapReduce的combiner
> 使用MapReduce实现数据去重
> 使用MapReduce实现数据排序
> 使用MapReduce实现数据�q�_��成�W计算

�W?章节
> HBase详细介绍
> HBase的系�l�架�?
> HBase的表�l�构�Q�RowKey�Q�列族和旉��?
> HBase中的Master�Q�Region以及Region Server

�W?章节
> 使用HBase实现微博应用�Q?�Q?
> 用户注册�Q�登陆和注销的设�?
> 搭徏环境 struts2 + jsp + bootstrap + jquery + HBase Java API
> HBase和用��L��关的表结构设�?
> 用户注册的实�?

�W?0章节
> 使用HBase实现微博应用�Q?�Q?
> 使用session实现用户��d��和注销
> “��x��"功能的设�?
> “��x��"功能的表�l�构设计
> “��x��"功能的实�?

�W?1章节
> 使用HBase实现微博应用�Q?�Q?
> “发微�?功能的设�?
> “发微�?功能的表�l�构设计
> “发微�?功能的实�?
> 展现整个应用的运�?

�W?2章节
> HBase与MapReduce介绍
> HBase如何使用MapReduce

�W?3章节

> HBase应用实战�Q�话单查询与�l�计�Q?�Q?
> 应用的整体设�?
> 开发环境搭�?
> 表结构设�?

�W?4章节
> HBase应用实战�Q�话单查询与�l�计�Q?�Q?
> 话单入库单设计与实现
> 话单查询的设计与实现

�W?5章节
> HBase应用实战�Q�话单查询与�l�计�Q?�Q?
> �l�计功能设计
> �l�计功能实现

�W?6章节
> 深入MapReduce�Q?�Q?
> split的实现详�?
> 自定义输入的实现
> 实例讲解

�W?7章节
> 深入MapReduce�Q?�Q?
> Reduce的partition
> 实例讲解

�W?8章节
> Hive入门
> 安装Hive
> 使用Hive向HDFS存入�l�构化数�?
> Hive的基本��?

�W?9章节
> 使用MySql作�ؓHive的元数据�?
> Hive�l�合MapReduce

�W?0章节
> Hive应用实战:数据�l�计�Q?�Q?
> 应用设计�Q�表�l�构设计

�W?1章节
> Hive应用实战�Q�数据统计（2�Q?
> 数据录入与统计的实现

paulwong 2013-01-05 12:59 发表评论

HBase的一些应用设计tip

paulwong — Wed, 02 Jan 2013 15:09:00 GMT
1�Q�对于HBase的存储设计，要考虑它的存储�l�构是：rowkey+columnFamily:columnQualifier+timestamp(version)+value = KeyValue in HBase�Q�一个KeyValue依次按照rowkey�Q�columnkey和timestamp有序。一个rowkey加一个column信息定位了hbase表的一个逻辑的行�l�构�?

2�Q�从逻辑存储�l�构到实际的物理存储�l�构要经历一个fold�q�程�Q�所有的columnFamily下的内容被有序的合�ƈ�Q�因为HBase把一个ColumnFamily存储��Z��个StoreFile�?

3�Q�把HBase的查询等价�ؓ一个逐层�q��o的行为，那么在设计存储时��应该明白，使设计越��向单一的keyvalue性能会越好；如果是因为复杂的业务逻辑��D��查询需要确定rowkey、column、timestamp�Q�甚��x��夸张的是用到了HBase的Filter在server端做value的处理，那么整个性能会非�怽��?nbsp;

4�Q�因此在表结构设计时�Q�HBase里有tall narrow和flat wide两种设计模式�Q�前者行多列��，整个表结构高且窄�Q�后者行��列多，表结构��^且宽�Q�但是由于HBase只能在行的边界做split�Q�因此如果选择flat wide的结构，那么在特�D�行变的��大（��过file或region的上限）�Ӟ��那么�q�种行�ؓ会导致compaction�Q�而这样做是要把row��d��存的~~因此�Q�强烈推荐��用tall narrow模式设计表结构，�q�样�l�构更趋�q�于keyvalue�Q�性能更好�?nbsp;

5�Q�一�U�优雅的行设计叫做partial row scan�Q�我们一般rowkey会设计�ؓ--...�Q�每个key都是查询条�g�Q�中间用某种分隔�W�分开�Q�对于只��x��key1的所有这��L��情况�Q�在不��用filter的情况下�Q�更高性能�Q�，我们可以为每个key讑֮�一个�v始和�l�束的��|��比如key1作�ؓ开始，key1+1作�ؓ�l�束�Q�这样scan的时候可以通过讑֮�start row和stop row��p��查到所有的key1的value�Q�同理�P代，每个子key都可以这栯��设计到rowkey中�?nbsp;

6�Q�对于分��|��询，推荐的设计方式也不是利用filter�Q�而是在scan中通过offset和limit的设定来模拟�c�M��RDBMS的分��c��具体过�E�就是首先定位start row�Q�接着跌��offset行，��d��limit行，最后关闭scan�Q�整个流�E�结束�?nbsp;

7�Q�对于带有时间范围的查询�Q�一�U�设计是把时间放��C��个key的位�|�，�q�样设计有个弊端��是查询时一定要先知道查询哪个维度的旉��范围��|��而不能直接通过旉��查询所有维度的��|��另一�U�设计是把timestamp攑ֈ�前面�Q�同时利用hashcode或者MD5�q�样的�Ş式将其打散，�q�样对于实时的时序数据，因�ؓ��其打散��D��自动分到其他region可以提供更好的�ƈ发写优势�?nbsp;

8�Q�对于读写的�q��Q�下面这张图更好的说明了key的设计：salting�{��h于hash�Q�promoted�{��h于在key中加入其他维度，而random��是MD�q�样的�Ş式了�?/div>

9�Q�还有一�U�高�U�的设计方式是利用column来当做RDBMS�c�M��二��索引的应用设计，rowkey的存储达��C��定程度后�Q�利用column的有序，完成�c�M��索引的设计，比如�Q�一个CF叫做data存放数据本��n�Q�ColumnQualifier是一个MD5形式的index�Q�而value是实际的数据�Q�再��Z��个CF叫做index存储刚才的MD5�Q�这个index的CF的ColumnQualifier是真正的索引字段�Q�比如名字或者�Q意的表字�D�，�q�样可以允许多个�Q�，而value是这个烦引字�D늚�MD5。每�ơ查询时��可以先在index里找到这个烦引（查询条�g不同�Q�选择的烦引字�D�不同）�Q�然后利用这个烦引到data里找到数据，两次查询实现真正的复杂条件业务查询�?/div>

10�Q�实��C��U�烦引还有其他途径�Q?/div>
比如�Q?/div>
1�Q�客��L��控制�Q�即一�ơ读取将所有数据取回，在客��L��做各�U�过滤操作，优点自然是控制力比较强，但是�~�点在性能和一致性的保证上；

2�Q�Indexed-Transactional HBase�Q�这是个开源项目，扩展了HBase�Q�在客户端和服务端加入了扩展实现了事务和二��索引�Q?/div>
3�Q�Indexed-HBase�Q?/div>
4�Q�Coprocessor�?nbsp;

11�Q�HBase集成搜烦的方式有多种�Q?�Q�客��L��控制�Q�同上；2�Q�Lucene�Q?�Q�HBasene�Q?�Q�Coprocessor�?nbsp;

12�Q�HBase集成事务的方式：1�Q�ITHBase�Q?�Q�ZooKeeper�Q�通过分布式锁�?nbsp;

13�Q�timestamp虽然叫这个名字，但是完全可以存放��M��内容来�Ş成用戯��定义的版本信息�?

paulwong 2013-01-02 23:09 发表评论

日韩精品福利视频,色狠狠一区二区三区香蕉,亚洲一区色图

SPRING CACHE资源

Spring Cache抽象详解

使用WILDFLY中的分布式缓存INFISHPAN

SPRING-SESSION

分布式调度QUARTZ+SPRING

樂視 TV 載入 4K 片點解咁快？CDN �E�絡解構

Java�q�行处理框架 JPPF

【�{载】经典�O画讲解HDFS原理

一些数据切分、缓存、rpc框架、nosql�Ҏ��资料

Install hadoop+hbase+nutch+elasticsearch

Implementation for CombineFileInputFormat Hadoop 0.20.205

使用Sqoop实现HDFS与Mysql互�{

一个PIG脚本例子分析

PIG���议

Phoenix: HBase�l�于有SQL接口了～

监控HBASE

HBASE部��v要点

HBASE��M���W�记

Hadoop的几�U�Join�Ҏ��

配置secondarynamenode

某hadoop视频教程内容

HBase的一些应用设计tip

PIG��议

HBASE��M��W�记