国语产色综合,亚洲精华一区二区三区,成人福利视频网

�?业务讨论�?推荐

Fri, 11 Dec 2009 08:20:00 GMT

定义�Q?
灰羊��?nbsp; �Q�无主见的用��L��体）
黑羊 �Q?对自己需要什么有明确的认识，我们一般称��Z��家用戗��?nbsp; �Q?br />

1. 区分灎ͼ�无主见） �?��群

2.
user session 兌�� #�?兌��关系�l�护使用用户的会话ID�Q�用户不同心情，起始在数据中��应该是不同分类的）
user 推荐 # 而推荐出产品 �q�是 �?用户唯一�~�号有关
#在推荐中需要描�q?nbsp; 用户的多角度问题

3.
蛮力推荐�Q?全数�?�Q�描�q�初期清�z�后的数�?�Q?适合产品兌��
清洗后期的数据（包含用户多维度描�q�ͼ� 适合用户兌��

4.
专家跟随推荐
描述�Q?br /> 用户分类扑ֈ�黑�ľ�?
扑ֈ� 一��灰�l늾� �?一只黑�l늾�的关联关�p?br /> �?一��灰�l늾� 可以�?黑�ľ�?动作

刘凯�?/a> 2009-12-11 16:20 发表评论

文�g存储 - 数据�l�构( py )

Wed, 04 Nov 2009 07:16:00 GMT

虽然 mysql,oracle �?nbsp; Berkeley DB�Q�sqlite3 �{�数据库已经很好
但是当我初略学习�?数据挖掘斚w��的一些知识发玎ͼ�关系数据库远�q�不够来存储�Q�查�?etl 后的数据

比如�Q�我希望原始日志数据�q�行某一字段的排�?是不是很��?�?
有�h�?nbsp; - 数据导入数据�?load into table ... �Q?select order by 。之
�q�有�� - linux sort -n...

恩！很好�Q�下面我们对大小�?1TB 的数据开始进行这个简单的操作   -- �?c��)��?�Q�！
   关于挖掘 - TB �U�别的数量在我目前学习挖掘不到半�q�_��遇到过3-4�ơ之�?br />
解决办法:
对于�q�个问题 - 我现在希望能有个大的链表 - �Q�大到内存装不下�Q?/strong>�Q?br /> 链表中的struct �l�构�?:
   >> 排序属性文件归�?br />    >> 排序属性整条数据在文�g中的起始位置 - �l�束位置
   >> 在排序中的排�?�Q?链表�l�构,只记入比自己��的属性在此链表的位置 �Q?br />

比如 :
1. 文�g1内容 =>

说明:
完整数据描述 : 此数据在文�g中的起始位置�Q�当然是通过�E�序取得的，�q��ؓ了方便我标出�Q?/strong>
..c.  0 - 22
..a.  23 - 55
..b.  56- 76
..d.  77 - 130
..f.  131 - 220
..e.  221 - 243

2. 数据�l�构预开�I�间 100 byte
3. 文�g存储在描�q?: # 链表排序我就不介�l�了�Q�数据结构的最基本技能，修改数据�l�构中的比自己小的指�?
      我这��q��出结�?br /> { /tmp/文�g1, 0-22 , 300 }   #说明 c �Q?在链表位�|?0
{ /tmp/文�g1, 23-55 , 200 }       # a �Q?100
{ /tmp/文�g1, 56-76 , 0 }     # b : 200
{ /tmp/文�g1, 77-130 , 500 } # d : 300
{ /tmp/文�g1, 131-220 , } # f : 400
{ /tmp/文�g1, 221-243 , 400 } # e : 500

4. 倒叙输出由小到到
     假设预存最��?�?nbsp; 200 链表位置
     扑և� 使用 open /tmp/文�g1
       �q��?seek 文�g游标定位 23-55 取出 ..a...
   �Ҏ(gu��)�� 链表�?200 �?seek 56 76 取出 ..b...
   �{�等

当然上面
数据�l�构你可以��?双向链表�Q?btree , �U�黑 , 斐�L那契。。。（数据�l�构�l�于感觉有用了，不枉�Ҏ(gu��)��考的软证啊！�Q?br />

通过说明�Q�我�q?�l�大家提供个可能需要的技术细�?(py),不��之处 �Ƣ迎拍砖�Q�！

1. 二进制文�?�l�构�?写，修改

#指定修改 190 byte 处的内容
import os
from struct import *
fd = os.open( "pack1.txt", os.O_RDWR|os.O_CREAT )

ss = pack('ii11s', 3, 4, 'google')
os.lseek(fs, len(ss)*10, 0)
os.write(fs,ss)
os.fsync(fs)

#os.close( fs )

2. seek 指定位置�l�构化读�?br />

from struct import *
file_object = open('pack1.txt', 'rb')

def ts(si,ss=len(ss)):
    file_object.seek(si*ss)
    chunk = file_object.read(ss)
    a,b,c=unpack('ii11s', chunk )
    print a,b,c

ts(10)
#输出 3 4 google

1. 其他语言�?使用
struct �l�构定义 ,�?python �?使用 struct 包，�q�样序列出来的数据到文�g中其他语�a�也可以��?
参�? http://www.pythonid.com/bbs/archiver/?tid-285.html

pack1.py
from struct import *

# i �?int�Q?�Q?nbsp; 11s 为预�?11 位置 �?string
# 此数据类�?�?19 byte ss = pack('ii11s', 1, 2, 'hello world')

f = open("pack1.txt", "wb")
f.write(ss)
f.close()

上面的代码往C的结构中写入数据�Q�结构包括两个整型和一个字�W�串�?br /> pack1.c
#include
#include

struct AA
{
    int a;
    int b;
    char    c[64];
};

int main()
{
    struct AA   aa;
    FILE    *fp;
    int     size, readsize;

    memset(&aa, 0, sizeof(struct AA));

    fp = fopen("pack1.txt", "rb");
    if (NULL == fp) {
        printf("open file error!"n");
        return 0;
    }

    readsize = sizeof(struct AA);
    printf("readsize: %d"n", readsize);

    size = fread(&aa, 1, readsize, fp);
    printf("read: %d"n", size);
    printf("a=%d, b=%d, c=%s"n", aa.a, aa.b, aa.c);

    fclose(fp);

    return 0;
}

�l�果输出:
C:"Documents and Settings"lky"桌面"dataStructure>a
readsize: 72
read: 57
a=1, b=2, c=hello word

最后罗嗦下�Q?/strong>
能用数据�l�构了，很多东西都可以根据自己逻辑定制存储很方�?�?不再�?关系数据�?, key 数据�?�?mapreduce 的限�?

参�?
http://docs.python.org/library/struct.html#module-struct    #官方struct �?说明
http://blog.csdn.net/JGood/archive/2009/06/22/4290158.aspx # 使用 struct 的前辈留下的
http://www.tutorialspoint.com/python/os_lseek.htm #一个小demo
Python天天��味(17) - open��d��文�g

刘凯�?/a> 2009-11-04 15:16 发表评论

Tue, 03 Nov 2009 09:44:00 GMT
我们�q�就是有企业挖掘中最常用�?《流��q��户分析》来说明�Q?br />
数据挖掘?g��u)��?
1. 定义主题 �Q?strong>天啊�Q�我在干什么！�Q?此模块绝大多��C��观意识上完成�Q�有��量客观验证�Q?br /> 1.1 明确主题用户在各用户��中的分�?- ��失用户在各用户��中比例
    不同客户��的��失�E�度如：某渠道，某��Y件版�?��面布局�Q�功能等主观上去分析�?br />     ��量把媄响流失比较大的因素详�l�罗列出�?如：概率分布�Q�页面布局变化影响�{?br /> 1.2 明确主题用户特征 - ��失用户特征
     �Ҏ(gu��)��q��户媄响比较大的字�D�如�Q�金额，软�g版本�Q�缺��最需要的功能�Q?客服寚w��题的处理的时�?br />

2. 数据选择 �Q?strong>什么样的选民�Q�选出什么样的�ȝ��Q?br />    在此模块中有个比较难把握的地方： �l�度��高��能准确的定义数据，但也会越复杂�?�?br />    你大概不会希望花3天分析出2天前的流��q��户吧�Q�！ :)
   2.1 分区攉��
       在用��h��失分析中�Q�若采集旉��q�长�Q�可能在��失判断出来时客户已然流失；若采集时间过于紧密或者实旉��集则需要考虑�q�营商现有系�l�的支撑能力。因此对数据采集旉��间隔的设�|�显得尤为重要�?br />    2.2 减少数据噪音
   2.3 剔除部分冗余数据
       此间要注意的是在客户��失分析上，从数据仓库中采集数据的主要目的是调查客户信息的变化情��c��一些不必要的数据就去除掉吧

3. 分析数据 : 热��n�Q�很重要�Q?/strong>
   3.1 数据抽样
       多说了，在这信息爆炸的时代，别说你把上百TB的数据放到应用分析库中去�Q?br />    3.2 数据转换
       比如旉��斚w��Q�可以把上午转换�?1 �Q�中午�{换�ؓ 2 �{�等.便于分析
   3.3 �~�损数据处理
   3.4 ��h��生成
        建模��h��:��Z��个阶�D�准�?br />         ��试��h��Q?�Ҏ(gu��)��型进行修正和��?br />
4. 模型建立 : 找个合得来的�q�这一辈子吧！
�Ҏ(gu��)��据进行分析�ƈ利用各种数据挖掘技术和�Ҏ(gu��)��在多个可供选择的模型中扑և�最��x��?�q�个�q�程是一个��@环�P代的�q�程.
建立模型通常由数据分析专安��合业务专家来完成
4.1 常用的流失分析模型主要有决策�?/ 贝叶斯网�l?/ ��经�|�络�{?br />

5. 模型的评��C��?�Q?开花！

6. 应用模型 �Q?�l�于�Q�结出好果（�l�果�Q�！

$>��失分析中需要注意的问题

>>�q�度抽样
      国内�?sh��)信企业每月的客��h��q��一般在1%�?%左右�Q�如果直接采用某�U�模�?比如决策树、�h工神�l�网�l�等)可能会因为数据概率太��而导致模型的失效
      因此我们需要加大流失客户在��L��本中的比例，但是�q�种�q�度抽样必须谨慎��心�Q�要充分考虑它的负面效应

>> 模型的有效�?br />    预测出结果，但用户已�l�流�?�Q�主要要��x��采样旉��跨度问题

>> 模型的流失后分析
数据挖掘在客��h��q��理中的重要应用不仅仅应包括对客户��? ��q��提前预警�Q�还应包括客��h��失后的问题分析。按照不同的客户信息�U�度�Q�查找最�Ҏ(gu��)��失的客��L��Q�同业务部门人员配合�Q�辅以相兌��查，力求发现客户��失�? 症结所在。然而，�q�一部分往往�׃��q�度专注于挖掘模型本�w�的拟合度而忽略了��失��理的实际�h(hu��n)值所在�?/span>

谢谢同事 �?的指�?�q�他的原�?转出来供大家学习
0. 我觉得做bi和技术最大的一点差别就�?br />     bi是数据导向，需求的优先�U�要低于数据

1. 没数据的话，需求就没戏�?
2. 技术是需求导向，只要有需求，技术基本上都能做出�?br /> 3. 数据的加载、加工、清�z�，叫做etl�Q�其实和你现在做的事情很�?br /> 4. etl是挖掘里非常重要的一部分

参考：数据挖掘在电(sh��)信客��h��失分析中的应�?br /> http://www.teleinfocn.com/html/2007-02-12/3448.html

刘凯�?/a> 2009-11-03 17:44 发表评论

数据挖掘研究内容和本质（转）

Thu, 22 Oct 2009 10:05:00 GMT

数据挖掘研究内容和本�?/strong>

随着DMKD研究逐步走向深入�Q�数据挖掘和知识发现的研�I�已�l��Ş成了三根强大的技术支柱：数据库、�h工智能和数理�l�计。因此，KDD大会�E�序委员会曾�l�由�q�三个学�U�的权威人物同时来�Q��d��。目前DMKD的主要研�I�内容包括基��理论、发现算法、数据仓库、可视化技术、定性定量互换模型、知识表�C�方法、发现知识的�l�护和再利用、半�l�构化和非结构化数据中的知识发现以及�|�上数据挖掘�{��?

数据挖掘所发现的知识最常见的有以下四类�Q?

- �q�义知识�Q�Generalization�Q?/td>

�q�义知识指类别特征的概括性描�q�知识。根据数据的微观�Ҏ(gu��)��发现其表征的、带有普遍性的、较高层�ơ概�늚�、中观和宏观的知识，反映同类事物共同性质�Q�是�Ҏ(gu��)��据的概括、精炼和抽象�?br />
�q? 义知识的发现�Ҏ(gu��)��和实现技术有很多�Q�如数据立方体、面向属性的归约�{�。数据立方体�q�有其他一些别名，�?#8220;多维数据�?#8221;�?#8220;实现视图”�?#8220;OLAP"�{�。该 �Ҏ(gu��)��的基本思想是实现某些常用的代�h(hu��n)较高的聚集函数的计算�Q�诸如计数、求和、��^均、最大值等�Q��ƈ��这些实现视囑ւ�存在多维数据库中。既然很多聚集函数需�l? 帔R��复计��，那么在多�l�数据立方体中存��N��先计��好的结果将能保证快速响应，�q�可灉|��地提供不同角度和不同抽象层次上的数据视图。另一�U�广义知识发现方�? 是加拿大SimonFraser大学提出的面向属性的归约�Ҏ(gu��)��。这�U�方法以�c�SQL语言表示数据挖掘查询�Q�收集数据库中的相关数据集，然后在相��x��据集�? 应用一�p�d��数据推广技术进行数据推�q�，包括属性删除、概忉|��提升、属性阈值控制、计数及其他聚集函数传播�{��?/td>

- 兌��知识�Q�Association�Q?/td>

它反映一个事件和其他事�g之间依赖或关联的知识。如果两��Ҏ(gu��)��多项属性之间存在关联，那么其中一��的属性值就�? 以依据其他属性��D��行预��。最��名的兌��规则发现�Ҏ(gu��)��是R.Agrawal提出的Apriori��法。关联规则的发现可分��Z��步。第一步是�q�代识别所�? 的频�J�项目集�Q�要求频�J�项目集的支持率不低于用戯��定的最低��|��W�二步是从频�J�项目集中构造可信度不低于用戯��定的最低值的规则。识别或发现所有频�J�项�? 集是兌��规则发现��法的核心，也是计算量最大的部分�?/td>

- 分类知识(Classification�Q�Clustering)

它反映同�c�M��物共同性质的特征型知识和不同事物之间的差异型特征知识。最为典型的分类�Ҏ(gu��)��是基于决�{�树的分�c? �Ҏ(gu��)��。它是从实例集中构造决�{�树�Q�是一�U�有指导的学习方法。该�Ҏ(gu��)��先根据训�l�子集（又称为窗口）形成决策树。如果该树不能对所有对象给出正��的分类�Q�那�? 选择一些例外加入到�H�口中，重复该过�E�一直到形成正确的决�{�集。最�l�结果是一��|��Q�其叶结�Ҏ(gu��)��c�d��Q�中间结�Ҏ(gu��)��带有分枝的属性，该分枝对应该属性的某一�? 能倹{��最为典型的决策树学习系�l�是ID3�Q�它采用自顶向下不回溯策略，能保证找��C��个简单的树。算法C4.5和C5.0都是ID3的扩展，它们��分�c�领�? 从类别属性扩展到数值型属性�?

数据分类�q�有�l�计、粗�p�集�Q�RoughSet�Q�等�Ҏ(gu��)��。线性回归和�U�性��L别分析是典型的统计模型。�ؓ降低决策树生成代��P��Z��q�提��Z��一�U�区间分�c�d��。最�q�也有�h研究使用��经�|�络�Ҏ(gu��)��在数据库中进行分�c�d��规则提取�?/td>

- 预测型知识（Prediction�Q?/td>

它根据时间序列型数据�Q�由历史的和当前的数据去推测未来的数据，也可以认为是以时间�ؓ关键属性的兌��知识�?br />
�? 前，旉��序列预测�Ҏ(gu��)��有经典的�l�计�Ҏ(gu��)��、神�l�网�l�和机器学习�{��?968�q�Box和Jenkins提出了一套比较完善的旉��序列建模理论和分析方法，�q�些 �l�典的数学方法通过建立随机模型�Q�如自回归模型、自回归滑动�q�_��模型、求和自回归滑动�q�_��模型和季节调整模型等�Q�进行时间序列的预测。由于大量的旉��序列是非�q�稳的，其特征参数和数据分布随着旉��的推�U�而发生变化。因此，仅仅通过�Ҏ(gu��)��D�历史数据的训练�Q�徏立单一的神�l�网�l�预��模型，�q�无法完成准��的预测�? 务。�ؓ此，��Z��提出了基于统计学和基于精��性的再训�l�方法，当发现现存预��模型不再适用于当前数据时�Q�对模型重新训练�Q�获得新的权重参敎ͼ�建立新的模型�? 也有许多�pȝ��借助�q�行��法的计��优势进行时间序列预��?

- 偏差型知�?Deviation)

此外�Q�还可以发现其他�c�d��的知识，如偏差型知识(Deviation)�Q�它是对差异和极端特例的描述�Q�揭�C�Z�� 物偏��d��规的异常现象�Q�如标准�c�d��的特例，数据聚类外的��ȝ��值等。所有这些知识都可以在不同的概念层次上被发现�Q��ƈ随着概念层次的提升，从微观到中观、到宏观�Q�以满��不同用户不同层次决策的需要�?/td>

数据挖掘的功�?/strong>

数据挖掘通过预测未来��势及行为，做出前摄的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识，主要有以下五�c�d��能�?

- 自动预测��势和行�?/td>

数据挖掘自动在大型数据库中寻��N��性信息，以往需要进行大量手工分析的问题如今可以�q�速直接由数据本��n得出 �l�论。一个典型的例子是市场预��问题，数据挖掘使用�q�去有关促销的数据来��L��未来投资中回报最大的用户�Q�其它可预测的问题包括预报破产以及认定对指定事�g 最可能作出反应的群体�?

- 兌��分析

数据兌��是数据库中存在的一�c�重要的可被发现的知识。若两个或多个变量的取��g��间存在某�U�规律性，��q��为关联。关联可分�ؓ��单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的兌��|�。有时�ƈ不知道数据库中数据的兌��函数�Q�即使知道也是不��定的，因此兌��分析生成的规则带有可信度�?/td>

- 聚类

数据库中的记录可被化分�ؓ一�p�d��有意义的子集�Q�即聚类。聚�c�d��Z��Z��对客观现实的认识�Q�是概念描述和偏差分析的先决条�g。聚�c�L��术主要包括传�l�的模式识别�Ҏ(gu��)��和数学分�c�d��?0�q�代初，Mchalski提出了概念聚�c�L��术牞其要�Ҏ(gu��)��Q�在划分对象时不仅考虑对象之间的距��，�q�要求划分出的类��h��某种内涵描述�Q�从而避免了传统技术的某些片面性�?/td>

- 概念描述

概念描述��是�Ҏ(gu��)��c�d��象的内涵�q�行描述�Q��ƈ概括�q�类对象的有关特征。概忉|��q�分为特征性描�q�和区别性描�q�ͼ��? 者描�q�某�c�d��象的共同特征�Q�后者描�q�C��同类对象之间的区别。生成一个类的特征性描�q�只涉及该类对象中所有对象的共性。生成区别性描�q�的�Ҏ(gu��)��很多�Q�如决策�? �Ҏ(gu��)��、遗传算法等�?/td>

- 偏差��?/td>

数据库中的数据常有一些异常记录，从数据库中检��这些偏差很有意义。偏差包括很多潜在的知识�Q�如分类中的反常实例、不满��规则的特例、观��结果与模型预测值的偏差、量值随旉��的变化等。偏差检��的基本�Ҏ(gu��)��是，��L��观测�l�果与参照��g��间有意义的差别�?/td>

数据挖掘常用技�?/strong>

- 人工��经�|�络

仿照生理��经�|�络�l�构的非�U��Ş预测模型�Q�通过学习�q�行模式识别�?/td>

- 决策�?/td>

代表着决策集的树�Ş�l�构�?/td>

- 遗传��法

��Z��q�化理论�Q��ƈ采用遗传�l�合、遗传变异、以及自焉��择�{�设计方法的优化技术�?/td>

- �q�邻��法

��数据集合中每一个记录进行分�cȝ��Ҏ(gu��)��?/td>

- 规则推导

从统计意义上�Ҏ(gu��)��据中�?#8220;如果-那么”规则�q�行��L��和推对{�?

采用上述技术的某些专门的分析工具已�l�发展了大约十年的历�Ԍ��不过�q�些工具所面对的数据量通常较小。而现在这些技术已�l�被直接集成到许多大型的工业标准的数据仓库和联机分析�pȝ��中去了�?

摘自《数据挖掘讨论组�?/td>

刘凯�?/a> 2009-10-22 18:05 发表评论

hadoop streaming( hadoop + perl )��试

Fri, 25 Sep 2009 06:33:00 GMT
参�?
http://hadoop.apache.org/common/docs/r0.15.2/streaming.html

注意
目前 streaming �?linux pipe #也就�?cat |wc -l �q�样的管�?不支持，但不妨碍我们使用perl,python 行式命��o�Q�！
原话�?�Q?br /> Can I use UNIX pipes? For example, will -mapper "cut -f1 | sed s/foo/bar/g" work?
    Currently this does not work and gives an "java.io.IOException: Broken pipe" error.
    This is probably a bug that needs to be investigated.
但如果你是强烈的 linux shell pipe 发烧�?�Q?参考下�?br /> $> perl -e 'open( my $fh, "grep -v null tt |sed -n 1,5p |");while ( <$fh> ) {print;} '
     #不过我没��试通过 �Q�！

环境 �Q�hadoop-0.18.3
$> find . -type f -name "*streaming*.jar"
./contrib/streaming/hadoop-0.18.3-streaming.jar

��试数据�Q?br />
-bash-3.00$ head tt
null    false    3702    208100
6005100    false    70    13220
6005127    false    24    4640
6005160    false    25    4820
6005161    false    20    3620
6005164    false    14    1280
6005165    false    37    7080
6005168    false    104    20140
6005169    false    35    6680
6005240    false    169    32140
......

�q�行�Q?br />
c1=" perl -ne  'if(/.*\t(.*)/){\$sum+=\$1;}END{print \"\$sum\";}' "
# 注意 �q�里 $ 要写�?\$    " 写成 \"
echo $c1; # 打印输出 perl -ne 'if(/.*"t(.*)/){$sum+=$1;}END{print $sum;}'
hadoop jar hadoop-0.18.3-streaming.jar
   -input file:///data/hadoop/lky/jar/tt
   -mapper   "/bin/cat"
   -reducer "$c1"
   -output file:///tmp/lky/streamingx8

�l�果:
cat /tmp/lky/streamingx8/*
1166480

本地�q�行输出:
perl -ne 'if(/.*"t(.*)/){$sum+=$1;}END{print $sum;}' < tt
1166480

�l�果正确!!!!

命��o自带文档�Q?br />
-bash-3.00$ hadoop jar hadoop-0.18.3-streaming.jar -info
09/09/25 14:50:12 ERROR streaming.StreamJob: Missing required option -input
Usage: $HADOOP_HOME/bin/hadoop [--config dir] jar \
          $HADOOP_HOME/hadoop-streaming.jar [options]
Options:
  -input    <path>     DFS input file(s) for the Map step
  -output   <path>     DFS output directory for the Reduce step
  -mapper   <cmd|JavaClassName>      The streaming command to run
  -combiner <JavaClassName> Combiner has to be a Java class
  -reducer  <cmd|JavaClassName>      The streaming command to run
  -file     <file>     File/dir to be shipped in the Job jar file
  -dfs    <h:p>|local  Optional. Override DFS configuration
  -jt     <h:p>|local  Optional. Override JobTracker configuration
  -additionalconfspec specfile  Optional.
  -inputformat TextInputFormat(default)|SequenceFileAsTextInputFormat|JavaClassName Optional.
  -outputformat TextOutputFormat(default)|JavaClassName  Optional.
  -partitioner JavaClassName  Optional.
  -numReduceTasks <num>  Optional.
  -inputreader <spec>  Optional.
  -jobconf  <n>=<v>    Optional. Add or override a JobConf property
  -cmdenv   <n>=<v>    Optional. Pass env.var to streaming commands
  -mapdebug <path>  Optional. To run this script when a map task fails
  -reducedebug <path>  Optional. To run this script when a reduce task fails
  -cacheFile fileNameURI
  -cacheArchive fileNameURI
  -verbose

刘凯�?/a> 2009-09-25 14:33 发表评论

hadoop jython join ( 1 )

Tue, 08 Sep 2009 02:39:00 GMT

首先本文中的 hadoop join 在实际开发没有用处！
如果在开发中请��?cascading groupby, �q�行 hadoop join,
本文只是为探讨弄�?cascading 实现做准备�?br />
当然如果有有�?hadoop join �q?误��p�L��Q�大家交��下 �Q?br />
文�g可能需要的一些参考：
hadoop jython ( windows )
jython �Q�jython �~�译以及jar �?
��量 linux shell

本文介绍 hadoop 可能使用到的 join 接口��试 �Q�已�l�参考：
使用Hadoop实现Inner Join操作的方法【from淘宝�?/strong>�Q�http://labs.chinamobile.com/groups/58_547

下面 ��试�?�Q�我�q�大体上 �?hadoop join 的方式是�q�样理解�?�Q�猜惻I��Q?br /> 数据1 ; 数据2
job1.map( 数据1 ) =�Q��时文�?�Q?gt; 文�g标示1+需要join�?nbsp; 数据
job2.map( 数据2 ) =�Q��时文�?�Q?gt; 文�g标示2+需要join�?nbsp; 数据

临时文�g mapred.join.expr 生成
job3.map ->
文�g标示1+需要join�?: 数据
文�g标示2+需要join�?: 数据
......
job3.Combiner - >
需要join�?: 文�g标示1+数据
需要join�?: 文�g标示2+数据
job3.Reducer->
需要join�?: 使用 java-list > 生成
文�g2-列x [ 数据,数据... ]
文�g1-列x [ 数据,数据... ]
然后你这 left join ,�?inner join �?xxx join 逻辑 ��p��己来�?br />

�l�果集合
[root@localhost python]# cat /home/megajobs/del/jobs/tools/hadoop-0.18.3/data/090907/1
1
2
3
4
5
[root@localhost python]# cat /home/megajobs/del/jobs/tools/hadoop-0.18.3/data/090907/2
2
4
3
1

修改 ..../hadoop-0.18.3/src/examples/python/compile

#!/usr/bin/env bash

export HADOOP_HOME=/home/xx/del/jobs/tools/hadoop-0.18.3
export CASCADING_HOME=/home/xx/del/jobs/tools/cascading-1.0.16-hadoop-0.18.3
export JYTHON_HOME=/home/xx/del/jobs/tools/jython2.2.1

export CLASSPATH="$HADOOP_HOME/hadoop-0.18.3-core.jar"

# so that filenames w/ spaces are handled correctly in loops below
IFS=

# add libs to CLASSPATH

for f in $HADOOP_HOME/lib/*.jar; do
  CLASSPATH=${CLASSPATH}:$f;
done

for f in $HADOOP_HOME/lib/jetty-ext/*.jar; do
  CLASSPATH=${CLASSPATH}:$f;
done

for f in $CASCADING_HOME/*.jar; do
  CLASSPATH=${CLASSPATH}:$f;
done

for f in $CASCADING_HOME/lib/*.jar; do
  CLASSPATH=${CLASSPATH}:$f;
done

for f in $JYTHON_HOME/*.jar; do
  CLASSPATH=${CLASSPATH}:$f;
done

# restore ordinary behaviour
unset IFS

/home/xx/del/jobs/tools/jython2.2.1/jythonc -p org.apache.hadoop.examples -d -j $1.jar  -c $1.py
/home/xx/del/jobs/tools/hadoop-0.18.3/bin/hadoop jar $1.jar $2 $3 $4 $5 $6 $7 $8 $9

��?数据链接 :

from org.apache.hadoop.fs import Path
from org.apache.hadoop.io import *
from org.apache.hadoop.mapred.lib import *
from org.apache.hadoop.mapred.join  import *
from org.apache.hadoop.mapred import *
import sys
import getopt

class tMap(Mapper, MapReduceBase):
        def map(self, key, value, output, reporter):
                output.collect( Text( str(key) ) , Text( value.toString() ))

def main(args):
        conf = JobConf(tMap)
        conf.setJobName("wordcount")

        conf.setMapperClass( tMap )

        FileInputFormat.setInputPaths(conf,[ Path(sp) for sp in args[1:-1]])
        conf.setOutputKeyClass( Text )
        conf.setOutputValueClass( Text )
        conf.setOutputPath(Path(args[-1]))

        JobClient.runJob(conf)

if __name__ == "__main__":main(sys.argv)

�q�行
./compile test file:///home/xx/del/jobs/tools/hadoop-0.18.3/data/090907/1 file:///home/xx/del/jobs/tools/hadoop-0.18.3/data/090907/2   file:///home/xx/del/jobs/tools/hadoop-0.18.3/tmp/wc78
�l�果:
[xx@localhost wc78]$ cat ../wc78/part-00000
0   1
0   2
2   4
2   2
4   3
4   3
6   1
6   4
8   5

��单的数据 join :

from org.apache.hadoop.fs import Path
from org.apache.hadoop.io import *
from org.apache.hadoop.mapred.lib import *
from org.apache.hadoop.mapred.join  import *
from org.apache.hadoop.mapred import *
import sys
import getopt

class tMap(Mapper, MapReduceBase):
        def map(self, key, value, output, reporter):
                output.collect( Text( str(key) ) , Text( value.toString() ))

def main(args):
        conf = JobConf(tMap)
        conf.setJobName("wordcount")
        conf.setMapperClass( tMap )
        conf.set("mapred.join.expr", CompositeInputFormat.compose("override",TextInputFormat, args[1:-1] ) )
        conf.setOutputKeyClass( Text )
        conf.setOutputValueClass( Text )
        conf.setInputFormat(CompositeInputFormat)

        conf.setOutputPath(Path(args[-1]))

        JobClient.runJob(conf)

if __name__ == "__main__":main(sys.argv)


�q�行�l�果 ( ) :
./compile test file:///home/xx/del/jobs/tools/hadoop-0.18.3/data/090907/1 file:///home/xx/del/jobs/tools/hadoop-0.18.3/data/090907/2   file:///home/xx/del/jobs/tools/hadoop-0.18.3/tmp/wc79
[xx@localhost wc78]$ cat ../wc79/part-00000
0   2
2   4
4   3
6   1
8   5

刘凯�?/a> 2009-09-08 10:39 发表评论

hadoop jython ( windows )

Fri, 04 Sep 2009 09:14:00 GMT
参�?�Q?hadoop window 搭徏 �?�׃��?py 的语法喜��?�Q�一直想把hadoop,�Ҏ(gu��)��jython �?
�q�次 �?自己�?sh��)脑�?nbsp; �l�于完成,下面介绍�q�程:

��试环境�Q?br /> 依然�?windows + cygwin
hadoop 0.18 # C:/cygwin/home/lky/tools/java/hadoop-0.18.3
jython 2.2.1 # C:/jython2.2.1

参�? PythonWordCount

启动 hadoop �q�到 hdoop_home �?br />
# 在云环境中创�?input 目录
$>bin/hadoop dfs -mkdir input
# �?�?hadoop �?NOTICE.txt 拯��?input 目录�?/strong>
$>bin/hadoop dfs -copyFromLocal c:/cygwin/home/lky/tools/java/hadoop-0.18.3/NOTICE.txt hdfs:///user/lky/input

$>cd src/examples/python

# 创徏 �?脚本 ( jy->jar->hd run ) 一步完�?
# 当然 �?linux 写个脚本比这好看呵呵�Q?br /> $>vim run.bat

"C:\Program Files\Java\jdk1.6.0_11\bin\java.exe"  -classpath "C:\jython2.2.1\jython.jar;%CLASSPATH%" org.python.util.jython C:\jython2.2.1\Tools\jythonc\jythonc.py   -p org.apache.hadoop.examples -d -j wc.jar -c %1

sh C:\cygwin\home\lky\tools\java\hadoop-0.18.3\bin\hadoop jar wc.jar  %2 %3 %4 %5 %6 %7 %8 %9

# 修改 jythonc 打包环境 �?+hadoop jar
$>vim C:\jython2.2.1\Tools\jythonc\jythonc.py

# Copyright (c) Corporation for National Research Initiatives
# Driver script for jythonc2.  See module main.py for details
import sys,os,glob

for fn in glob.glob('c:/cygwin/home/lky/tools/java/hadoop-0.18.3/*.jar') :sys.path.append(fn)
for fn in glob.glob('c:/jython2.2.1/*.jar') :sys.path.append(fn)
for fn in glob.glob('c:/cygwin/home/lky/tools/java/hadoop-0.18.3/lib/*.jar') :sys.path.append(fn)

import main
main.main()

import os
os._exit(0)

# �q�行
C:/cygwin/home/lky/tools/java/hadoop-0.18.3/src/examples/python>
run.bat WordCount.py hdfs:///user/lky/input file:///c:/cygwin/home/lky/tools/java/hadoop-0.18.3/tmp2

�l�果输出�Q?/strong>
cat c:/cygwin/home/lky/tools/java/hadoop-0.18.3/tmp2/part-00000
(http://www.apache.org/).       1
Apache 1
Foundation      1
Software        1
The     1
This    1
by      1
developed       1
includes        1
product 1
software        1

下面重头来了 �Q�（��z�的 jy hdoop 代码�Q?/strong>

#
# Licensed to the Apache Software Foundation (ASF) under one
# or more contributor license agreements.  See the NOTICE file
# distributed with this work for additional information
# regarding copyright ownership.  The ASF licenses this file
# to you under the Apache License, Version 2.0 (the
# "License"); you may not use this file except in compliance
# with the License.  You may obtain a copy of the License at
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.
#

from org.apache.hadoop.fs import Path
from org.apache.hadoop.io import *
from org.apache.hadoop.mapred import *

import sys
import getopt

class WordCountMap(Mapper, MapReduceBase):
    one = IntWritable(1)
    def map(self, key, value, output, reporter):
        for w in value.toString().split():
            output.collect(Text(w), self.one)

class Summer(Reducer, MapReduceBase):
    def reduce(self, key, values, output, reporter):
        sum = 0
        while values.hasNext():
            sum += values.next().get()
        output.collect(key, IntWritable(sum))

def printUsage(code):
    print "wordcount [-m ] [-r ]  "
    sys.exit(code)

def main(args):
    conf = JobConf(WordCountMap);
    conf.setJobName("wordcount");

    conf.setOutputKeyClass(Text);
    conf.setOutputValueClass(IntWritable);

    conf.setMapperClass(WordCountMap);
    conf.setCombinerClass(Summer);
    conf.setReducerClass(Summer);
    try:
        flags, other_args = getopt.getopt(args[1:], "m:r:")
    except getopt.GetoptError:
        printUsage(1)
    if len(other_args) != 2:
        printUsage(1)

    for f,v in flags:
        if f == "-m":
            conf.setNumMapTasks(int(v))
        elif f == "-r":
            conf.setNumReduceTasks(int(v))
    conf.setInputPath(Path(other_args[0]))
    conf.setOutputPath(Path(other_args[1]))
    JobClient.runJob(conf);

if __name__ == "__main__":
    main(sys.argv)

刘凯�?/a> 2009-09-04 17:14 发表评论

	数据挖掘研究内容和本�?/strong>
	随着DMKD研究逐步走向深入�Q�数据挖掘和知识发现的研�I�已�l��Ş成了三根强大的技术支柱：数据库、�h工智能和数理�l�计。因此，KDD大会�E�序委员会曾�l�由�q�三个学�U�的权威人物同时来�Q��d��。目前DMKD的主要研�I�内容包括基��理论、发现算法、数据仓库、可视化技术、定性定量互换模型、知识表�C�方法、发现知识的�l�护和再利用、半�l�构化和非结构化数据中的知识发现以及�\|�上数据挖掘�{��? 数据挖掘所发现的知识最常见的有以下四类�Q?
-	�q�义知识�Q�Generalization�Q?/td>
	�q�义知识指类别特征的概括性描�q�知识。根据数据的微观�Ҏ(gu��)��发现其表征的、带有普遍性的、较高层�ơ概�늚�、中观和宏观的知识，反映同类事物共同性质�Q�是�Ҏ(gu��)��据的概括、精炼和抽象�?br /> �q? 义知识的发现�Ҏ(gu��)��和实现技术有很多�Q�如数据立方体、面向属性的归约�{�。数据立方体�q�有其他一些别名，�?#8220;多维数据�?#8221;�?#8220;实现视图”�?#8220;OLAP"�{�。该 �Ҏ(gu��)��的基本思想是实现某些常用的代�h(hu��n)较高的聚集函数的计算�Q�诸如计数、求和、��^均、最大值等�Q��ƈ��这些实现视囑ւ�存在多维数据库中。既然很多聚集函数需�l? 帔R��复计��，那么在多�l�数据立方体中存��N��先计��好的结果将能保证快速响应，�q�可灉\|��地提供不同角度和不同抽象层次上的数据视图。另一�U�广义知识发现方�? 是加拿大SimonFraser大学提出的面向属性的归约�Ҏ(gu��)��。这�U�方法以�c�SQL语言表示数据挖掘查询�Q�收集数据库中的相关数据集，然后在相��x��据集�? 应用一�p�d��数据推广技术进行数据推�q�，包括属性删除、概忉\|��提升、属性阈值控制、计数及其他聚集函数传播�{��?/td>

-	兌��知识�Q�Association�Q?/td>
	它反映一个事件和其他事�g之间依赖或关联的知识。如果两��Ҏ(gu��)��多项属性之间存在关联，那么其中一��的属性值就�? 以依据其他属性��D��行预��。最��名的兌��规则发现�Ҏ(gu��)��是R.Agrawal提出的Apriori��法。关联规则的发现可分��Z��步。第一步是�q�代识别所�? 的频�J�项目集�Q�要求频�J�项目集的支持率不低于用戯��定的最低��\|��W�二步是从频�J�项目集中构造可信度不低于用戯��定的最低值的规则。识别或发现所有频�J�项�? 集是兌��规则发现��法的核心，也是计算量最大的部分�?/td>

-	分类知识(Classification�Q�Clustering)
	它反映同�c�M��物共同性质的特征型知识和不同事物之间的差异型特征知识。最为典型的分类�Ҏ(gu��)��是基于决�{�树的分�c? �Ҏ(gu��)��。它是从实例集中构造决�{�树�Q�是一�U�有指导的学习方法。该�Ҏ(gu��)��先根据训�l�子集（又称为窗口）形成决策树。如果该树不能对所有对象给出正��的分类�Q�那�? 选择一些例外加入到�H�口中，重复该过�E�一直到形成正确的决�{�集。最�l�结果是一��\|��Q�其叶结�Ҏ(gu��)��c�d��Q�中间结�Ҏ(gu��)��带有分枝的属性，该分枝对应该属性的某一�? 能倹{��最为典型的决策树学习系�l�是ID3�Q�它采用自顶向下不回溯策略，能保证找��C��个简单的树。算法C4.5和C5.0都是ID3的扩展，它们��分�c�领�? 从类别属性扩展到数值型属性�? 数据分类�q�有�l�计、粗�p�集�Q�RoughSet�Q�等�Ҏ(gu��)��。线性回归和�U�性��L别分析是典型的统计模型。�ؓ降低决策树生成代��P��Z��q�提��Z��一�U�区间分�c�d��。最�q�也有�h研究使用��经�\|�络�Ҏ(gu��)��在数据库中进行分�c�d��规则提取�?/td>

-	预测型知识（Prediction�Q?/td>
	它根据时间序列型数据�Q�由历史的和当前的数据去推测未来的数据，也可以认为是以时间�ؓ关键属性的兌��知识�?br /> �? 前，旉��序列预测�Ҏ(gu��)��有经典的�l�计�Ҏ(gu��)��、神�l�网�l�和机器学习�{��?968�q�Box和Jenkins提出了一套比较完善的旉��序列建模理论和分析方法，�q�些 �l�典的数学方法通过建立随机模型�Q�如自回归模型、自回归滑动�q�_��模型、求和自回归滑动�q�_��模型和季节调整模型等�Q�进行时间序列的预测。由于大量的旉��序列是非�q�稳的，其特征参数和数据分布随着旉��的推�U�而发生变化。因此，仅仅通过�Ҏ(gu��)��D�历史数据的训练�Q�徏立单一的神�l�网�l�预��模型，�q�无法完成准��的预测�? 务。�ؓ此，��Z��提出了基于统计学和基于精��性的再训�l�方法，当发现现存预��模型不再适用于当前数据时�Q�对模型重新训练�Q�获得新的权重参敎ͼ�建立新的模型�? 也有许多�pȝ��借助�q�行��法的计��优势进行时间序列预��?

-	偏差型知�?Deviation)
	此外�Q�还可以发现其他�c�d��的知识，如偏差型知识(Deviation)�Q�它是对差异和极端特例的描述�Q�揭�C�Z�� 物偏��d��规的异常现象�Q�如标准�c�d��的特例，数据聚类外的��ȝ��值等。所有这些知识都可以在不同的概念层次上被发现�Q��ƈ随着概念层次的提升，从微观到中观、到宏观�Q�以满��不同用户不同层次决策的需要�?/td>

	数据挖掘的功�?/strong>
	数据挖掘通过预测未来��势及行为，做出前摄的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识，主要有以下五�c�d��能�?

-	自动预测��势和行�?/td>
	数据挖掘自动在大型数据库中寻��N��性信息，以往需要进行大量手工分析的问题如今可以�q�速直接由数据本��n得出 �l�论。一个典型的例子是市场预��问题，数据挖掘使用�q�去有关促销的数据来��L��未来投资中回报最大的用户�Q�其它可预测的问题包括预报破产以及认定对指定事�g 最可能作出反应的群体�?

-	兌��分析
	数据兌��是数据库中存在的一�c�重要的可被发现的知识。若两个或多个变量的取��g��间存在某�U�规律性，��q��为关联。关联可分�ؓ��单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的兌��\|�。有时�ƈ不知道数据库中数据的兌��函数�Q�即使知道也是不��定的，因此兌��分析生成的规则带有可信度�?/td>

-	聚类
	数据库中的记录可被化分�ؓ一�p�d��有意义的子集�Q�即聚类。聚�c�d��Z��Z��对客观现实的认识�Q�是概念描述和偏差分析的先决条�g。聚�c�L��术主要包括传�l�的模式识别�Ҏ(gu��)��和数学分�c�d��?0�q�代初，Mchalski提出了概念聚�c�L��术牞其要�Ҏ(gu��)��Q�在划分对象时不仅考虑对象之间的距��，�q�要求划分出的类��h��某种内涵描述�Q�从而避免了传统技术的某些片面性�?/td>

-	概念描述
	概念描述��是�Ҏ(gu��)��c�d��象的内涵�q�行描述�Q��ƈ概括�q�类对象的有关特征。概忉\|��q�分为特征性描�q�和区别性描�q�ͼ��? 者描�q�某�c�d��象的共同特征�Q�后者描�q�C��同类对象之间的区别。生成一个类的特征性描�q�只涉及该类对象中所有对象的共性。生成区别性描�q�的�Ҏ(gu��)��很多�Q�如决策�? �Ҏ(gu��)��、遗传算法等�?/td>

-	偏差��?/td>
	数据库中的数据常有一些异常记录，从数据库中检��这些偏差很有意义。偏差包括很多潜在的知识�Q�如分类中的反常实例、不满��规则的特例、观��结果与模型预测值的偏差、量值随旉��的变化等。偏差检��的基本�Ҏ(gu��)��是，��L��观测�l�果与参照��g��间有意义的差别�?/td>

	数据挖掘常用技�?/strong>
-	人工��经�\|�络
	仿照生理��经�\|�络�l�构的非�U��Ş预测模型�Q�通过学习�q�行模式识别�?/td>

-	决策�?/td>
	代表着决策集的树�Ş�l�构�?/td>

-	遗传��法
	��Z��q�化理论�Q��ƈ采用遗传�l�合、遗传变异、以及自焉��择�{�设计方法的优化技术�?/td>

-	�q�邻��法
	��数据集合中每一个记录进行分�cȝ��Ҏ(gu��)��?/td>

-	规则推导
	从统计意义上�Ҏ(gu��)��据中�?#8220;如果-那么”规则�q�行��L��和推对{�? 采用上述技术的某些专门的分析工具已�l�发展了大约十年的历�Ԍ��不过�q�些工具所面对的数据量通常较小。而现在这些技术已�l�被直接集成到许多大型的工业标准的数据仓库和联机分析�pȝ��中去了�?
	摘自《数据挖掘讨论组�?/td>

国语产色综合,亚洲精华一区二区三区,成人福利视频网

�?业务讨论�?推荐

文�g存储 - 数据�l�构( py )

数据挖掘研究内容和本质（转）

hadoop streaming( hadoop + perl )���试

hadoop jython join ( 1 )

hadoop jython ( windows )

hadoop streaming( hadoop + perl )��试