亚洲精品视频一区二区三区,亚洲精品美女久久久,尤物精品在线

数据挖掘

semovy — Thu, 11 Oct 2007 14:44:00 GMT

什么是数据挖掘

数据挖掘(Data Mining)�Q�又�U�Cؓ(f��)数据库中的知识发�?Knowledge Discovery in Database, KDD)�Q�就是从大量数据中获取有效的、新颖的、潜在有用的、最�l�可理解的模式的非��^凡过�E�，��单的��_(d��)��数据挖掘��是从大量数据中提取�?#8220;挖掘”知识�?

�q��所有的信息发现��d��都被视�ؓ(f��)数据挖掘。例如，使用数据库管理系�l�查找个别的记录�Q�或通过因特�|�的搜烦引擎查找特定的Web��面�Q�则是信息检索（information retrieval�Q�领域的��d��。虽然这些�Q务是重要的，可能涉及(qi��ng)使用复杂的算法和数据�l�构�Q�但是它们主要依赖传�l�的计算机科学技术和数据的明昄��征来创徏索引�l�构�Q�从而有效地�l�织和检索信息。尽��如此，数据挖掘技术也已用来增��Z��息检索系�l�的能力�?br />
数据挖掘的�v�?/strong>

��接前一节中的这些挑战，来自不同学科的研�I�者汇集到一��P��开始着手开发可以处理不同数据类型的更有效的、可伸羃的工兗��这些工作徏立在研究者先前��用的�Ҏ(gu��)��学和��法之上�Q�在数据挖掘领域辑ֈ�高潮。特别地�Q�数据挖掘利用了来自如下一些领域的思想�Q?1) 来自�l�计学的抽样、估计和假设��验，(2) 人工��、模式识别和机器学习(f��n)的搜索算法、徏模技术和学习(f��n)理论。数据挖掘也�q�速地接纳了来自其他领域的思想�Q�这些领域包括最优化、进化计��、信息论、信号处理、可视化和信息检索�?br />
一些其他领域也起到重要的支撑作用。特别地�Q�需要数据库�pȝ��提供有效的存储、烦引和查询处理支持。源于高性能�Q��ƈ行）计算的技术在处理��量数据集方面常常是重要的。分布式技术也能帮助处理�v量数据，�q�且当数据不能集中到一起处理时更是臛_��重要�?br />
数据挖掘能做什�?/strong>

1)数据挖掘能做以下六种不同事情�Q�分析方法）�Q?

· 分类 �Q�Classification�Q?
· 估��|��Estimation�Q?br /> · 预言�Q�Prediction�Q?
· 相关性分�l�或兌��规则�Q�Affinity grouping or association rules�Q?
· 聚集�Q�Clustering�Q?
· 描述和可视化�Q�Des cription and Visualization�Q?
· 复杂数据�c�d��挖掘(Text, Web ,囑�Ş囑փ��Q�视频，音频�{?

2)数据挖掘分类

以上六种数据挖掘的分析方法可以分��Z��c�：(x��)直接数据挖掘�Q�间接数据挖�?

· 直接数据挖掘
目标是利用可用的数据建立一个模型，�q�个模型对剩余的数据�Q�对一个特定的变量�Q�可以理解成数据库中表的属性，卛_��Q�进行描�q��?

· 间接数据挖掘
目标中没有选出某一具体的变量，用模型进行描�q�ͼ�而是在所有的变量中徏立�v某种关系 �?br />
· 分类、估倹{��预�a�属于直接数据挖掘�Q�后三种属于间接数据挖掘

3)各种分析�Ҏ(gu��)��的简�?

· 分类 �Q�Classification�Q?

首先从数据中选出已经分好�cȝ��训练集，在该训练集上�q�用数据挖掘分类的技术，建立分类模型�Q�对于没有分�cȝ��数据�q�行分类�?br /> 例子�Q?br /> a. 信用卡申误��，分类��Z��、中、高风险
b. 分配客户到预先定义的客户分片
注意�Q?�cȝ��个数是确定的�Q�预先定义好�?

· 估��|��Estimation�Q?

估��g��分类�c�M��Q�不同之处在于，分类描述的是��L��型变量的输出�Q�而估值处理连�l�值的输出�Q�分�cȝ��c�d��是确定数目的�Q�估值的量是不确定的�?br /> 例子�Q?
a. �Ҏ(gu��)��购买模式�Q�估计一个家庭的孩子个数
b. �Ҏ(gu��)��购买模式�Q�估计一个家庭的收入
c. 估计real estate的�h(hu��n)�?
一般来��_(d��)��估值可以作为分�cȝ��前一步工作。给定一些输入数据，通过估��|��得到未知的连�l�变量的��|��然后�Q�根据预先设定的阈��|��q�行分类。例如：(x��)银行对家庭贷�ƾ业务，�q�用估��|��l�各个客戯��分（Score 0~1�Q�。然后，�Ҏ(gu��)��阈��|��贷�Ƅ��别分�c�R�?

· 预言�Q�Prediction�Q?

通常�Q�预�a�是通过分类或估��D�v作用的，也就是说�Q�通过分类或估值得出模型，该模型用于对未知变量的预�a�。从�q�种意义上说�Q�预�a�其实没有必要分�ؓ(f��)一个单独的�c�R��预�a�其目的是�Ҏ(gu��)��来未知变量的预测�Q�这�U�预��是需要时间来验证的，卛_��ȝ��q�一定时间后�Q�才知道预言准确性是多少�?br />
· 相关性分�l�或兌��规则�Q�Affinity grouping or association rules�Q?

军_��哪些事情��一起发生�?
例子�Q?br /> a. ��市中客户在购买A的同�Ӟ��l�常�?x��)购买B�Q�即A => B(兌��规则)
b. 客户在购买A后，隔一�D�|��_(d��)��?x��)购买B �Q�序列分析）

· 聚集�Q�Clustering�Q?

聚集是对记录分组�Q�把�怼�的记录在一个聚集里。聚集和分类的区别是聚集不依赖于预先定义好的�c�，不需要训�l�集�?
例子�Q?br /> a. 一些特定症状的聚集可能预示了一个特定的疄��
b. �U�VCD�c�d��不相似的客户聚集�Q�可能暗�C�成员属于不同的亚文化群
聚集通常作�ؓ(f��)数据挖掘的第一步。例如，"哪一�U�类的促销对客户响应最好？"�Q�对于这一 �c�问题，首先�Ҏ(gu��)��个客户做聚集�Q�将客户分组在各自的聚集里，然后�Ҏ(gu��)��个不同的聚集�Q�回�{�问题，可能效果更好�?

· 描述和可视化�Q�Des cription and Visualization�Q?br /> 是对数据挖掘�l�果的表�C�方式�?

数据挖掘的商业背�?/strong>

数据挖掘首先是需要商业环境中攉��了大量的数据�Q�然后要求挖掘的知识是有价值的。有价值对商业而言�Q�不外乎三种情况�Q�降低开销�Q�提高收入；增加股票��h��?br />
数据挖掘技术实�?/strong>

在技术上可以�Ҏ(gu��)��它的工作�q�程分�ؓ(f��)�Q�数据的抽取、数据的存储和管理、数据的展现�{�关键技术�?

　　·数据的抽�?

　　数据的抽取是数据�q�入仓库的入口。由于数据仓库是一个独立的数据环境�Q�它需要通过抽取�q�程��数据从联机事务处理�pȝ��、外部数据源、脱机的数据存储介质中导入数据仓库。数据抽取在技术上主要涉及(qi��ng)互连、复制、增量、�{换、调度和监控�{�几个方面的处理。在数据抽取斚w��Q�未来的技术发展将集中在系�l�功能集成化斚w��Q�以适应数据仓库本��n或数据源的变化，使系�l�更便于��理和维护�?

　　·数据的存储和��理

　　数据仓库的组�l�管理方式决定了它有别于传统数据库的�Ҏ(gu��)��，也决定了其对外部数据的表现�Ş式。数据仓库管理所涉及(qi��ng)的数据量比传�l�事务处理大得多�Q�且随时间的推移而快速篏�U�。在数据仓库的数据存储和��理中需要解决的是如何管理大量的数据、如何�ƈ行处理大量的数据、如何优化查询等。目前，许多数据库厂家提供的技术解��x��案是扩展关系型数据库的功能，��普通关�p�L��据库攚w��成适合担当数据仓库的服务器�?

　　·数据的展�?

　　在数据展现方面主要的方式有：(x��)

　　查询�Q�实现预定义查询、动态查询、OLAP查询与决�{�支持智能查询；报表�Q��生关�p�L��据表根{��复杂表根{��OLAP表格、报告以�?qi��ng)各�U�综合报表；可视化：(x��)用易于理解的点线图、直方图、饼图、网状图、交互式可视化、动态模拟、计��机动画技术表现复杂数据及(qi��ng)其相互关�p�；�l�计�Q�进行��^均倹{��最大倹{��最��倹{��期望、方差、汇怅R��排序等各种�l�计分析�Q�挖掘：(x��)利用数据挖掘�{�方法，从数据中得到关于数据关系和模式的知识�?

　　
数据挖掘与数据仓库融合发�?/strong>

　　数据挖掘和数据仓库的协同工作�Q�一斚w��Q�可以迎合和��化数据挖掘过�E�中的重要步骤，提高数据挖掘的效率和能力�Q�确保数据挖掘中数据来源的广泛性和完整性。另一斚w��Q�数据挖掘技术已�l�成为数据仓库应用中极�ؓ(f��)重要和相对独立的斚w��和工兗��?

　　数据挖掘和数据仓库是融合与互动发展的�Q�其学术研究价值和应用研究前景��是令�h振奋的。它是数据挖掘专家、数据仓库技术�h员和行业专家共同努力的成果，更是�q�大渴望从数据库“奴隶”到数据库“��M�h”转变的企业最�l�用��L(f��ng)��通途�?br />

semovy 2007-10-11 22:44 发表评论

collate chinese_prc_ci_as

semovy — Sat, 04 Aug 2007 00:59:00 GMT

我们�?/font>create table时经�怼�(x��)��到�q�样的语句，例如�Q?/font>CityName nvarchar(10)collate chinese_prc_ci_as null�Q�那它到底是什么意思呢�Q�不妨看看下面：(x��)

首先�Q?/font>collate是一个子句，可应用于数据库定义或列定义以定义排序规则�Q�或应用于字�W�串表达式以应用排序规则投媄�?/span>

语法�?/font>collate collation_name

collation_name �Q�：(x��)={windows_collation_name}|{sql_collation_name}

参数collate_name是应用于表达式、列定义或数据库定义的排序规则的名称�?/font>collation_name 可以只是指定�?/font> Windows_collation_name �?/font> SQL_collation_name�?/span>

Windows_collation_name �?/font> Windows 排序规则的排序规则名�U�。参�?/font> Windows 排序规则名称�?/font>
SQL_collation_name �?/font> SQL 排序规则的排序规则名�U�。参�?/font> SQL 排序规则名称�?/font>

下面��单介�l�一�?/font>排序规则�Q?/span>

什么叫排序规则呢？MS是这��h��q�的�Q?/font>"�?/font> Microsoft SQL Server 2000 中，
字符串的物理存储由排序规则控制。排序规则指定表�C�每个字�W�的位模式以�?qi��ng)�?/font>
储和比较字符所使用的规则�?/font>"
　　在查询分析器内执行下面语句，可以得到SQL　SERVER支持的所有排序规则�?/span>

　　　　select * from ::fn_helpcollations()

排序规则名称�׃��部䆾构成�Q�前半部份是指本排序规则所支持的字�W�集�?/font>
如：(x��)
　　Chinese_PRC_CS_AI_WS
前半部䆾�Q�指UNICODE字符集，Chinese_PRC_指针对大陆简体字UNICODE的排序规则�?/font>
排序规则的后半部份即后缀含义�Q?/font>
　　_BIN 二进制排�?/font>
　　_CI(CS) 是否区分大小写，CI不区分，CS区分
　　_AI(AS) 是否区分重音�Q?/font>AI不区分，AS区分　　　
　　_KI(KS) 是否区分假名�c�d��,KI不区分，KS区分　
    _WI(WS) 是否区分宽度 WI不区分，WS区分　

区分大小�?/font>:如果惌��比较?y��u)��大写字母和��写字母视��?f��)不等�Q�请选择该选项�?/font>
区分重音:如果惌��比较?y��u)��重韛_��非重韛_��母视��Z��{�，请选择该选项。如果选择该选项�Q?/font>
         比较�q�将重音不同的字母视��Z��{��?/font>
区分假名:如果惌��比较?y��u)��片假名和��^假名日语韌��视�ؓ(f��)不等�Q�请选择该选项�?/font>
区分宽度:如果惌��比较?y��u)��半角字�W�和全角字符视�ؓ(f��)不等�Q�请选择该选项

semovy 2007-08-04 08:59 发表评论

MS SQLServer �?Oracle分页的sql语句

semovy — Mon, 23 Jul 2007 00:47:00 GMT
select * from
(
select top(pagesize) * from
(
select top (pagesize * pageindex) *
from articles
order by id desc
)
order by id asc
)
order by id desc

oracle:

select * from (
select rownum num,t1.*
from table t1 where fast=0
) where num>=intposition and num<=intendposition

semovy 2007-07-23 08:47 发表评论

inner join , left join /left outer join,right join/right outer join

semovy — Fri, 06 Jul 2007 00:42:00 GMT
�l�个通俗的解释吧.
例表a
aid adate
1 a1
2 a2
3 a3
表b
bid bdate
1 b1
2 b2
4 b4
两个表a,b相连�?要取出id相同的字�D?
select * from a inner join b on a.aid = b.bid�q�是仅取出匹配的数据.
此时的取出的�?
1 a1 b1
2 a2 b2
那么left join �?
select * from a left join b on a.aid = b.bid
首先取出a表中所有数�?然后再加上与a,b匚w��的的数据
此时的取出的�?
1 a1 b1
2 a2 b2
3 a3 �I�字�W?
同样的也有right join
指的是首先取出b表中所有数�?然后再加上与a,b匚w��的的数据
此时的取出的�?
1 a1 b1
2 a2 b2
4 �I�字�W?b4

semovy 2007-07-06 08:42 发表评论

Access日期比较

semovy — Wed, 09 May 2007 03:51:00 GMT
datediff('d','" + StartDateTimePicker->Date.DateString() + "',format(CHECKTIME,'YYYY-MM-DD'))>=0

datediff('d','2007-2-9',format(datetime,'YYYY-MM-DD'))>0
�?2007-2-9'与datetime字段的日期部分相�?后者大于前�?

semovy 2007-05-09 11:51 发表评论

sql语句基础

semovy — Wed, 14 Mar 2007 01:58:00 GMT

数据定义语言�Q�DDL�Q�：(x��)

           1�Q?strong>创徏数据库（create�Q�：(x��)create database database-name;

           eg. create database test;

          2�Q?strong>删除数据库：(x��)drop database dbname;

          eg.drop database test;

         3�Q?strong>创徏新表�Q?/strong>create table tabname(col1 type1 [not null] [primary key],col2 type2 [not null],..);

         eg.�Ҏ(gu��)��已有的表创徏新表的例子：(x��)create table tab_new like tab_old�Q�create table tab_new as select col1,col2�?from tab_old definition only;

       4�Q?strong>删除表：(x��)drop table tabname;

      5�Q?strong>增加列：(x��)alter table tabname add column col type;

      6�Q?strong>��d��主键�Q?alter table tabname add primary key(col) ;

      7�Q?strong>删除主键�Q�alter table tabname drop primary key(col) ;

      8�Q?strong>创徏索引�Q�create [unique] index idxname on tabname(col�?) ;

      9�Q?strong>删除索引�Q�drop index idxname; 注：(x��)索引是不可更改的�Q�想更改必须删除重新建；

     10�Q?strong>创徏视图�Q�create view viewname as select statement;

2. 数据操纵语言�Q�DML�Q?/strong>

    1�Q�查询语句（select�Q?/strong>

   eg1. select * from table1 where field1 like '%value1%';

   eg2. select * from table1 order by field1,field2 [desc];

   eg3. select count as totalcount from table1;

eg4. select sum(field1) as sumvalue from table1;

eg5. select avg(field1) as avgvalue from table1;

eg6. select max(field1) as maxvalue from table1;

eg7. select min(field1) as minvalue from table1;

eg8. select a.a, a.b, a.c, b.c, b.d, b.f from a LEFT OUT JOIN b ON a.a = b.c;�Q�注�Q�此为左外连接，�l�果集中包括�q�接表的匚w��行，也包括左�q�接表的所有行�Q?/p>
   2�Q�插入语句（insert�Q?/strong>

insert into table1(field1,field2) values(value1,value2);

3�Q�删除语句（delete�Q?/strong>

   delete from table1 where 范围;

4�Q�更新语句（update�Q?/strong>

   update table1 set field1=value1 where 范围;

3. 数据控制语言�Q�DCL�Q?/strong>

   1�Q�授予权限语句（GRANT�Q?/strong>

   GRANT privileges (columns) ON what TO user IDENTIFIED BY "password" WITH GRANT OPTION;

   其中�Q�privileges可�ؓ(f��)如下限定�W�：(x��)ALTER 修改表和索引、CREATE �Q�创建数据库和表�Q�、DELETE�Q?删除表中已有的记录）、DROP �Q�删除数据库和表�Q�、INDEX �Q�创建或删除索引�Q�、INSERT�Q?向表中插入新行）、REFERENCE�Q?未用�Q�、SELECT �Q�检索表中的记录�Q�、UPDATE �Q�修改现存表记录�Q�、FILE �Q�读或写服务器上的文�Ӟ��、PROCESS�Q?查看服务器中执行的线�E�信息或杀�ȝ��E�）、RELOAD �Q�重载授权表或清�I�日志、主机缓存或表缓存）、SHUTDOWN�Q?关闭服务器）、ALL 所有；ALL PRIVILEGES同义词、USAGE �Q�特�D�的“无权限”权限）

columns�Q�权限运用的列，它是可选的�Q��ƈ且你只能讄��列特定的权限。如果命令有多于一个列�Q�应该用逗号分开它们�Q?/p>
what�Q�权限运用的�U�别。权限可以是全局的（适用于所有数据库和所有表�Q�、特定数据库�Q�适用于一个数据库中的所有表�Q�或特定表的。可以通过指定一个columns字句是权限是列特定的�?/p>
   user �Q�权限授予的用户�Q�它�׃��个用户名和主机名�l�成。MySQL中的一个用户名��?�(zh��n)�懔臃衿��敝付ǖ挠没�?该名字不必与你的Unix��d��名或Windows名联�p��v来。缺省地�Q�如果你不明��指定一个名字，客户�E�序��?br />你的��d��名作为MySQL用户名。这只是一个约定。你可以在授权表中将该名字改为nobody�Q�然后以nobody�q�接
执行需要超�U�用��h��限的操作�?/p>
   password�Q�赋予用��L(f��ng)��口��o(h��)�Q�它是可选的。如果你�Ҏ(gu��)��用户没有指定IDENTIFIED BY子句�Q�该用户不赋�l�口令（不安全）。对现有用户�Q��Q何你指定的口令将代替老口令。如果你不指定口令，老口令保持不变，当你用IDENTIFIED BY
�Ӟ��口��o(h��)字符串用改用口��o(h��)的字面含义，GRANT��ؓ(f��)你编码口令，不要象你用SET PASSWORD 那样使用password()
函数�?/p>
    WITH GRANT OPTION子句是可选的。如果你包含它，用户可以授予权限通过GRANT语句授权�l�其它用戗��你可以用该子句�l�与其它用户授权的能力�?/p>
   用户名、口令、数据库和表名在授权表记录中是大��写敏感的，��L��名和列名不是�?br />   eg1. 创徏一个超�U�用户test1

     grant all privilleges on *.* to test1@localhost identified by '123456' with grant option;
   eg2. 创徏一个只能查询的用户 test2
mysql> grant select on *.* to test2@localhost identified by '9876543';

     2) 撤权�q�删除用��P��revoke�Q?/strong>
     要取消一个用��L(f��ng)��权限�Q��用REVOKE语句。REVOKE的语法非常类��g��GRANT语句�Q�除了TO用FROM取代�q�且没有INDETIFED BY和W(xu��)ITH GRANT OPTION子句�Q?br />
     revoke privileges (columns) ON what FROM user

     user部分必须匚w��原来GRANT语句的你��x��权的用户的user部分。privileges部分不需匚w��Q�你可以用GRANT
语句授权�Q�然后用REVOKE语句只撤销部分权限。REVOKE语句只删除权限，而不删除用户。即使你撤销了所�?br />权限�Q�在user表中的用戯��录依然保留，�q�意味着用户仍然可以�q�接服务器。要完全删除一个用��P��你必��?br />用一条DELETE语句明确从user表中删除用户记录�Q?br />
    #mysql -u root mysql
    DELETE FROM user WHERE User="user_name" and Host="host_name";

    FLUSH PRIVILEGES;　
   DELETE语句删除用户记录�Q�而FLUSH语句告诉服务器重载授权表。（当你使用GRANT和REVOKE语句�Ӟ��表自动重载，而你直接修改授权表时不是。）

     eg. 删除用户test1
    revoke all on *.* from test2@localhost;

     use mysql;
     delete from user where user='test' and host='localhost';
     flush privileges;

     3�Q�提交语句（commit�Q?/strong>

     4�Q�回滚语句（rollback�Q?/strong>

semovy 2007-03-14 09:58 发表评论

数据库连接池概述

semovy — Wed, 07 Mar 2007 06:55:00 GMT
数据库连接池概述�Q?
数据库连接是一�U�关键的有限的昂�늚�资源�Q�这一点在多用��L(f��ng)��|�页应用�E�序中体现得��ؓ(f��)�H�出。对数据库连接的��理能显著媄响到整个应用�E�序的�׾~�性和健壮性，影响到程序的性能指标。数据库�q�接池正是针对这个问题提出来的�?
数据库连接池负责分配、管理和释放数据库连接，它允许应用程序重复��用一个现有的数据库连接，而再不是重新建立一个；释放�I�闲旉��过最大空闲时间的数据库连接来避免因�ؓ(f��)没有释放数据库连接而引��L(f��ng)��数据库连接遗漏。这��Ҏ(gu��)��术能明显提高�Ҏ(gu��)��据库操作的性能�?
数据库连接池在初始化时将创徏一定数量的数据库连接放到连接池中，�q�些数据库连接的数量是由最��数据库�q�接数来讑֮�的。无��些数据库�q�接是否被��用，�q�接池都��一直保证至��拥有这么多的连接数量。连接池的最大数据库�q�接数量限定了这个连接池能占有的最大连接数�Q�当应用�E�序向连接池��h��的连接数��过最大连接数量时�Q�这些请求将被加入到�{�待队列中。数据库�q�接池的最��连接数和最大连接数的设�|�要考虑��C��列几个因素：(x��)
1) 最��连接数是连接池一直保持的数据库连接，所以如果应用程序对数据库连接的使用量不大，��会(x��)有大量的数据库连接资源被��费�Q?
2) 最大连接数是连接池能申��L(f��ng)��最大连接数�Q�如果数据库�q�接��h��过此数�Q�后面的数据库连接请求将被加入到�{�待队列中，�q�会(x��)影响之后的数据库操作�?
3) 如果最��连接数与最大连接数相差太大�Q�那么最先的�q�接��h��会(x��)获利�Q�之后超�q�最��连接数量的�q�接��h��{��h(hu��n)于徏立一个新的数据库�q�接。不�q�，�q�些大于最��连接数的数据库�q�接在��用完不会(x��)马上被释放，它将被放到连接池中等待重复��用或是空闲超时后被释放�?img src ="http://www.aygfsteel.com/WshmAndLily/aggbug/102408.html" width = "1" height = "1" />

semovy 2007-03-07 14:55 发表评论