??xml version="1.0" encoding="utf-8" standalone="yes"?>
Internet/Web技术的快速普及和q猛发展Q各种信息可以以非怽的成本在|络上获得,正是鉴于q种Q现在的用户面着信息q蝲的问题[86]Q现在的信息用户在与web交互时存在着如下的问题:
(a.) 发现相关信息。当用户惛_web上查扄定信息而用搜索服务时Q他会发现查询的l果大部分是不相关的东西。当前的搜烦存在着W准度和低召回率等问题[20]?b) 在可用的web信息的基上生成知识。这可以看作是上个问题的子问题,一些研I[34Q?5Q?9] 侧重于把web用作决策的知识库?c.) 信息昄的个性化?d.) 个性化用户的学习。这实际上是上一个问题的特定子问题?/p>
?web 挖掘则能直接或间接的解决上述问题。Web挖掘指用数据挖掘技术在WWW数据中发现潜在的、有用的模式或信息。Web挖掘研究覆盖了多个研I域,包括数据库技术、信息获取技术、统计学、h工智能中的机器学习和经|络{?/p>
2Q历史发?/strong>
Web miningQ这个术语是Oren Etzioni,[1]?996q正式提出来的,q个概念提出来以后,很多研究人员在他们的文章用它来指代不同的含义Q?Jaideep Srivastava[2]和他的同事的定义为:web 挖掘是利用数据挖掘的技术从web 文档或服务上自动的发现和抽取信息。根据Etzioni[41] Qweb 挖掘可以分解为四个子dQ?/p>
a. 查找资源QQ务是从目标Web文档中得到数据,值得注意的是有时信息资源不仅限于在线Web文档Q还包括电子邮g、电子文档、新ȝQ或者网站的日志数据甚至是通过Web形成的交易数据库中的数据?br> bQ信息选择和预处理QQ务是从取得的Web资源中剔除无用信息和信息进行必要的整理。例如从Web文档中自动去除广告连接、去除多余格式标记、自动识别段落或者字Dƈ数据组l成规整的逻辑形式甚至是关p表?br> cQ归c:在同一个站点内部或在多个站点之间进行自动进行通用模式发现?br> dQ模式分析:验证、解释上一步骤产生的模式。可以是机器自动完成Q也可以是与分析人员q行交互来完成?
Web 挖掘涉及?从web数据 发现潜在的有用的或没用的信息或知识的所有过E,它隐含的实现了数据知识发现的标准处理q程(KDD)[43]Q可以看作是KDD在web数据上的应用扩展。目前,研究人员web挖掘分ؓ三个大类[2Q?]Q?/p>
a. web 内容挖掘。它应用数据挖掘的技术来挖掘发布在因特网上资源的内容Q通常是html文gQ半l构化的Q,无格式文本和xml文档Q结构化的)?/p>
bQweb l构挖掘依靠web的超链接l构。这U图形结构可以提供关于page rank的信息[4]或权威性[5] Q通过qo能提高搜索的l果?/p>
c. web用法挖掘 分析用户和web服务器的互操作结果,包括 web日志Q点L和数据库事务{。Web用法挖掘涉及C隐私的问题现在引起了不少的争论?/p>
Fabrizio Sebastini[6]和Soumen Chakrabarti[7] 详细的探讨了web 内容挖掘的技?Furnkranz 则对webl构挖掘q行了ȝ工作
3Q现状评q?/strong>
Web内容挖掘和结构挖掘中Q工作多集中在如下:
把web看作是一个数据库Q数据库领域的早期研I工作集中在web的层ơ观点,在半l构化的web上层|一层包含某些相兌义信息的抽象层,weblog[10]和webSql[11]正是q种Z数据库的ҎQ在q个领域Q最q大部分的工作重点在实现语义web?/p>
文档分类同样是当前一个研I的热点问题Q早期的文档分类工作是把文本挖掘技术直接到web数据上,但是后期的研I工作表明:充分利用web的图形结构或以html现Ş式的半结构化内容Q有助于提高分类的结果[14]QGoogle新闻Qhttp://new.google.comQ便是从当前的新M息中自动的聚合分cȝ.
|页权重问题。Larry Page和他的同事提Zpagerank[4],q过google的搜d擎的成功q用推广行Q利用pagerank 爬虫能提前计出|页的排序,q将其结果返回,|页的pagerank的计是Z该网对其他|页的链接度。Sepandar Kamwar[14]对基本的pagerank法q行了改q,对计量代h有明昄提高。但q种基本的方法ƈ没有考虑到链接的语义。聪明的做法是利用|页的内Ҏq行评定。对那些与查询相似的链接l与更高的权重。Soumen Chakrabarti正是Zq种考虑提出了改q的法[14]。实验结果表明,q种改进比同{方法相比,效果有明显提高?/p>
Web用法挖掘在电子商务有许多的应用,包括Q个性化Q交通分析和针对性广告等。图形化分析工具如webviz[15]的发展得web事务的挖掘流行v来。这个领域中的主要工作是web日志数据的预处理和从处理的数据中发现有用模式[16Q?7]。Etzioni[19]web用法挖掘用在飞机的购买应用上。其Ҏ是根据时间挖掘出|上可用的飞机票h以此来推荐用户在最合适的旉来购。Web用法挖掘q涉及到个h的隐U问题,不再叙述?/p>
当前一个一个比较新的课题是语义web 挖掘Q在语义|中Q向web资源中添加语义,是通过dZ本体的注解来实现的,但不能寄希望于h工手动完成,因ؓq虽然简单但却不不能扩展。因此我们必通过本体学习Q匹配,归ƈ和实例学习来自动实现注解。语义网和web 挖掘怺促进Qweb 挖掘能促q语义网的出玎ͼ而语义网则得web 挖掘的效率更高? 4Q发展前景预?/p>
Ҏ目前的研I状况预?今后几年Web 挖掘研究的主要方向可能会?
1) 在数据预处理斚w,多种Web 数据的收集、结构{换等处理技术的研究 ;
2) Web 挖掘Ҏ和模式识别技术在构造自适应站点以及站点服务的个性化和性能优化斚w的研I?
3) Web 知识库的动态维护、更?各种知识和模式的评hl合Ҏ的研I?
4) ZWeb 挖掘和信息检索的,高效的、具有自动导航功能的搜烦引擎相关技术的研究;
5) 半结构、结构的文本数据、图形图像数据、多媒体数据的高效挖掘算?
6) 研究专门用于知识发现的数据挖掘语a及其标准?
7) 研究和开发基于Web 的多层数据体pȝ构和集成pȝ,提供相应的查询语a,优化和维护机?
8) 现有的数据挖掘方法与技术的改进及其向Web 数据的扩?挖掘法的适应性和时效性的研究;
9) Web 文档内的模式发现及其在信息提取、文本分析中的应用研I等;
10) Web 挖掘的相x术在电子商务领域的应用研I等 ?/p>
5Q小l?/strong>
不难看出 web 挖掘牉|到太多的诸如信息?信息抽取 数据挖掘 人工{技术,现在的掌握的技术和旉来看Q从其中的某一个点选则H破比较好。我比较們于web数据的收集工作?................
|页的自动聚合分c,向网自动添加标注其体现语义的特征Q都可以作ؓ研究方向q行下去?/p>
6Q参考文?/strong>