??xml version="1.0" encoding="utf-8" standalone="yes"?>
Internet/Web技术的快速普及和q猛发展Q各种信息可以以非怽的成本在|络上获得,正是鉴于q种Q现在的用户面着信息q蝲的问题[86]Q现在的信息用户在与web交互时存在着如下的问题:
(a.) 发现相关信息。当用户惛_web上查扄定信息而用搜索服务时Q他会发现查询的l果大部分是不相关的东西。当前的搜烦存在着W准度和低召回率等问题[20]?b) 在可用的web信息的基上生成知识。这可以看作是上个问题的子问题,一些研I[34Q?5Q?9] 侧重于把web用作决策的知识库?c.) 信息昄的个性化?d.) 个性化用户的学习。这实际上是上一个问题的特定子问题?/p>
?web 挖掘则能直接或间接的解决上述问题。Web挖掘指用数据挖掘技术在WWW数据中发现潜在的、有用的模式或信息。Web挖掘研究覆盖了多个研I域,包括数据库技术、信息获取技术、统计学、h工智能中的机器学习和经|络{?/p>
2Q历史发?/strong>
Web miningQ这个术语是Oren Etzioni,[1]?996q正式提出来的,q个概念提出来以后,很多研究人员在他们的文章用它来指代不同的含义Q?Jaideep Srivastava[2]和他的同事的定义为:web 挖掘是利用数据挖掘的技术从web 文或服务上自动的发现和抽取信息。根据Etzioni[41] Qweb 挖掘可以分解为四个子dQ?/p>
a. 查找资源QQ务是从目标Web文中得到数据,值得注意的是有时信息资源不仅限于在线Web文Q还包括电子邮g、电子文档、新ȝQ或者网站的日志数据甚至是通过Web形成的交易数据库中的数据?br> bQ信息选择和预处理QQ务是从取得的Web资源中剔除无用信息和信息进行必要的整理。例如从Web文中自动去除广告连接、去除多余格式标记、自动识别段落或者字Dƈ数据组l成规整的逻辑形式甚至是关p表?br> cQ归c:在同一个站点内部或在多个站点之间进行自动进行通用模式发现?br> dQ模式分析:验证、解释上一步骤产生的模式。可以是机器自动完成Q也可以是与分析人员q行交互来完成?
Web 挖掘涉及?从web数据 发现潜在的有用的或没用的信息或知识的所有过E,它隐含的实现了数据知识发现的标准处理q程(KDD)[43]Q可以看作是KDD在web数据上的应用扩展。目前,研究人员web挖掘分ؓ三个大类[2Q?]Q?/p>
a. web 内容挖掘。它应用数据挖掘的技术来挖掘发布在因特网上资源的内容Q通常是html文gQ半l构化的Q,无格式文本和xml文Q结构化的)?/p>
bQweb l构挖掘依靠web的超链接l构。这U图形结构可以提供关于page rank的信息[4]或权威性[5] Q通过qo能提高搜索的l果?/p>
c. web用法挖掘 分析用户和web服务器的互操作结果,包括 web日志Q点L和数据库事务{。Web用法挖掘涉及C隐私的问题现在引起了不少的争论?/p>
Fabrizio Sebastini[6]和Soumen Chakrabarti[7] 详细的探讨了web 内容挖掘的技?Furnkranz 则对webl构挖掘q行了ȝ工作
3Q现状评q?/strong>
Web内容挖掘和结构挖掘中Q工作多集中在如下:
把web看作是一个数据库Q数据库领域的早期研I工作集中在web的层ơ观点,在半l构化的web上层|一层包含某些相兌义信息的抽象层,weblog[10]和webSql[11]正是q种Z数据库的ҎQ在q个领域Q最q大部分的工作重点在实现语义web?/p>
文分类同样是当前一个研I的热点问题Q早期的文分类工作是把文本挖掘技术直接到web数据上,但是后期的研I工作表明:充分利用web的图形结构或以html现Ş式的半结构化内容Q有助于提高分类的结果[14]QGoogle新闻Qhttp://new.google.comQ便是从当前的新M息中自动的聚合分cȝ.
|页权重问题。Larry Page和他的同事提Zpagerank[4],q过google的搜d擎的成功q用推广行Q利用pagerank 爬虫能提前计出|页的排序,q将其结果返回,|页的pagerank的计是Z该网对其他|页的链接度。Sepandar Kamwar[14]对基本的pagerank法q行了改q,对计量代h有明昄提高。但q种基本的方法ƈ没有考虑到链接的语义。聪明的做法是利用|页的内Ҏq行评定。对那些与查询相似的链接l与更高的权重。Soumen Chakrabarti正是Zq种考虑提出了改q的法[14]。实验结果表明,q种改进比同{方法相比,效果有明显提高?/p>
Web用法挖掘在电子商务有许多的应用,包括Q个性化Q交通分析和针对性广告等。图形化分析工具如webviz[15]的发展得web事务的挖掘流行v来。这个领域中的主要工作是web日志数据的预处理和从处理的数据中发现有用模式[16Q?7]。Etzioni[19]web用法挖掘用在飞机的购买应用上。其Ҏ是根据时间挖掘出|上可用的飞机票h以此来推荐用户在最合适的旉来购。Web用法挖掘q涉及到个h的隐U问题,不再叙述?/p>
当前一个一个比较新的课题是语义web 挖掘Q在语义|中Q向web资源中添加语义,是通过dZ本体的注解来实现的,但不能寄希望于h工手动完成,因ؓq虽然简单但却不不能扩展。因此我们必通过本体学习Q匹配,归ƈ和实例学习来自动实现注解。语义网和web 挖掘怺促进Qweb 挖掘能促q语义网的出玎ͼ而语义网则得web 挖掘的效率更高? 4Q发展前景预?/p>
Ҏ目前的研I状况预?今后几年Web 挖掘研究的主要方向可能会?
1) 在数据预处理斚w,多种Web 数据的收集、结构{换等处理技术的研究 ;
2) Web 挖掘Ҏ和模式识别技术在构造自适应站点以及站点服务的个性化和性能优化斚w的研I?
3) Web 知识库的动态维护、更?各种知识和模式的评hl合Ҏ的研I?
4) ZWeb 挖掘和信息检索的,高效的、具有自动导航功能的搜烦引擎相关技术的研究;
5) 半结构、结构的文本数据、图形图像数据、多媒体数据的高效挖掘算?
6) 研究专门用于知识发现的数据挖掘语a及其标准?
7) 研究和开发基于Web 的多层数据体pȝ构和集成pȝ,提供相应的查询语a,优化和维护机?
8) 现有的数据挖掘方法与技术的改进及其向Web 数据的扩?挖掘法的适应性和时效性的研究;
9) Web 文内的模式发现及其在信息提取、文本分析中的应用研I等;
10) Web 挖掘的相x术在电子商务领域的应用研I等 ?/p>
5Q小l?/strong>
不难看出 web 挖掘牉|到太多的诸如信息?信息抽取 数据挖掘 人工{技术,现在的掌握的技术和旉来看Q从其中的某一个点选则H破比较好。我比较們于web数据的收集工作?................
|页的自动聚合分c,向网自动添加标注其体现语义的特征Q都可以作ؓ研究方向q行下去?/p>
6Q参考文?/strong>
IT之\在何?/strong>
<!--[if !supportLists]-->一Q?nbsp; <!--[endif]-->摘要
James Gray?998q获得图灵奖。在获奖会上Q他提出了未来信息技术要解决的著名的十二个问题,他给未来IT的发展指明了研究的方向,对计机行业的发展具有重大意义,本文在介l他所提出的十二问题的基础上,l合自己对IT发展的认识,对其中的一些问题给Z自己的一些想法?/p>
<!--[if !supportLists]-->二. <!--[endif]-->关键?/strong> Jim Gray 十二问题 IT 发展方向 Qh工智?/strong>
<!--[if !supportLists]-->三. <!--[endif]-->背景知识介绍
Jim Gray 格雷毕业于伯克莱大学Q先后供职于国际商用机器QIBMQ公司、微软旧金山研究所。他曑֏与徏设了世界最大的天文学数据库SloanDigitalSky -ServerQ其中所研究的星pM最初的100万达C如今?亿个Q他参与设计?#8220;世界视野望远?#8221;把天文学家的数据库连接ؓ一个整体。如果没有他Q那么世界大概不会是今天的样子,自动提款机、网上购物、甚至Google Earth的问世都要推q?/p>
格雷“开创性的数据库研I?#8221;动提ƾ机QATMQ、机网上预定系l和Google Earth的诞生奠定了基础Qƈ?998q获得了计算机科学领域的最高奖——图灵奖?/p>
囄奖主要授予在计算机技术领域做出突A献的个h。而这些A献必d计算Z有长q而重要的影响。他在图灵奖的获奖会上做了题?#8220;What Next? A Dozen Remaining Information Technology Problems”的演讌Ӏ这12个研I目标ƈ非完全是格雷的个人看法,它们代表了众多计机U学家和信息学家的意见,有很q泛的代表性,非常值得我们重视?/p>
四.提出的十二个问题
在James Gray的演讲中Q他提出了未来信息技术领域需要解决的12个长q问题?/p>
W一个问题是Q可扩展性。设计出一U硬件和软g体系l构能够以百万的比例因子工作?/p>
其目的就是设计出一U可以无限制的硬件和软g体系l构Q但限于资金和时间等因素Q比较实际的做法是同一个计问题由一个节Ҏ展到百万个节点也是?仅仅通过增加更多的资?一个应用的存储Q处理能力能够以百万U的比例自动增长Q同时处理作业的速度和规模同样以百万U的比例加快?/p>
可扩展性问题将会衍生出大型计算机系l方斚w面的问题Q这U系l是依靠模块依次递加的,每个模块承担计算d的一部分,一个模块失效了QQ务应该能自动UL到其他的模块上去q能l箋执行。自我管理,定w性和负蝲均衡仍然是当前诚待解决的挑战
W二个问题是Q图灉|试。构造一个计机pȝ使它臛_能有30Q的旉赢得模仿游戏?/p>
囄试是基于一U三个h玩的模仿游戏Q在游戏中,一个男人和女h在一个房间中Q而裁判在另一个房间中。他们三个彼此看不到ҎQ因此通过电子邮g联络Q裁判向他们?分钟的问题从而确定哪一个是L哪一个是女的。这本来应该是很单的Q除非这个男的撒谎,假装自己是女的。而这个女的尽力帮助裁判弄清事实真相。如果这个男的很会演戏的话,他可能在一半的旉内愚弄裁判,事实上,q个裁判?0%的时间内是正的
在过ȝ50余年里,计算机在囄试斚w已经取得巨大的进步,计算机已初步h单的大脑存储和计能力。但其中Q计机q只是充当工具和合作者而非机器Q所以,目前的超U计机软g和数据库在下一个十q里也不会通过囄试。这里需要一些与现在完全不同的想法?/p>
W三个问?语音文本。计算够听懂ƈ语a转化为文本?/p>
W四个问?文本语音。计算够说话ƈ文本{化ؓ语言?/p>
W五个问?同hcML视觉Q可以L认物体和行ؓ?/p>
囄试中两个隐藏的子问题是Q一是计机要像人类一栯行阅d理解Q再是能和Zh考可书写。但二者都和图灉|试一样困难?/p>
目前在计机对自然语aQ音乐等的鉴别有了很大的q步Q演讲到文本的{化系l已l能要很好的利用了,当然q很大程度上要归功于计算机硬件的发展Q但他目前用的法仍得益于对自然语a的深层次的理解。其增长的速度很慢Q而且词库也非常的有限。另一个问题是Q跟定一个文本,计算否像Z样对问题q行xQ这是进行hZ互的一U重要方式。基于上q问题的考虑Qjim Gray 提出了上qC个问?/p>
W六个问?个hmemex存储器。能够存储一个h看到和听到的一切东西,同时能够快速找回Q何请求的条目?/p>
能记录一个h一生的所见所M直我们梦寐以求的事情。但q仍然有很多隄Q这其中既有技术上的难点也有社会学的问题。但不管怎么_q是一个值得研究的方向。前景非常的宽阔?/p>
W七个问?世界memex存储器。构Z个系l,通过l定一个文本集Q可以像人类该领域的专家一样回{关于文本的问题和对文本做出快速和准确的ȝ?/p>
q其中的一个挑战就是自动分析组l信息,一旦某个h有了问题Q那么这个问题可以输入到一个自然的接口里面去,q种l构融会了语aQ姿?囑Ş和其他Ş式借口Q这U系l能Ҏ用户的层ơ提供合适的{案。这是个需要解决的dQ也许能有h工智能来完成Q但它是个一个非常棒的目标,也许比计机能像ZL玩虚拟游戏更有意义?/p>
W八个问?q程介入。让观察员在模拟以前发生的事件时Q与当时在场的h员有同样感觉Q即q程观察Q;或者参与者模拟正在发生的事gӞ能与其他Z,像亲现场一P卌E出席)?/p>
把所有事情记录下来之所以o人感兴趣的原因之一Q就是能使其他h立刻看到或以后回。我们大多数人都发现q种“旉转移”要比“I间转移”更有价倹{通过多角度、高保真地记录事Ӟ计算机可以重CM角度观察到的高保真图像,让观察者有完全w其境的感受。这Ҏ术的挑战性在于记录事件后按要求生成虚拟环境,允许观察者像实际参与者那样体验事Ӟ我们把这叫做“q程介入”?今天的电视与q播已实Cq种Ҏ的低质量版本Q但它们完全是被动的。下一个挑战就是允许远E介入者与现场人员q行交流Q即q程出席。对于远E出席,目前 已存在的形式有电话、远E电话会议和聊天室。但是,q比亲现场的体验要差得多。因而,Z仍然愿意l过镉K跋涉以得到更真实的体验。对q程出席的可操作 性测试之一Q就是看q程介入的学生和直接面对教师的学生的成W是否一样好Q教师与两组学生的关pL否同样和谐亲切?/p>
W九个问?无差错系l。构Z个每天可以被上百万h使用的系l而只需要一个业余h员来理和操作?/p>
W十个问?安全的系l。确保上面系l的服务只提供给授权者,未授权者无法得到服务。同时要能证明信息没有被泄露?/p>
W十一个问?怸down机。确保系l在一癑ֹ的时间内臛_只有一U钟不可用?/p>
W十二个问题 自动~程。设计出一U特别的语言或用h口,它能?a)Z能够非常Ҏ地表达自q设计思想Q比现在Ҏ1000倍;(b)计算机可以编?(c)能够完整地描q所有的应用。这个系l因该能对应用进行推理,对异常和不完整的情况提出问题Q但使用h不应该很烦琐?/p>
q就?2个非常有的研究问题Q每个问题都是一个长期研I的NQ这也是jim gray 向政府寻求长期资助的原因Q据推测Q?0q后Q计机U学的发展会在每个问题的研究上都会有q步的。这些问题包括非常广的种c:囄机提高了人机交互l构Q布的存储记录Q分析和ȝ所发生的Q何事情。Babbage’s的计机能自我变成,从不出错因而是安全?。当然这些问题在现在看来是有些不合实际,但根据摩定律:每十八个月技术的发展{于之前所有的发展dQ如果摩定律l有效的话,那么上述提出的问题就有可能会变成现实的?/p>
五.结
我们可以看出q?2个问题都是信息技术领域的一些根本性的问题。其中有很多问题是与人工紧密l合的。这些问题的逐步解决是整个信息技术和信息产业不断q步和发展过E。对q些问题的研I和解决Q需要长期的投资支持。在q个q程当中Q我们能够生新的想法,同时能够ȝ和培L们的学生Q政府应该提供一?资金支持。一些长期的研究目可以包括Qh机接口—计算够更加容易地与h交互Q对信息的组l,ȝ和分析;
l合当前计算业发展的势和Jim gray 的文章,我认机技术将是一个热?其是与计算机网l结合v来的技术将会得到前所未有的重视与发展.自然,技术中现在面的还未解决的问题引起h们空前的x。约?#183;巴克斯把计算技术分Z四个大的发展阶段Q硬件、Y件、网l和通讯、认知计技术,他认为|络和通讯之后的未来十q_认知计算技术将是下一步发展方向,卌机能够q行思想识别Q就像hcȝ大脑思考一Pq是技术的表现?/p>
?特勒·兰普把计算机的应用分ؓ三个大的阶段Q模拟仿真、通讯和存储、具体化Q认机l通讯和存储之后的下一步应用是具体化,包括机器人、语音等应用范围Q他q详l列举了两个例子来说明具体化Q一是自主驾Ӟ二是自动~程Q这两个例子的共同点是要让计算机懂得或者明白一些事情,q是计算机智能化的体 现?/p>
<!--[if !supportLists]-->六. <!--[endif]-->参考文?/strong>
[1] Graph based on data in Hans P. Moravec Robot, Mere Machines to Transcendent Mind, Oxford, 1999, ISBN 0-19-511630-5, (http://www.frc.ri.cmu.edu/~hpm/book98/) personal communication with Larry Roberts who developed the metric in 1969, and personal communication with Gordon Bell who helped analyze the data and corrected some errors.
[2] Donald E. Stokes, Pasteur’s Quadrant: Basic Science and Technological Innovation, Brookings, 1997, ISBN 0-8157-8178-4.
[3] Jim Gray . What Next? A Dozen Information-Technology Research Goals. June 1999 Technical Report MS-TR-99-50
q其中有其客观原因的存在Q一斚w大家都来自不同的大学Q四q的大学l历造就了大家不同的学习生活的习惯和思考问题的方式Q看待问题的观点Q这些分歧的存在从某U程度上影响了大家彼此的交往。再大家的年龄跨度比较大Q有二十出头的年青hQ也有三十多岁成家立业者,q龄的差距,往往使大家h际交往中的代沟。年MhdƢ比较新潮的东西Q而年龄大的喜好则与他们的不同。同P有些人是参加工作后来ȝ研,而有些h则是直接从大学当中升上来的,~少一定上C会l历Q这U阅历的差异Qh们看待问题的方式和观点,x问题的侧重点或多或少的有所差别。而这些差别从某种E度上会妨碍我们的h际交往?/span>
抛开q些客观原因不讲Q在人际交往中,我们研究生自w也有好多问题。研I生太过于关注自w的发展和自我娱乐。特别是像我们工U的研究生,把一些学习工作的方式带到了我们的生活中。很多问题喜好自己埋头苦搞,很多时候只低头走路,不愿抬头看天。不会或很少放一放主动和别h交流一下自q心得和一些想法。做学问Q独立钻研思考是对的Q但把这U方式带到生zM来,不跟别hq行必要的联pL通,q会l别人造成一U难以接q的久而久之会被孤立的。特别是我们80q代后的q一批hQ大部分人是独生子女Q好多h从小在家里养处优,心理上保持着一些优感Q再加上较强的望成功的心态,使得我们更关注自w的发展Q而较顾及到他hQ这无疑会媄响我们的交际?/span>
q多的自我关注,使我们研I生在交往中待人接物往往不够坦诚Q仁厚和友善。而且不大愿意兛_他h。研I生q个层次Qh的心理都已基本成熟,每个人都有自q特的生活方式Q不再像中学生那么可以轻易嘻d哈打成一片。从本科上到研究生的转变Q大安步培养自己的一个事业的概念Q其做事的目的会更明。同时压力也自然接踵而至Q实验室的项目的q展Q自q开题,论文Q无时无M压着我们Q需要考虑的问题也更多Q从q的论文毕业Q到今后C会立、成家立业等{大多数人都在每天忙着自己的事情。很多h因ؓ看不到明天或是不愿对现实而感到苦不堪aQ更多h选择了沉默。都快一q多了,除了自己实验室的一些hQ本班的同学都没认全。。大家就处在实验室这个小圈子内,很少与陌生h打交道,与h打交道的能力也分厂匮乏。久而久之,Ş成恶性@环?/span>
当然qƈ不是我们内心不喜Ƣ与Z往Q在前不久进行的一ơ心里辅D上,在大家发a的环节上Q同学们提的最多的是要创造一个让大家在一起彼此认识,沟通的Z。这说明我们研究生除了需要必需的逻辑思维能力和创造力外,我们q需要其他同学的兛_和友情,宽容和帮助。我们也希望与n边的每个同学无话不谈Q希望有很多很多的朋友。我们可以向他们分n自己的快乐,也可以宣泄自q不^、愤怒、委屈和烦恼Q可以排解心中的苦闷。我们也很愿意向别h打开自己的世界?/span>
那么Q在研究生阶D,如何建立一个适合而良好的人际关系呢?我认固然有外在环境等因素Q但更多的是内在自n的因素。我们要提高人际交往的能力就要发现自w存在的问题Q只有发C自n的不I才能解决问题。首先要正视自我Q悦U我,要与Zؓ善,以宽容的态度对待他h。其ơ对诚恳真切Q再者,有有颗开攄心,当自己遇到困难时Q要扑ֈ正确的途径和合适的人寻求帮助,注意留心周围的朋友的Q在他们有困难时Qq双手 。只有这P才能提高人际交往的能力,使自p够全面发展,自我的hg更大!