??xml version="1.0" encoding="utf-8" standalone="yes"?>中文在线资源在线,国产在线一二三区,久久久久久亚洲精品不卡4k岛国 http://www.aygfsteel.com/zhenandaci/archive/2008/06/01/205100.htmlJasperJasperSat, 31 May 2008 16:02:00 GMThttp://www.aygfsteel.com/zhenandaci/archive/2008/06/01/205100.htmlhttp://www.aygfsteel.com/zhenandaci/comments/205100.htmlhttp://www.aygfsteel.com/zhenandaci/archive/2008/06/01/205100.html#Feedback0http://www.aygfsteel.com/zhenandaci/comments/commentRss/205100.htmlhttp://www.aygfsteel.com/zhenandaci/services/trackbacks/205100.html前文说到使用l计学习Ҏq行文本分类是让计机自己来观察由人提供的训练文档集,自己ȝ出用于判别文档类别的规则和依据。理想的l果当然是让计算机在理解文章内容的基上进行这L分类Q然而遗憄是,我们所说的“理解”往往指的是文章的语义甚至是语用信息,q一cM息极其复杂,抽象Q而且存在上下文相x,对这cM息如何在计算Z表示都是未解决的问题(往大里_q是一?#8220;知识表示”的问题,完全可以另写一pd文章来说了)Q更不要说让计算机来理解?br /> 利用计算机来解决问题的标准思\应该是:U问题寻找一U计机可以理解的表C方法,或曰建立一个模型(一个文档表C模型)Q然后基于这个模型,选择各方面满求的法来解冟뀂用谭浩强的话说Q程序,是数据+法。(啥?你不知道谭浩强是谁?上过学么Q学qC么?q捣什么ؕQ)
既然文本的语义和语用信息很难转换成计机能够理解的表CŞ式,接下来顺理成章的Qh们开始用文章中所包含的较低别的词汇信息来表C文档,一试之下,效果居然q不错?br /> l计学习Ҏq行文本分类Q以下就UCؓ“l计学习Ҏ”Q虽然这个方法也可以应用到除文本分类以外的多个领域)的一个重要前提由此生,那就是认为:文档的内容与其中所包含的词有着必然的联p,同一cL档之间d在多个共同的词,而不同类的文档所包含的词之间差异很大[1]?br /> q一步的Q不光是包含哪些词很重要Q这些词出现的次数对分类也很重要?br /> q一前提使得向量模型Q俗U的VSMQ向量空间模型)成了适合文本分类问题的文档表C模型。在q种模型中,一文章被看作特征w合来看,利用加权特征Ҏ成向量进行文本表C,利用词频信息Ҏ本特征进行加权。它实现h比较单,q且分类准确度也高,能够满一般应用的要求。[5]
而实际上Q文本是一U信息蝲体,其所携带的信息由几部分组成:如组成元素本w的信息Q词的信息)、组成元素之间顺序关pd来的信息以及上下文信息(更严格的_q包括阅读者本w的背景和理解)[12]?br /> 而VSMq种文档表示模型Q基本上完全忽略了除词的信息以外所有的部分Q这使得它能表达的信息量存在上限[12]Q也直接D了基于这U模型构建的文本分类pȝQ虽然这是目前绝对主的做法Q,几乎永远也不可能辑ֈ人类的分c能力。后面我们也会谈刎ͼ相比于所谓的分类法Q对特征的选择Q也是使用哪些特征来代表一文档,往往更能影响分类的效果?br /> 对于扩充文档表示模型所包含的信息量Qh们也做过有益的尝试,例如被称为LSIQLatent Semantic Index潜在语义索引Q的ҎQ就被实验证明保留了一定的语义信息Q之所以说被实验证明了Q是因ؓZq无法在形式上严格地证明它确实保留了语义信息Q而且q种语义信息q以h可以理解的方式被保留下来Q,此ؓ后话?/span>

前文说到Q就不能不用q种老旧的说法?换换新的Q比如Previously on "Prison Break"Q噢Q不对,是Previously on Text Categorizaiton……Q统计学习方法其实就是一个两阶段的解x案,Q?Q训l阶D,p机来ȝ分类的规则;Q?Q分c阶D,l计机一些它从来没见q的文档Q让它分c(分不对就打屁屁)?/span>

下一章就专门说说训练阶段的二三事?/span>



Jasper 2008-06-01 00:02 发表评论
]]>
文本分类入门(?文本分类的方?/title><link>http://www.aygfsteel.com/zhenandaci/archive/2008/05/31/205089.html</link><dc:creator>Jasper</dc:creator><author>Jasper</author><pubDate>Sat, 31 May 2008 14:52:00 GMT</pubDate><guid>http://www.aygfsteel.com/zhenandaci/archive/2008/05/31/205089.html</guid><wfw:comment>http://www.aygfsteel.com/zhenandaci/comments/205089.html</wfw:comment><comments>http://www.aygfsteel.com/zhenandaci/archive/2008/05/31/205089.html#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://www.aygfsteel.com/zhenandaci/comments/commentRss/205089.html</wfw:commentRss><trackback:ping>http://www.aygfsteel.com/zhenandaci/services/trackbacks/205089.html</trackback:ping><description><![CDATA[<span style="font-size: 12pt; font-family: 微Y雅黑">文本分类问题与其它分c问题没有本质上的区别,其方法可以归lؓҎ待分cL据的某些<span style="color: #3366ff">特征</span>来进行匹配,当然完全的匹配是不太可能的,因此必须Q根据某U评h准)选择最优的匚wl果Q从而完成分cR?br style="font-family: " /> 因此核心的问题便转化为用哪些特征表示一个文本才能保证有效和快速的分类Q注意这两方面的需求往往是互相矛盄Q。因此自有文本分cȝl的那天P׃直是对特征的不同选择d着Ҏzֈ的不同?br /> <br style="font-family: " /> 最早的词匹配法仅仅Ҏ文档中是否出C与类名相同的词(多再加入同义词的处理)来判断文档是否属于某个类别。很昄Q这U过于简单的Ҏ无法带来良好的分cL果?br /> <br style="font-family: " /> 后来兴vq一D|间的知识工程的方法则借助于专业h员的帮助Qؓ每个cd定义大量的推理规则,如果一文档能满q些推理规则Q则可以判定属于该类别。这里与特定规则的匹配程度成Z文本的特征。由于在pȝ中加入了Zؓ判断的因素,准确度比词匹配法大ؓ提高。但q种Ҏ的缺点仍然明显,例如分类的质量严重依赖于q些规则的好坏,也就是依赖于制定规则?#8220;?#8221;的好坏;再比如制定规则的人都是专家别,人力成本大幅上升常常令h难以承受Q而知识工E最致命的弱Ҏ完全不具备可推广性,一个针寚w融领域构建的分类pȝQ如果要扩充到医疗或C会保险{相关领域,则除了完全推倒重来以外没有其他办法,常常造成巨大的知识和资金费?br /> <br style="font-family: " /> 后来Z意识刎ͼI竟依据什么特征来判断文本应当隶属的类别这个问题,p人类自己都不太回{得清楚Q有太多所?#8220;只可意会Q不能言?#8221;的东西在里面。hcȝ判断大多依据l验以及直觉Q因此自然而然的会有h惛_何让机器像hcM栯己来通过对大量同cL档的观察来自己ȝl验Q作Z后分cȝ依据?br style="font-family: " /> q便?span style="color: #3366ff">l计学习</span>Ҏ的基本思想Q也有h把这一大类ҎUCؓ机器学习Q两U叫法只是涵盖范围大有些区别,均无不妥Q?br style="font-family: " /> l计学习Ҏ需要一批由人工q行了准分cȝ文档作ؓ学习的材料(UCؓ<span style="color: #3366ff">训练?/span>Q注意由人分cMҎ档比从这些文档中ȝ出准的规则成本要低得多Q,计算Zq些文档重挖掘出一些能够有效分cȝ规则Q这个过E被形象的称?span style="color: #3366ff">训练</span>Q而ȝ出的规则集合常常被称?span style="color: #3366ff">分类?/span>。训l完成之后,需要对计算Z来没有见q的文档q行分类Ӟ便用这些分cd来进行?br style="font-family: " /> 现如今,l计学习Ҏ已经成ؓ了文本分c领域绝对的L。主要的原因在于其中的很多技术拥有坚实的理论基础Q相比之下,知识工程Ҏ中专家的主观因素居多Q,存在明确的评h准,以及实际表现良好?br /> <br style="font-family: " /> 下一章就深入l计学习ҎQ看看这U方法的前提Q相关理论和具体实现?/span> <img src ="http://www.aygfsteel.com/zhenandaci/aggbug/205089.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.aygfsteel.com/zhenandaci/" target="_blank">Jasper</a> 2008-05-31 22:52 <a href="http://www.aygfsteel.com/zhenandaci/archive/2008/05/31/205089.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item><item><title>文本分类入门(参考文?http://www.aygfsteel.com/zhenandaci/archive/2008/05/31/204927.htmlJasperJasperSat, 31 May 2008 12:08:00 GMThttp://www.aygfsteel.com/zhenandaci/archive/2008/05/31/204927.htmlhttp://www.aygfsteel.com/zhenandaci/comments/204927.htmlhttp://www.aygfsteel.com/zhenandaci/archive/2008/05/31/204927.html#Feedback0http://www.aygfsteel.com/zhenandaci/comments/commentRss/204927.htmlhttp://www.aygfsteel.com/zhenandaci/services/trackbacks/204927.html文本分类入门pd所有文章的参考文献集中列于此,其他文章中再做引用时仅列出标?不再重复写出作者和出版?出版q䆾{信?

[1]李晓明,闫宏飞,王民,“搜烦引擎——原理、技术与pȝ”.U学出版C,2004
[2]冯是? "中文|页自动分类技术研I及其在搜烦引擎中的应用," 北京大学,博士论文, 2003
[3]Y. Yang and X. Liu, "A re-examination of text categorization methods" presented at Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'99), 1999.
[4]F. Sebastiani, "A tutorial on Automated Text Categorization", Proceedings of ASAI-99, 1st Argentinian Symposium on Artificial Intelligence, Buenos Aires, AR, 1999
[5]王涛Q文本自动分cȝIӞ图书馆学研究Q?007.12
[6]周文霞:C文本分类技术研IӞ武警学院学报Q?007.12
[7]奉国和:自动文本分类技术研IӞ情报杂志Q?007.12
[8]崔彩霞,张朝霞:文本分类ҎҎ研究Q太原师范学院学报(自然U学版)Q?007.12
[9]吴军QGoogle黑板报数学之系列,http://googlechinablog.com
[10]刘霞Q卢苇:SVM在文本分cM的应用研IӞ计算机教Ԍ2007.1
[11]都云琪,肖诗斌:Z支持向量机的中文文本自动分类研究,计算机工E,2002Q?8(11)
[12]周昭涛,卜东波:文本的图表示初探Q中文信息学报,W?9?W??br style="font-family: " /> [13]Baeza-Yates,R.and Ribeiro-Neto:Modern Information Retrieval,1st ed.Addison Wesley Longman,Reading,MA,1999
[14]唐春生,张磊Q文本分cȝI进?br style="font-family: " /> [15]李莼Q罗振声Q基于语义相兛_概念相关的自动分cL法研IӞ计算机工E与应用Q?003.12
[16]单松巍,冯是聪,李晓明:几种典型特征选取Ҏ在中文网分cM的效果比较,计算机工E与应用Q?003.22
[17]Yiming Yang,Jan O Pedersen:A comparative Study on Feature Selection in Text Categorization, Proceedings of the Fourteenth International Conference on Machine Learning(ICML~97)Ql997
[18]董振东:知网介,知网Qhttp://www.keenage.com/zhiwang/c_zhiwang.html
[19]Tom M.Mitchell,”Machine Learning”,McGraw Hill CompaniesQ?997
[20] Edda  Leopold, Jorg Kindermann,“Text Categorization with Support Vector MachinesQHow to Represent Texts in Input Space?”, Kluwer Academic Publishers,2002
[21] Thorsten Joachims,”Text Categorization with Support Vector Machines: Learning with Many Relevant Features”
[22]Nello Cristianini,An Introduction to Support Vector Machines and Other Kernel-based Learning Methods,Cambridge University Press,2000

Jasper 2008-05-31 20:08 发表评论
]]>
文本分类入门(一)文本分类问题的定?/title><link>http://www.aygfsteel.com/zhenandaci/archive/2008/05/31/204646.html</link><dc:creator>Jasper</dc:creator><author>Jasper</author><pubDate>Sat, 31 May 2008 04:59:00 GMT</pubDate><guid>http://www.aygfsteel.com/zhenandaci/archive/2008/05/31/204646.html</guid><wfw:comment>http://www.aygfsteel.com/zhenandaci/comments/204646.html</wfw:comment><comments>http://www.aygfsteel.com/zhenandaci/archive/2008/05/31/204646.html#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://www.aygfsteel.com/zhenandaci/comments/commentRss/204646.html</wfw:commentRss><trackback:ping>http://www.aygfsteel.com/zhenandaci/services/trackbacks/204646.html</trackback:ping><description><![CDATA[<br /> <p><span style="font-family: 微Y雅黑"><span style="font-size: 12pt">一个文本(以下基本不区?#8220;文本”?#8220;文档”两个词的含义Q分c问题就是将一文档归入预先定义的几个cd中的一个或几个Q?span style="color: #3366ff">文本的自动分c?/span>则是使用计算机程序来实现q样的分cR通俗点说Q就好比你拿一文章,问计机q文章要说的I竟是体Ԍl济q是教育Q计机{不上就打它的屁屁(……Q?br /> 注意q个定义当中着重强调的两个事实?br /> W一Q用于分cL需要的cd体系?span style="color: #3366ff">预先定</span>的。例如新新ȝ分类体系QYahoo!|页D的分cdơ。这U分cdơ一旦确定,在相当长的时间内都是不可变的Q或者即使要变更Q也要付出相当大的代P基本不亚于推倒ƈ重徏一个分cȝl)?br /> W二Q一文档ƈ没有严格规定只能被分配给一个类别。这与分c这个问题的主观性有养I例如?0个h判断一文章所陈述的主题究竟属于金融,银行q是财政政策领域Q?0个h可能会给?1个不同的{案Q聪明的读者,您应该能看出来ƈ没有11个答案,q只是一U修辞方法,W)Q因此一文章很可能被分配到多个cd当中Q只不过分给某些cd让h信服Q而有些让人感觉模׃可Ş了(说的专业点,|信度不一P?/span></span></p> <p><span style="font-family: 微Y雅黑"><span style="font-size: 12pt">八股是一U写文章的格式,q去用于UDQ现在用于科研,MQ和U学有点关系的文章就得八股,鉴于我正ȝ自己写论文的能力Q所以按照标准的格式Q陈qC文本分类问题的定义之后,我要说说它的应用范围?br /> <br /> 现在一说到文本分类Q大部分人想当然的将q个问题化ؓ判断一文章说的是什么,q只是文本分cȝ一部分应用,我们可以UC?#8220;依据主题的分c?#8221;。实际上Q文本分c还可以用于判断文章的写作风|作者态度Q积极?消极Q)Q甚臛_断作者真伪(例如看看《红楼梦》最后二十回到底是不是曹雪芹写的Q。总而言之,凡是与文本有养I与分cL养I不管从什么角度出发,依据的是何特征,都可以叫做文本分cR?br /> 当然Q目前真正大量用文本分cL术的Q仍是依据文章主题的分类Q而据此构建最多的pȝQ当属搜索引擎。内里的原因当然不言自明Q我只是想给大家提个醒,文本分类q不完全{同于网分cR网|包含的信息远比含于其中的文字Q文本)信息多得多,对一个网늚分类Q除了考虑文本内容的分cM外,铑օ铑և的链接信息,面文g本n的元数据Q甚x包含此网늚|站l构和主题,都能l分cL供莫大的帮助Q比如新体育专栏里的网|无疑问都是关于体育的Q,因此说文本分cd际上是网分cȝ一个子集也毫不。当ӞUa的文本分cȝl与|页分类也不是一点区别都没有。文本分cL个重要前提:卛_能根据文章的文字内容q行分类Q而不应借助诸如文g的编码格式,文章作者,发布日期{信息。而这些信息对|页来说常常是可用的Q有时v到的作用q很巨大Q因此纯_的文本分类pȝ要想辑ֈ相当的分cL果,必须在本w的理论基础和技术含量上下功夫?br /> 除了搜烦引擎Q诸如数字图书馆Q档案管理等{要和v量文字信息打交道的系l,都用得上文本分类。另外,我的士论文也用得上Q笑Q?br /> 下一章和大家侃侃与文本分cL关的具体Ҏ概览Q有事您说话?br /> </span></span></p> <img src ="http://www.aygfsteel.com/zhenandaci/aggbug/204646.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.aygfsteel.com/zhenandaci/" target="_blank">Jasper</a> 2008-05-31 12:59 <a href="http://www.aygfsteel.com/zhenandaci/archive/2008/05/31/204646.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item></channel></rss> <footer> <div class="friendship-link"> <a href="http://www.aygfsteel.com/" title="狠狠久久亚洲欧美专区_中文字幕亚洲综合久久202_国产精品亚洲第五区在线_日本免费网站视频">狠狠久久亚洲欧美专区_中文字幕亚洲综合久久202_国产精品亚洲第五区在线_日本免费网站视频</a> </div> </footer> վ֩ģ壺 <a href="http://" target="_blank"></a>| <a href="http://" target="_blank">Ϲ</a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank">SHOW</a>| <a href="http://" target="_blank">ͬ</a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank">ȳ</a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank">ˮ</a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank">ػ</a>| <a href="http://" target="_blank">Ϻ</a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank">٤ʦ</a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank">º</a>| <a href="http://" target="_blank">Ӷ</a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank">ʯ</a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank">ڰ</a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank">֣</a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank">û</a>| <a href="http://" target="_blank"></a>| <a href="http://" target="_blank"></a>| <script> (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })(); </script> </body>