久久久久久噜噜噜久久久精品,手机亚洲第一页,亚洲va久久久噜噜噜久久天堂

re: SVM入門(mén)（十）將SVM用于多類(lèi)分類(lèi) Jasper 2012-09-12 13:02

@無(wú)名
請(qǐng)注意本文發(fā)表于2009年3月；您所指的地址發(fā)表于2010年9月，整整晚了18個(gè)月，究竟誰(shuí)是原創(chuàng)，不需要我多解釋了吧。

re: Google Gadget 開(kāi)發(fā)入門(mén)（二）啰嗦的Gadget例子[未登錄](méi) Jasper 2009-11-13 12:28

不是的，在代碼中250就是數(shù)字的250，加上引號(hào)就變成字符串了。@hellwen

re: 文本分類(lèi)入門(mén)（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別[未登錄](méi) Jasper 2009-10-05 14:44

如果要談什么重要還是不重要,那首先要牢記評(píng)判重要的標(biāo)準(zhǔn),或者說(shuō),明確自己說(shuō)的指標(biāo)針對(duì)什么問(wèn)題而言重要還是不重要。文中的觀點(diǎn)是告訴大家TFIDF在特征選擇階段不重要，而在分類(lèi)階段很重要。但有太多的朋友在辯駁時(shí)混淆了問(wèn)題的討論范圍。您也一再?gòu)?qiáng)調(diào)TFIDF值一樣的詞對(duì)分類(lèi)的影響云云，可見(jiàn)您其實(shí)也在用我的結(jié)論往另一個(gè)問(wèn)題上套。不過(guò)學(xué)習(xí)的過(guò)程大抵如此，我們一錯(cuò)再錯(cuò)，一錯(cuò)再錯(cuò)，但卻越來(lái)越好，越來(lái)越好。希望能和大家一起進(jìn)步。@eric

re: 文本分類(lèi)入門(mén)（十一）特征選擇方法之信息增益 Jasper 2009-08-08 15:47

@妞妞
可以試試卡方檢驗(yàn)（CHI Test）。

re: 10分鐘開(kāi)始使用ICTCLAS Java版[未登錄](méi) Jasper 2009-08-05 08:56

@rubby
不是的。

re: 10分鐘開(kāi)始使用ICTCLAS Java版[未登錄](méi) Jasper 2009-08-03 22:46

@Miao
哦,需要一個(gè)Apache的commons的jar包,可以去www.apache.org找到。

re: 10分鐘開(kāi)始使用ICTCLAS Java版[未登錄](méi) Jasper 2009-08-03 08:46

@Miao
查看一下自己使用的JDK版本，保證JDK5以后.另外我沒(méi)有測(cè)試過(guò)非開(kāi)源版的ICTCLAS，但是據(jù)他們的文檔和ICTCLAS4j的作者講，非開(kāi)源的版本詞庫(kù)要全得多，速度也快得多。

re: 文本分類(lèi)入門(mén)（十一）特征選擇方法之信息增益[未登錄](méi) Jasper 2009-07-20 22:03

呵呵,您再好好想想.@zhiyuan

re: Google Gadget 開(kāi)發(fā)入門(mén)（六）界面二三事[未登錄](méi) Jasper 2009-07-01 19:55

根據(jù)某公司的要求,將源碼下載去掉了.

re: 10分鐘開(kāi)始使用ICTCLAS Java版 Jasper 2009-06-09 17:32

@tttt
請(qǐng)注意,本地的Application可以找到的資源,在Web服務(wù)器中未必找得到,所以請(qǐng)?jiān)囍袸CTCLAS的詞典文件（也就是Data文件夾）放在正確的位置才可以。

re: 文本分類(lèi)入門(mén)（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別 Jasper 2009-06-05 16:56

@radar
準(zhǔn)確的說(shuō),計(jì)算權(quán)重是為了能給每篇文章一個(gè)"唯一"的身份,就跟計(jì)算指紋不是為了得到指紋數(shù)據(jù)本身,而是為了得到唯一性一樣.我們需要一種指標(biāo),這種指標(biāo)能讓計(jì)算機(jī)"看到"不同的兩篇文章確實(shí)不同,并且知道不同在哪里.只有能看到這種不同,計(jì)算機(jī)才能看出同類(lèi)文章相似在哪里.如果有一種指標(biāo),它衡量每篇文章時(shí)結(jié)果都一樣,顯然程序沒(méi)法在這種數(shù)據(jù)基礎(chǔ)上學(xué)習(xí)分類(lèi)的.因此形成向量表示實(shí)際是一個(gè)中間目的,終極的目的是為了讓文章之間看上去彼此不同,并且這種不同有所依據(jù).

re: 文本分類(lèi)入門(mén)（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別 Jasper 2009-05-02 16:47

@lianghao.lee
連您自己都同意了我的觀點(diǎn)，即認(rèn)為單純使用TFIDF值來(lái)判斷一個(gè)特征是否有區(qū)分度不夠，而應(yīng)該考慮該值在類(lèi)間的分布，這個(gè)分布情況，不管您給它起什么名字，它一定不叫TFIDF，它只是以TFIDF值為基礎(chǔ)，正如信息增益，卡方檢驗(yàn)和互信息等方法全都是以特征的文檔頻率為基礎(chǔ)一樣，它們都不叫文檔頻率方法，只有直接依據(jù)文檔頻率大小排序的方法才叫做“文檔頻率特征選擇”（而且確實(shí)有這種方法）。因?yàn)檎f(shuō)到底，我們從文本中能觀察到的量其實(shí)只有兩個(gè)：詞頻和文檔頻率，所有的方法一律以這兩個(gè)量為計(jì)算基礎(chǔ)，但不能由此把所有的方法都叫做詞頻方法或者文檔頻率方法。TFIDF也是一種很基礎(chǔ)的量（它是由詞頻和文檔頻率計(jì)算來(lái)的），同樣它也帶來(lái)了較詞頻和文檔頻率單獨(dú)使用完全不同的效果。
如果您同意這些，您就會(huì)明白我所說(shuō)的“TFIDF不能用來(lái)做特征選擇”，正是指單獨(dú)使用一個(gè)特征的TFIDF值來(lái)判斷毫無(wú)道理，卡方檢驗(yàn)完全基于文檔頻率計(jì)算，但單看文檔頻率也毫無(wú)道理（好吧，文檔頻率有那么一點(diǎn)道理，呵呵）。
另外，兩個(gè)文檔的相似度在有的分類(lèi)模型里（例如支持向量機(jī)）里完全沒(méi)有用處，您通過(guò)文檔在空間中的分布也可以看出來(lái)，一些位于類(lèi)別邊界附近的文檔，其實(shí)與另一個(gè)類(lèi)里的文檔更加相似（反而與同類(lèi)的文檔不那么相似），在這種模型中，我們僅通過(guò)它所處的位置來(lái)判斷分類(lèi)，而絲毫不受它與誰(shuí)相似的影響。相信這一點(diǎn)您一想就能明白。當(dāng)然這里所爭(zhēng)論的乃是對(duì)分類(lèi)來(lái)說(shuō)文檔相似度是否一定有用（對(duì)有的方法完全沒(méi)用），而不是說(shuō)TFIDF對(duì)判斷相似是否有用，我要說(shuō)，對(duì)文檔相似度計(jì)算來(lái)說(shuō)，TFIDF是非常有效的。

re: 文本分類(lèi)入門(mén)（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別 Jasper 2009-04-26 17:07

@lianghao.lee
就是因?yàn)椴煌娜嗽诜诸?lèi)的不同階段對(duì)“重要”的定義彼此不同，所以大家會(huì)在一項(xiàng)指標(biāo)重要還是不重要上存在分歧。注意我在談特征選擇階段特征對(duì)類(lèi)別區(qū)分度方面的“重要”，而您糾結(jié)在文章向量表示時(shí)相似度判別時(shí)的“重要”。這種混淆很常見(jiàn)，所以也不能怪您，如果您有興趣繼續(xù)在文本分類(lèi)方面深入，相信您有一天會(huì)得到不同的理解。

re: 文本分類(lèi)入門(mén)（番外篇）特征選擇與特征權(quán)重計(jì)算的區(qū)別 Jasper 2009-04-26 12:25

@koala++
如果假設(shè)各個(gè)特征項(xiàng)是獨(dú)立的，可以簡(jiǎn)單的計(jì)算每個(gè)特征的增益，然后取和。
如果假設(shè)不是獨(dú)立的，就把他們的組合看成是一個(gè)新的變量，統(tǒng)計(jì)這個(gè)新變量可能的取值，每個(gè)取值取到的概率，重復(fù)運(yùn)用信息增益的公式計(jì)算即可。

re: SVM入門(mén)（七）為何需要核函數(shù) Jasper 2009-04-19 10:08

@Lebee_leon
是，還要再回過(guò)頭來(lái)說(shuō)的。

re: 文本分類(lèi)入門(mén)（十一）特征選擇方法之信息增益 Jasper 2009-04-13 16:27

@志大才疏
遺憾的是基本沒(méi)有什么文獻(xiàn)會(huì)仔細(xì)的說(shuō)，這可能是學(xué)術(shù)論文的通病吧，總希望讀者看不懂才好。

re: 文本分類(lèi)入門(mén)（十一）特征選擇方法之信息增益 Jasper 2009-04-11 10:37

@志大才疏
注意我說(shuō)過(guò)，當(dāng)你忽略類(lèi)別的大小時(shí)用1除以類(lèi)別總數(shù)。您的做法是考慮了類(lèi)別大小的方法。

re: SVM入門(mén)（一）至（三）Refresh Jasper 2009-03-30 16:31

@swift7593
就是這個(gè)地方挺容易讓人誤解的，中間那條直線(xiàn)的表達(dá)式應(yīng)該是g(x)=0，它和g(x)可是兩回事哦。

re: SVM入門(mén)（九）松弛變量（續(xù)） Jasper 2009-03-24 15:32

@alemist
是的，還沒(méi)有寫(xiě)完，呵呵。

re: 文本分類(lèi)入門(mén)（十）特征選擇算法之開(kāi)方檢驗(yàn) Jasper 2009-03-23 15:35

@Lebee_leon
我想說(shuō)三點(diǎn):
一是負(fù)特征對(duì)某些問(wèn)題的分類(lèi)是有幫助的,例如女性的第二性征對(duì)男性來(lái)說(shuō)是負(fù)特征,但對(duì)判斷一個(gè)人是否為男性是很有幫助的,針對(duì)文本分類(lèi)來(lái)說(shuō),負(fù)特征是否表征作用比正特征弱,尚沒(méi)有定論,因此不必急著剔除掉負(fù)特征.
二是負(fù)特征實(shí)際上也很容易被看出來(lái),負(fù)特征一般特征值很大,但文檔頻率很小(因?yàn)樗淼氖腔静粫?huì)在某個(gè)類(lèi)別出現(xiàn)的詞),我們特征選擇的時(shí)候,對(duì)每個(gè)類(lèi)別也一般會(huì)先濾掉低頻詞(比如文檔頻率小于3的詞),這就剔除了很多的負(fù)特征.
三是從實(shí)驗(yàn)數(shù)據(jù)的觀察來(lái)看,特征值很大的那些特征,極少有負(fù)特征,這個(gè)理論上沒(méi)有依據(jù),純粹是觀察的結(jié)果.
綜合以上三點(diǎn),我個(gè)人覺(jué)得負(fù)特征不是一個(gè)很大的問(wèn)題,當(dāng)然如果你的系統(tǒng)追求理論上的完備性,你也可以對(duì)此做些處理.

re: 10分鐘開(kāi)始使用ICTCLAS Java版 Jasper 2009-03-22 15:24

@yjwmylm
ICTCLAS因?yàn)橛幸粋€(gè)賣(mài)錢(qián)的商業(yè)版，所以這個(gè)開(kāi)源的版本毛病還是比較多的。比如有一些詞庫(kù)中不存在的詞，就會(huì)扔空指針的錯(cuò)誤，比如“深圳”，“大阪”這樣的詞。
還有對(duì)一些特殊的字符串模式，比如單引號(hào)隔幾個(gè)字符再加一個(gè)什么什么的，就會(huì)報(bào)錯(cuò)（年代有些久遠(yuǎn)，記不太清了）。還有一些特殊的字符，也會(huì)報(bào)錯(cuò)。如果不是很重視這些偏門(mén)的東西，建議還是修改一下源代碼，把這樣的異常屏蔽下就好。

re: 文本分類(lèi)入門(mén)（十）特征選擇算法之開(kāi)方檢驗(yàn) Jasper 2009-03-21 13:12

@Lebee_leon
是這樣的，您稍微想一想就可以明白這代表什么樣的意義。

re: Google Gadget 開(kāi)發(fā)入門(mén)（六）界面二三事 Jasper 2009-03-20 13:04

@leon
不好意思，沒(méi)有明白您的意思，“返回該頁(yè)沒(méi)有發(fā)現(xiàn)”是指什么？

re: 文本分類(lèi)入門(mén)（十）特征選擇算法之開(kāi)方檢驗(yàn) Jasper 2009-03-17 19:55

@GD Chen
我其實(shí)有一節(jié)專(zhuān)門(mén)列出了文本分類(lèi)系列文章的參考文獻(xiàn)，地址是
http://www.aygfsteel.com/zhenandaci/archive/2008/05/31/204927.html

re: SVM入門(mén)（七）為何需要核函數(shù) Jasper 2009-03-13 19:51

不是您那么理解的啦，我在原文中增加了說(shuō)明，可以參考一下。

re: SVM入門(mén)（一）至（三）Refresh Jasper 2009-03-06 16:47

呵呵，您顯然忽略了我的提醒，在g(x)這個(gè)表達(dá)式中，x不是指橫坐標(biāo)，這里的x 是一個(gè)二維向量，就是我們傳統(tǒng)的(x,y)（前面這個(gè)式子里的x才是橫坐標(biāo)），您代進(jìn)去看看，這個(gè)式子即有橫坐標(biāo)，又有縱坐標(biāo)，明明是條直線(xiàn)嘛（笑）……@志大才疏

re: 復(fù)旦大學(xué)語(yǔ)料庫(kù)的一些統(tǒng)計(jì)信息Part4 開(kāi)方檢驗(yàn) Jasper 2009-02-02 13:16

我在"文本分類(lèi)入門(mén)"系列文章的第十節(jié)把開(kāi)方檢驗(yàn)詳細(xì)講了一遍,有興趣可以關(guān)注.@小年

re: Java中的字符集編碼入門(mén)（四）網(wǎng)頁(yè)文件的編碼 Jasper 2008-12-24 23:06

呵呵，想一想為什么聲明的部分是英文？因?yàn)槿魏尉幋a中英文字符總是相同的，因此無(wú)論使用什么編碼保存的文件，系統(tǒng)總是可以讀懂聲明部分（即使文件中的其他內(nèi)容一律亂碼），因此聲明提供的信息才重要。@Matthew

re: 文本分類(lèi)入門(mén)（十）特征選擇算法之開(kāi)方檢驗(yàn) Jasper 2008-11-26 23:49

哎呀呀,多虧了您這么一說(shuō),我才發(fā)現(xiàn)原來(lái)寫(xiě)好的第九節(jié)沒(méi)有貼上去,呵呵……@康橋陽(yáng)光

re: 復(fù)旦大學(xué)語(yǔ)料庫(kù)的一些統(tǒng)計(jì)信息Part 3 文檔頻率預(yù)處理 Jasper 2008-11-24 18:46

未分詞的版本整個(gè)有100兆大，您可以加我的QQ49900829，有機(jī)會(huì)在線(xiàn)傳給您。

re: 10分鐘開(kāi)始使用ICTCLAS Java版 Jasper 2008-09-23 00:13

啊，你提醒了我，文章中關(guān)于Data文件夾放置的位置是錯(cuò)的，正確的位置應(yīng)該是你建的Eclipse項(xiàng)目的文件夾下，而不是bin目錄下，這回應(yīng)該可以了吧。

re: [新聞] JRuby 1.1.2 發(fā)布 Jasper 2008-06-02 00:04

整來(lái)整去,發(fā)現(xiàn)不會(huì)個(gè)腳本語(yǔ)言不行了,用Java有時(shí)候真是大炮打蚊子.開(kāi)始學(xué)習(xí)Ruby!!呵呵

re: iReport的簡(jiǎn)單配置 Jasper 2008-03-04 10:52

請(qǐng)教一下iReport的問(wèn)題：
我在XP操作系統(tǒng)上直接安裝iReport，安裝成功，也可以打開(kāi)。
但是，在虛擬機(jī)中安裝了JDK\TOMCAT\ANT等等，并添加了一系列環(huán)境變量，再安裝iReport，反而無(wú)法打開(kāi)，報(bào)：
Could not find the main class. Program will exit.
請(qǐng)問(wèn)問(wèn)題出在哪里呢？
謝謝！

re: [rails] 我的訂餐系統(tǒng) -- 小試ruby on rails jasper 2005-10-22 11:23

session[:good] ||= Good.find(params[:id])

:代表什么？

不加“：”不行嗎？

我的評(píng)論

公告

常用鏈接

留言簿(64)

隨筆分類(lèi)

隨筆檔案

文章分類(lèi)

搜索

最新評(píng)論

閱讀排行榜

評(píng)論排行榜

Jasper's Java Jacal 嘉士伯的Java小屋
BlogJava \| 首頁(yè) \| 發(fā)新隨筆 \| 發(fā)新文章 \| 聯(lián)系 \| 聚合 \| 管理	隨筆：51 文章：2 評(píng)論：717 引用：0