posts - 59,  comments - 323,  trackbacks - 0

          記錄MSN上與北京姜偉的對話: 

          jiangwei說:
          主題標(biāo)引其實(shí)是我們的副業(yè),不過進(jìn)展很快,昨天又把主題關(guān)聯(lián)做完了,效果還不錯(cuò)。
          jiangwei說:
          其實(shí)現(xiàn)在聚類算法挺多的,我們試了幾種,各有優(yōu)缺點(diǎn),現(xiàn)在準(zhǔn)備根據(jù)項(xiàng)目的需要,選擇一種給用戶。
          莊表偉 說:
          哦,我那天還想到一個(gè)思路,我一直認(rèn)為原來的主題詞那樣的“用、代、屬、分、參、族”的結(jié)構(gòu)實(shí)在是過于復(fù)雜了。
          jiangwei說:
          愿聞其詳
          莊表偉 說:
          于是我就想,能不能以這樣一種方式來定義主題詞:
          1、所有的主題詞,都是平行的,沒有高低之分
          2、主題詞之間,只有兩個(gè)關(guān)系:相似度、相關(guān)度;
          3、所有相似度與相關(guān)度的數(shù)據(jù),都是從人們自行定義的tags情況計(jì)算得來的
          4、根據(jù)詞頻統(tǒng)計(jì),計(jì)算出推薦用詞
          莊表偉 說:
          然后,專家就可以休息了
          jiangwei說:
          哈哈,有意思的想法,我仔細(xì)想想。
          jiangwei說:
          所有相似度與相關(guān)度的數(shù)據(jù),都是從人們自行定義的tags情況計(jì)算得來的。我覺得這個(gè)最難。

          莊表偉 說:
          有一個(gè)網(wǎng)站你知道嗎?
          http://del.icio.us/
          jiangwei說:
          知道
          莊表偉 說:
          同一篇文章,有多人收錄,每個(gè)人各自獨(dú)立的設(shè)置自己的tags
          莊表偉 說:
          相似度,就是“兩個(gè)tags,分別被不同的用戶,用于同一篇文章的概率”
          相關(guān)度,就是“兩個(gè)tags,被同時(shí)用于一篇文章的概率”
          jiangwei說:
          我當(dāng)時(shí)同keso爭論的就是如果同一個(gè)概念,如果不采用受控語言來表達(dá),如何被廣大用戶解析和理解的問題。
          莊表偉 說:
          比如一篇文章,一個(gè)人定義的tags是:“軟件、Windows”,另一個(gè)人定義的tags是:“編程、Windows”
          莊表偉 說:
          那么,軟件與windows之間,編程與windows之間,都有了相關(guān)度
          莊表偉 說:
          而在軟件與編程之間,就有了相似度
          jiangwei說:
          這需要一個(gè)中間橋梁,你這里的是windows,如果用戶有的用windows,有的用視窗,有的用微軟平臺(tái),有的用window,有的用windowsxp,等等,怎么辦?
          莊表偉 說:
          因?yàn)槭嵌嗳耸珍洠裕陀幸粋€(gè)詞頻的數(shù)據(jù),對外展示一篇文章的主題詞時(shí),就顯示為用戶最多用戶選擇的,也即是推薦詞庫中的詞了。
          莊表偉 說:
          在民主與集中之間,可以有一個(gè)算法的橋梁,并不是絕對不同的
          jiangwei說:
          我看了365key,感覺里面的tags還沒有真正發(fā)揮作用。
          莊表偉 說:
          http://del.icio.us/
          干凈很多,非常舒服,keso自然是不用的
          jiangwei說:
          365key那個(gè)網(wǎng)站我感覺黃賭毒太多,真想不到后臺(tái)是劉韌和keso他們。
          莊表偉 說:
          唉,那是因?yàn)樵谝粋€(gè)“追求點(diǎn)擊率”的國家
          莊表偉 說:
          365key有兩個(gè)排行榜,一個(gè)是收藏榜,一個(gè)是點(diǎn)擊率榜,如果只有收藏榜的話,365key就干凈了
          莊表偉 說:
          但是,他們哪里舍得去掉這么個(gè)點(diǎn)擊榜呢?
          莊表偉 說:
          http://spaces.msn.com/members/zbw25/Blog/cns!1pA6-3FOo9yNp_4lmEHxdDqA!836.entry
          jiangwei說:
          我現(xiàn)在有想法將365key結(jié)合我們的東西用于政府網(wǎng)站平臺(tái)中,你覺得前景如何?
          莊表偉 說:
          這是寫的一篇新的blog,里面也有一些創(chuàng)意的
          莊表偉 說:
          那還不如將RSS、tags,引入政府內(nèi)部網(wǎng)呢
          jiangwei說:
          是的,就是這個(gè)思路,rss、tag
          莊表偉 說:
          但是是用于內(nèi)部網(wǎng),就是給內(nèi)網(wǎng)的公務(wù)員、領(lǐng)導(dǎo)們看的
          莊表偉 說:
          還有一個(gè)好的東西,也可以引入政府內(nèi)網(wǎng),就是像baidu新聞,那樣的RSS關(guān)鍵詞訂閱。
          jiangwei說:
          我們想得完全一樣啊,這個(gè)東西就是我們即將用于北京市公務(wù)員門戶和北京市領(lǐng)導(dǎo)決策系統(tǒng)中的東西。
          莊表偉 說:

          jiangwei說:
          思路同你是完全相同的
          莊表偉 說:
          這個(gè)東西,非常的Web2.0啊
          莊表偉 說:
          推向公眾,我認(rèn)為,也是能夠賺大錢的。
          jiangwei說:
          是的,我就是想把web2.0用于這兩個(gè)項(xiàng)目,看看實(shí)際效果到底如何
          jiangwei說:
          這個(gè)項(xiàng)目的中標(biāo)單位,################
          jiangwei說:
          但是他們都會(huì)用我們的主題標(biāo)引和主題關(guān)聯(lián)技術(shù)
          jiangwei說:
          其中一個(gè)應(yīng)用是每天抓取網(wǎng)上的新聞,然后聚類和關(guān)聯(lián),給領(lǐng)導(dǎo)和公務(wù)員看。
          莊表偉 說:
          不錯(cuò)的
          jiangwei說:
          抓新聞的那家號(hào)稱巨牛,專門抓動(dòng)態(tài)網(wǎng)頁和數(shù)據(jù)庫
          jiangwei說:
          我們下周就要聯(lián)調(diào)了
          莊表偉 說:
          呵呵,已經(jīng)快做完了呀
          jiangwei說:
          但是我覺得信息可視化這方面還沒有做好,我準(zhǔn)備在這上面再下下功夫
          莊表偉 說:
          信息可視化?
          jiangwei說:
          就是如何圖形化地展現(xiàn)這些信息及其關(guān)聯(lián)
          jiangwei說:
          包括后臺(tái)對這些新聞的統(tǒng)計(jì)和分析
          jiangwei說:
          比如:一周新聞關(guān)注熱點(diǎn),一周公務(wù)員關(guān)注熱點(diǎn)之類的。
          莊表偉 說:
          http://home.wangjianshuo.com/cn/20050616_ajax_eeaec.htm
          莊表偉 說:
          給你看個(gè)blog
          jiangwei說:
          這些都很有啟發(fā),你有這么多創(chuàng)意,干嗎不自己寫一個(gè)結(jié)合上述優(yōu)點(diǎn)的東東出來。
          莊表偉 說:
          唉,人的精力是有限的呀
          莊表偉 說:
          現(xiàn)在有出版社在約我寫一本AJAX新手入門的書,正在努力寫作過程中
          jiangwei說:
          希望早日拜讀大作。其實(shí)我們的精力也很有限,都放到中文智能處理應(yīng)用領(lǐng)域了。其實(shí)這些創(chuàng)意從技術(shù)上看都不難實(shí)現(xiàn),但是如何整合應(yīng)用,如何被大多數(shù)人(不是少數(shù)精英)接受,就不是那么容易了,我現(xiàn)在也只是想在下范圍(政府內(nèi)網(wǎng))中嘗試一下。
          莊表偉 說:
          我們大概會(huì)在3月以前寫完,具體什么時(shí)候出來就不知道了。
          莊表偉 說:
          王建碩的那個(gè)隨手標(biāo)注的AJAX應(yīng)用,倒是很值得引入政府內(nèi)部網(wǎng),在Web頁面上,隨手劃劃,就能批注了。
          jiangwei說:
          是的,而且實(shí)現(xiàn)起來也不難。
          莊表偉 說:
          是啊,領(lǐng)導(dǎo)們肯定會(huì)喜歡的
          jiangwei說:
          但是在政府里面的應(yīng)用,有很多不是技術(shù)問題,就比如這個(gè),我腦子里面想的就不僅僅是好玩,而是它到底給政府工作會(huì)帶來什么
          莊表偉 說:
          能夠統(tǒng)計(jì)到“關(guān)注點(diǎn)與關(guān)注程度”
          jiangwei說:
          王建碩是365key的作者嗎?
          莊表偉 說:
          不是呀,他是kijiji的創(chuàng)辦者
          jiangwei說:
          現(xiàn)在在北京嗎?我看了他的blog,覺得同你一樣,很有深度啊
          莊表偉 說:
          呵呵,應(yīng)該是在上海的
          jiangwei說:
          可惜可惜,不能當(dāng)面交流請教
          莊表偉 說:
          他是一個(gè)很出名的blogger,比我出名太多了
          jiangwei說:
          看材料他在微軟干過6年
          莊表偉 說:
          是啊,牛人
          莊表偉 說:
          http://forum.javaeye.com/viewtopic.php?t=15308
          莊表偉 說:
          這好這里有一個(gè)我寫的blog,還有人家的評(píng)論
          jiangwei說:
          里面的“互助式搜索”,提法真好!!
          莊表偉 說:

          jiangwei說:
          “inverted table中 每個(gè)詞,每個(gè)場景 每篇文檔都是獨(dú)立的”這是現(xiàn)有搜索問題的實(shí)質(zhì)。
          jiangwei說:
          也就是沒有語境
          jiangwei說:
          全新的客戶端軟件+全新的搜索服務(wù)模式+互助式的搜索協(xié)作機(jī)制=下一代搜索技術(shù),完全同意。
          莊表偉 說:
          哈哈,總算是找到知音了
          jiangwei說:
          因?yàn)槲乙彩沁@樣想的,也找到知音了
          莊表偉 說:
          弄一個(gè)這樣的軟件,咱們就能成為下一個(gè)Google!!
          jiangwei說:
          是很有可能的
          jiangwei說:
          “標(biāo)記主題詞看起來可行, 但實(shí)際上我想難度很大.
          并不是所有用戶對這種標(biāo)記主題詞的"貢獻(xiàn)"感興趣.”你對這個(gè)怎么看?
          莊表偉 說:
          這就要用到你們的智能輔助標(biāo)引了
          莊表偉 說:
          用戶如果不想自己動(dòng)腦子的,只需要認(rèn)可機(jī)器的選擇即可
          jiangwei說:
          這是知識(shí)管理的一個(gè)問題,每人都希望得到別人的,但是卻不愿奉獻(xiàn)自己的。
          莊表偉 說:
          但是,他總是希望能夠管理自己的知識(shí)的
          莊表偉 說:
          為了管理自己的知識(shí)而設(shè)置tags,不只是貢獻(xiàn)給別人
          jiangwei說:
          我現(xiàn)在在設(shè)想一種機(jī)制,奉獻(xiàn)得越多,得到的越多。也就是說,你奉獻(xiàn)的tag數(shù)量越多,被引用得越多,你越有能力查詢到更多的人和信息。
          莊表偉 說:
          這在公眾中大概可行,在政府中肯定不可行
          莊表偉 說:
          奉獻(xiàn)tags數(shù)量最多的秘書,權(quán)限不夠
          jiangwei說:
          是的,我感覺是這可能是一種與google和百度現(xiàn)在的利潤模式不同的商業(yè)模式。
          莊表偉 說:
          對的,我們可以給他一個(gè)新的名字,叫做“社會(huì)化搜索”
          莊表偉 說:
          也可以縮寫為SNS
          jiangwei說:
          我們的最新版本中,已經(jīng)加入了搜索的功能,現(xiàn)在我們對外介紹的時(shí)候,有時(shí)候稱為“智能搜索客戶端”
          jiangwei說:
          不是可以強(qiáng)調(diào)標(biāo)引功能
          jiangwei說:
          在這種方式下,用戶實(shí)際上是用文章找文章。我稱為“文索未文”
          莊表偉 說:
          我想起來了,你當(dāng)時(shí)的那個(gè)PPT,用了N多自造成語,實(shí)在是精彩
          jiangwei說:
          實(shí)踐證明,盡管現(xiàn)在還是調(diào)用的google和百度,但是精度和相關(guān)度確實(shí)很高。
          莊表偉 說:
          能夠理解
          jiangwei說:
          如果google和百度能夠針對這個(gè)技術(shù)進(jìn)行優(yōu)化或者在排序策略上進(jìn)行調(diào)整,效果肯定會(huì)非常好。我自己現(xiàn)在用luccent檢索,就是想用試驗(yàn)證明這點(diǎn)。
          莊表偉 說:
          你寫不寫blog的?
          jiangwei說:
          不寫
          莊表偉 說:
          唉,可惜啊
          jiangwei說:
          好的想法都是在msn上同朋友交流的。
          jiangwei說:
          原來知識(shí)管理網(wǎng)站有個(gè)朋友讓我寫,我發(fā)覺還是不習(xí)慣。
          莊表偉 說:
          blog不是寫文章,而是把自己的想法記下來
          莊表偉 說:
          隨時(shí)想到了,就記一點(diǎn),漸漸的就寫習(xí)慣了
          jiangwei說:
          其實(shí)我在搜索、標(biāo)引、信息可視化、知識(shí)管理和數(shù)據(jù)挖掘上,是有很多想法的。
          莊表偉 說:
          甚至我有個(gè)朋友,自己的BLOG上,都是貼的MSN對話
          jiangwei說:
          呵呵,你也可以貼咱們的對話啊,我沒有意見。
          莊表偉 說:
          對于以后整理自己的思路,很有幫助的

          posted on 2006-01-14 23:48 讀書、思考、生活 閱讀(432) 評(píng)論(0)  編輯  收藏

          只有注冊用戶登錄后才能發(fā)表評(píng)論。


          網(wǎng)站導(dǎo)航:
           
          <2006年1月>
          25262728293031
          1234567
          891011121314
          15161718192021
          22232425262728
          2930311234

          常用鏈接

          留言簿(20)

          隨筆檔案

          友情BLOG

          搜索

          •  

          最新評(píng)論

          閱讀排行榜

          評(píng)論排行榜

          主站蜘蛛池模板: 和硕县| 胶南市| 阿巴嘎旗| 温州市| 漳州市| 芒康县| 泽州县| 海盐县| 香格里拉县| 江源县| 南丰县| 稷山县| 铜陵市| 鄂州市| 札达县| 南部县| 沾化县| 磐石市| 班戈县| 东方市| 台前县| 榆树市| 隆安县| 固原市| 兰溪市| 永平县| 奉贤区| 南投市| 凤城市| 惠州市| 丽江市| 锡林浩特市| 墨江| 贵定县| 兴隆县| 北流市| 洪雅县| 马尔康县| 中宁县| 保德县| 彩票|