首頁新隨筆新文章聯系聚合

posts - 4,comments - 0,trackbacks - 0

2007年5月

>

日

一

二

三

四

五

六

29

30

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

6

7

8

9

常用鏈接

留言簿(3)

隨筆分類(4)

隨筆檔案(4)

搜索

積分與排名

積分 - 5600
排名 - 2975

閱讀排行榜

評論排行榜

2007年5月11日

關于web mining的調研報告

1．引言

Internet/Web技術的快速普及和迅猛發展，使各種信息可以以非常低的成本在網絡上獲得，正是鑒于這種，現在的用戶面臨著信息過載的問題[86]，現在的信息用戶在與web交互時存在著如下的問題：

(a.) 發現相關信息。當用戶想在web上查找特定信息而使用搜索服務時，他會發現查詢的結果大部分是不相關的東西。當前的搜索存在著第準確度和低召回率等問題[20]。(b) 在可用的web信息的基礎上生成知識。這可以看作是上個問題的子問題，一些研究[34，85，29] 側重于把web用作決策的知識庫。(c.) 信息顯示的個性化。(d.) 個性化用戶的學習。這實際上是上一個問題的特定子問題。

而 web 挖掘則能直接或間接的解決上述問題。Web挖掘指使用數據挖掘技術在WWW數據中發現潛在的、有用的模式或信息。Web挖掘研究覆蓋了多個研究領域，包括數據庫技術、信息獲取技術、統計學、人工智能中的機器學習和神經網絡等。

2．歷史發展

Web mining，這個術語是Oren Etzioni,[1]于1996年正式提出來的，這個概念提出來以后，很多研究人員在他們的文章用它來指代不同的含義， Jaideep Srivastava[2]和他的同事的定義為：web 挖掘是利用數據挖掘的技術從web 文檔或服務上自動的發現和抽取信息。根據Etzioni[41] ，web 挖掘可以分解為四個子任務：

a. 查找資源：任務是從目標Web文檔中得到數據，值得注意的是有時信息資源不僅限于在線Web文檔，還包括電子郵件、電子文檔、新聞組，或者網站的日志數據甚至是通過Web形成的交易數據庫中的數據。
b．信息選擇和預處理：任務是從取得的Web資源中剔除無用信息和將信息進行必要的整理。例如從Web文檔中自動去除廣告連接、去除多余格式標記、自動識別段落或者字段并將數據組織成規整的邏輯形式甚至是關系表。
c．歸類：在同一個站點內部或在多個站點之間進行自動進行通用模式發現。
d．模式分析：驗證、解釋上一步驟產生的模式?？梢允菣C器自動完成，也可以是與分析人員進行交互來完成。

Web 挖掘涉及到從web數據發現潛在的有用的或沒用的信息或知識的所有過程，它隱含的實現了數據知識發現的標準處理過程(KDD)[43]，可以看作是KDD在web數據上的應用擴展。目前，研究人員將web挖掘分為三個大類[2，3]：

a. web 內容挖掘。它應用數據挖掘的技術來挖掘發布在因特網上資源的內容，通常是html文件（半結構化的），無格式文本和xml文檔（結構化的）。

b．web 結構挖掘依靠web的超鏈接結構。這種圖形結構可以提供關于page rank的信息[4]或權威性[5] ，通過過濾能提高搜索的結果。

c. web用法挖掘分析用戶和web服務器的互操作結果，包括 web日志，點擊流和數據庫事務等。Web用法挖掘涉及到了隱私的問題現在引起了不少的爭論。

Fabrizio Sebastini[6]和Soumen Chakrabarti[7] 詳細的探討了web 內容挖掘的技術 Furnkranz 則對web結構挖掘進行了總結工作

3．現狀評述

Web內容挖掘和結構挖掘中，工作多集中在如下：

把web看作是一個數據庫，數據庫領域的早期研究工作集中在web的層次觀點，在半結構化的web上層置一層包含某些相關語義信息的抽象層，weblog[10]和webSql[11]正是這種基于數據庫的方法，在這個領域，最近大部分的工作重點在實現語義web。

文檔分類同樣是當前一個研究的熱點問題，早期的文檔分類工作是把文本挖掘技術直接到web數據上，但是后期的研究工作表明：充分利用web的圖形結構或以html為表現形式的半結構化內容，有助于提高分類的結果[14]，Google新聞（http://new.google.com）便是從當前的新聞信息中自動的聚合分類的.

網頁權重問題。Larry Page和他的同事提出了pagerank[4],并通過google的搜尋引擎的成功運用推廣流行，利用pagerank 爬蟲能提前計算出網頁的排序，并將其結果返回，網頁的pagerank的計算是基于該網頁對其他網頁的鏈接度。Sepandar Kamwar[14]對基本的pagerank算法進行了改進，對計算量代價有明顯的提高。但這種基本的方法并沒有考慮到鏈接的語義。聰明的做法就是利用網頁的內容來進行評定。對那些與查詢相似的鏈接給與更高的權重。Soumen Chakrabarti正是基于這種考慮提出了改進的算法[14]。實驗結果表明，這種改進比同等方法相比，效果有明顯提高。

Web用法挖掘在電子商務有許多的應用，包括：個性化，交通分析和針對性廣告等。圖形化分析工具如webviz[15]的發展使得web事務的挖掘流行起來。這個領域中的主要工作是web日志數據的預處理和從處理的數據中發現有用模式[16，17]。Etzioni[19]將web用法挖掘用在飛機票的購買應用上。其方法是根據時間挖掘出網上可用的飛機票價格以此來推薦用戶在最合適的時間來購票。Web用法挖掘還涉及到個人的隱私問題，不再敘述。

當前一個一個比較新的課題是語義web 挖掘，在語義網中，向web資源中添加語義，是通過添加基于本體的注解來實現的，但不能寄希望于人工手動完成，因為這雖然簡單但卻不不能擴展。因此我們必須通過本體學習，匹配，歸并和實例學習來自動實現注解。語義網和web 挖掘相互促進，web 挖掘能促進語義網的出現，而語義網則使得web 挖掘的效率更高。 4．發展前景預測

根據目前的研究狀況預測,今后幾年Web 挖掘研究的主要方向可能會有:

1) 在數據預處理方面,多種Web 數據的收集、結構轉換等處理技術的研究 ;
2) Web 挖掘方法和模式識別技術在構造自適應站點以及智能站點服務的個性化和性能優化方面的研究;
3) Web 知識庫的動態維護、更新,各種知識和模式的評價綜合方法的研究;
4) 基于Web 挖掘和信息檢索的,高效的、具有自動導航功能的智能搜索引擎相關技術的研究;
5) 半結構、結構的文本數據、圖形圖像數據、多媒體數據的高效挖掘算法;
6) 研究專門用于知識發現的數據挖掘語言及其標準化;
7) 研究和開發基于Web 的多層數據體系結構和智能集成系統,提供相應的查詢語言,優化和維護機制;
8) 現有的數據挖掘方法與技術的改進及其向Web 數據的擴展,挖掘算法的適應性和時效性的研究;
9) Web 文檔內的模式發現及其在信息提取、文本分析中的應用研究等;
10) Web 挖掘的相關技術在電子商務領域的應用研究等。

5．小結

不難看出 web 挖掘牽扯到太多的諸如信息檢索信息抽取數據挖掘人工智能等技術，現在的掌握的技術和時間來看，從其中的某一個點選則突破比較好。我比較傾向于web數據的收集工作。.................

網頁的自動聚合分類，向網頁自動添加標注使其體現語義的特征，都可以作為研究方向進行下去。

6．參考文獻

posted @ 2007-06-04 10:44 Gridking 閱讀(570) | 評論 (0) | 編輯收藏

IT之路在何方--淺談jim gray 的關于iT的十二個問題

IT之路在何方

一． 摘要

James Gray于1998年獲得圖靈獎。在獲獎會上，他提出了未來信息技術要解決的著名的十二個問題，他給未來IT的發展指明了研究的方向，對計算機行業的發展具有重大意義，本文在介紹他所提出的十二問題的基礎上，結合自己對IT發展的認識，對其中的一些問題給出了自己的一些想法。

二． 關鍵字 Jim Gray 十二問題 IT 發展方向 ，人工智能

三． 背景知識介紹

Jim Gray 格雷畢業于伯克萊大學，先后供職于國際商用機器（IBM）公司、微軟舊金山研究所。他曾參與建設了世界最大的天文學數據庫SloanDigitalSky -Server，其中所研究的星系從最初的100萬達到了如今的2億個，他參與設計的“世界視野望遠鏡”把天文學家的數據庫連接為一個整體。如果沒有他，那么世界大概不會是今天的樣子，自動提款機、網上購物、甚至Google Earth的問世都要推遲。

格雷“開創性的數據庫研究”為自動提款機（ATM）、機票網上預定系統和Google Earth的誕生奠定了基礎，并在1998年獲得了計算機科學領域的最高獎項——圖靈獎。

圖靈獎主要授予在計算機技術領域做出突出貢獻的個人。而這些貢獻必須對計算機業有長遠而重要的影響。他在圖靈獎的獲獎會上做了題為“What Next? A Dozen Remaining Information Technology Problems”的演講。這12個研究目標并非完全是格雷的個人看法，它們代表了眾多計算機科學家和信息學家的意見，有很廣泛的代表性，非常值得我們重視。

四．提出的十二個問題

在James Gray的演講中，他提出了未來信息技術領域需要解決的12個長遠問題。

第一個問題是：可擴展性。設計出一種硬件和軟件體系結構能夠以百萬級的比例因子工作。

其目的就是設計出一種可以無限制的硬件和軟件體系結構，但限于資金和時間等因素，比較實際的做法是使同一個計算問題由一個節點擴展到百萬個節點也就是說,僅僅通過增加更多的資源,一個應用的存儲，處理能力能夠以百萬級的比例自動增長；同時處理作業的速度和規模同樣以百萬級的比例加快。

可擴展性問題將會衍生出大型計算機系統方方面面的問題，這種系統是依靠模塊依次遞加的，每個模塊承擔計算任務的一小部分，一個模塊失效了，任務應該能自動移植到其他的模塊上去并能繼續執行。自我管理，容錯性和負載均衡仍然是當前誠待解決的挑戰

第二個問題是，圖靈測試。構造一個計算機系統使它至少能有30％的時間贏得模仿游戲。

圖靈測試是基于一種三個人玩的模仿游戲，在游戲中，一個男人和女人在一個房間中，而裁判在另一個房間中。他們三個彼此看不到對方，因此通過電子郵件聯絡，裁判向他們問5分鐘的問題從而確定哪一個是男的哪一個是女的。這本來應該是很簡單的，除非這個男的撒謊，假裝自己是女的。而這個女的盡力幫助裁判弄清事實真相。如果這個男的很會演戲的話，他可能在一半的時間內愚弄裁判，事實上，這個裁判在70%的時間內是正確的

在過去的50余年里，計算機在圖靈測試方面已經取得巨大的進步，計算機已初步具有簡單的大腦存儲和計算能力。但其中，計算機還只是充當工具和合作者而非智能機器，所以，目前的超級計算機軟件和數據庫在下一個十年里也不會通過圖靈測試。這里需要一些與現在完全不同的想法。

第三個問題語音文本。使計算機能夠聽懂并將語言轉化為文本。

第四個問題文本語音。使計算機能夠說話并將文本轉化為語言。

第五個問題同人類一樣的視覺，可以辨認物體和行為。

圖靈測試中兩個隱藏的子問題是，一是計算機要像人類一樣進行閱讀和理解，再就是能和人一樣思考可書寫。但二者都和圖靈測試一樣困難。

目前在計算機對自然語言，音樂等的鑒別有了很大的進步，演講到文本的轉化系統已經能要很好的利用了，當然這很大程度上要歸功于計算機硬件的發展，但他目前使用的算法仍得益于對自然語言的深層次的理解。其增長的速度很慢，而且詞庫也非常的有限。另一個問題是，跟定一個文本，計算機能否像人一樣對問題進行關注，這是進行人機交互的一種重要方式?；谏鲜鰡栴}的考慮，jim Gray 提出了上述三個問題

第六個問題個人memex存儲器。能夠存儲一個人看到和聽到的一切東西，同時能夠快速找回任何請求的條目。

能記錄一個人一生的所見所聞一直我們夢寐以求的事情。但這仍然有很多難點，這其中既有技術上的難點也有社會學的問題。但不管怎么說，這是一個值得研究的方向。前景非常的寬闊。

第七個問題世界memex存儲器。構建一個系統，通過給定一個文本集，可以像人類該領域的專家一樣回答關于文本的問題和對文本做出快速和準確的總結。

這其中的一個挑戰就是自動分析組織信息，一旦某個人有了問題，那么這個問題可以輸入到一個自然的接口里面去，這種結構融會了語言，姿勢圖形和其他形式借口，這種系統能根據用戶的層次提供合適的答案。這是個需要解決的任務，也許能有人工智能來完成，但它是個一個非常棒的目標，也許比計算機能像人一樣的玩虛擬游戲更有意義。

第八個問題遠程介入。讓觀察員在模擬以前發生的事件時，與當時在場的人員有同樣感覺（即遠程觀察）；或者參與者模擬正在發生的事件時，能與其他人交流，就像親臨現場一樣（即遠程出席）。

把所有事情記錄下來之所以令人感興趣的原因之一，就是能使其他人立刻看到或以后回顧。我們大多數人都發現這種“時間轉移”要比“空間轉移”更有價值。通過多角度、高保真地記錄事件，計算機可以重現從任何角度觀察到的高保真圖像，讓觀察者有完全身臨其境的感受。這項技術的挑戰性在于記錄事件后按要求生成虛擬環境，允許觀察者像實際參與者那樣體驗事件，我們把這叫做“遠程介入”。今天的電視與廣播已實現了這種方案的低質量版本，但它們完全是被動的。下一個挑戰就是允許遠程介入者與現場人員進行交流，即遠程出席。對于遠程出席，目前已存在的形式有電話、遠程電話會議和聊天室。但是，這比親臨現場的體驗要差得多。因而，人們仍然愿意經過長途跋涉以得到更真實的體驗。對遠程出席的可操作性測試之一，就是看遠程介入的學生和直接面對教師的學生的成績是否一樣好，教師與兩組學生的關系是否同樣和諧親切。

第九個問題無差錯系統。構建一個每天可以被上百萬人使用的系統而只需要一個業余人員來管理和操作。

第十個問題安全的系統。確保上面系統的服務只提供給授權者，未授權者無法得到服務。同時要能證明信息沒有被泄露。

第十一個問題永不down機。確保系統在一百年的時間內至多只有一秒鐘不可用。

第十二個問題自動編程。設計出一種特別的語言或用戶接口，它能夠(a)人們能夠非常容易地表達自己的設計思想，比現在容易1000倍；(b)計算機可以編譯;(c)能夠完整地描述所有的應用。這個系統因該能對應用進行推理，對異常和不完整的情況提出問題；但使用起來不應該很煩瑣。

這就是12個非常有趣的研究問題，每個問題都是一個長期研究的課題，這也是jim gray 向政府尋求長期資助的原因，據推測，50年后，計算機科學的發展會在每個問題的研究上都會有進步的。這些問題包括非常廣的種類：圖靈智能機提高了人機交互結構，布爾的存儲記錄，分析和總結所發生的任何事情。Babbage’s的計算機能自我變成，從不出錯因而是安全的。當然這些問題在現在看來是有些不合實際，但根據摩爾定律：每十八個月技術的發展等于之前所有的發展總和，如果摩爾定律繼續有效的話，那么上述提出的問題就有可能會變成現實的。

五．小結

我們可以看出這12個問題都是信息技術領域的一些根本性的問題。其中有很多問題是與人工智能緊密結合的。這些問題的逐步解決就是整個信息技術和信息產業不斷進步和發展過程。對這些問題的研究和解決，需要長期的投資支持。在這個過程當中，我們能夠產生新的想法，同時能夠鍛煉和培養我們的學生，政府應該提供一些資金支持。一些長期的研究項目可以包括，人機接口—使計算機能夠更加容易地與人交互；對信息的組織，總結和分析；

結合當前計算機行業發展的趨勢和Jim gray 的文章，我認為計算機智能技術將是一個熱點,尤其是與計算機網絡結合起來的智能技術將會得到前所未有的重視與發展.自然,智能技術中現在面臨的還未解決的問題將引起人們空前的關注。約翰·巴克斯把計算技術分為了四個大的發展階段，硬件、軟件、網絡和通訊、認知計算技術，他認為繼網絡和通訊之后的未來十年，認知計算技術將是下一步發展方向，即計算機能夠進行思想識別，就像人類用大腦思考一樣，這是智能技術的表現。

巴特勒·蘭普森把計算機的應用分為三個大的階段，模擬仿真、通訊和存儲、具體化，認為計算機繼通訊和存儲之后的下一步應用是具體化，包括機器人、語音等應用范圍，他還詳細列舉了兩個例子來說明具體化，一是自主駕駛，二是自動編程，這兩個例子的共同點就是要讓計算機懂得或者明白一些事情，這是計算機智能化的體現。

六． 參考文獻

[1] Graph based on data in Hans P. Moravec Robot, Mere Machines to Transcendent Mind, Oxford, 1999, ISBN 0-19-511630-5, (http://www.frc.ri.cmu.edu/~hpm/book98/) personal communication with Larry Roberts who developed the metric in 1969, and personal communication with Gordon Bell who helped analyze the data and corrected some errors.

[2] Donald E. Stokes, Pasteur’s Quadrant: Basic Science and Technological Innovation, Brookings, 1997, ISBN 0-8157-8178-4.

[3] Jim Gray . What Next? A Dozen Information-Technology Research Goals. June 1999 Technical Report MS-TR-99-50

posted @ 2007-05-18 12:58 Gridking 閱讀(1628) | 評論 (0) | 編輯收藏

研究生在人際交往中的問題

研究生是個特殊的群體，在外人看來，我們像是管在象牙塔，肯定幸福得不得了，但事實并非如此，我們總是存在這樣或那樣的問題，其中比較值得關注的就是：研究生在人際交往上還存在比較多的困擾。

這其中有其客觀原因的存在，一方面大家都來自不同的大學，四年的大學經歷造就了大家不同的學習生活的習慣和思考問題的方式，看待問題的觀點，這些分歧的存在從某種程度上影響了大家彼此的交往。再大家的年齡跨度比較大，有二十出頭的年青人，也有三十多歲成家立業者，年齡的差距，往往使大家人際交往中的代溝。年輕人總喜歡比較新潮的東西，而年齡大的喜好則與他們的不同。同樣，有些人是參加工作后來讀的研，而有些人則是直接從大學當中升上來的，缺少一定上社會經歷，這種閱歷的差異，使德我們看待問題的方式和觀點，關注問題的側重點或多或少的有所差別。而這些差別從某種程度上會妨礙我們的人際交往。

拋開這些客觀原因不講，在人際交往中，我們研究生自身也有好多問題。研究生太過于關注自身的發展和自我娛樂。特別是像我們工科的研究生，把一些學習工作的方式帶到了我們的生活中。很多問題喜好自己埋頭苦搞，很多時候只顧低頭走路，不愿抬頭看天。不會或很少放一放主動和別人交流一下自己的心得和一些想法。做學問，獨立鉆研思考是對的，但把這種方式帶到生活中來，不跟別人進行必要的聯系溝通，這會給別人造成一種難以接近的久而久之會被孤立的。特別是我們80年代后的這一批人，大部分人是獨生子女，好多人從小在家里養尊處優，心理上保持著一些優越感，再加上較強的渴望成功的心態，使得我們更關注自身的發展，而較少顧及到他人，這無疑會影響我們的交際。

過多的自我關注，使我們研究生在交往中待人接物往往不夠坦誠，仁厚和友善。而且不大愿意關心他人。研究生這個層次，人的心理都已基本成熟，每個人都有自己獨特的生活方式，不再像中學生那么可以輕易嘻嘻哈哈打成一片。從本科上到研究生的轉變，大家逐步培養自己的一個事業的概念，其做事的目的會更明確。同時壓力也自然接踵而至，實驗室的項目的進展，自己的開題，論文，無時無刻不壓著我們；需要考慮的問題也更多，從近的論文畢業，到今后社會立足、成家立業等等大多數人都在每天忙著自己的事情。很多人因為看不到明天或是不愿對現實而感到苦不堪言，更多人選擇了沉默。都快一年多了，除了自己實驗室的一些人，本班的同學都沒認全。。大家就處在實驗室這個小圈子內，很少與陌生人打交道，與人打交道的能力也分廠匱乏。久而久之，就形成惡性循環。

當然這并不是我們內心不喜歡與人交往，在前不久進行的一次心里輔導課上，在大家發言的環節上，同學們提的最多的就是要創造一個讓大家在一起彼此認識，溝通的機會。這說明我們研究生除了需要必需的邏輯思維能力和創造力外，我們還需要其他同學的關心和友情，寬容和幫助。我們也希望與身邊的每個同學無話不談，希望有很多很多的朋友。我們可以向他們分享自己的快樂，也可以宣泄自己的不平、憤怒、委屈和煩惱，可以排解心中的苦悶。我們也很愿意向別人打開自己的世界。

那么，在研究生階段，如何建立一個適合而良好的人際關系呢？我認為這固然有外在環境等因素，但更多的是內在自身的因素。我們要提高人際交往的能力就要發現自身存在的問題，只有發現了自身的不足，才能解決問題。首先要正視自我，悅納自我，要與人為善，以寬容的態度對待他人。其次對人要誠懇真切，再者，有有顆開放的心，當自己遇到困難時，要找到正確的途徑和合適的人尋求幫助，注意留心周圍的朋友的，在他們有困難時，伸出自己的雙手。只有這樣，才能提高人際交往的能力，使自己能夠全面發展，自我的價值也就更大！

posted @ 2007-05-11 21:04 Gridking 閱讀(2751) | 評論 (0) | 編輯收藏