馬可波羅的夢鄉

          BlogJava 首頁 新隨筆 聯系 聚合 管理
            4 Posts :: 50 Stories :: 2 Comments :: 0 Trackbacks
          1、把零散的信息集成到數據倉庫中,對決策有巨大的好處。
          2、數據清理應該是一個繁瑣的過程。即使是數據倉庫,也不可能包含所有的數據,如果沒有解決問題的全部數據,就需要到外部獲取數據,并對這些數據進行清理,同時把這些數據集成到數據倉庫中去
          3、經常需要對數據進行規格化操作,如使某個屬性的值在0-1區間。規格化操作的方法很多,如除以發現的最大數,或求統計均值,方差等。
          4、通過使用距離函數,名詞值也可以轉成成數字。如兩個名字相同,則值為0,兩個名字不同,則值為1。
          5、有時數據本身具備一些源自自身的映射關系,如電話號碼前的區號,郵編。學號前幾位數字可能代表該學生的入學時間等。
          6、現實生活中遇到的大部分數據集,都會包含缺失值,即missing value
          7、數據有缺失是很正常的情形。如醫學實驗,如果動物在實驗完成之前就死掉了,有些數據就不能采集到了數據缺失并不一定使用問號表示,也可以用超出正常值的一些特定值來表示,如使用負數和零等。即使同樣是缺失值,也可以有多種原因,可以使用不同的負值表示。。。
          8、
          posted on 2009-10-19 13:44 夢回唐朝 閱讀(121) 評論(0)  編輯  收藏 所屬分類: weka

          只有注冊用戶登錄后才能發表評論。


          網站導航:
           
          主站蜘蛛池模板: 将乐县| 新化县| 宜春市| 开平市| 华容县| 兰坪| 水富县| 建阳市| 绥阳县| 麟游县| 平乡县| 湖州市| 伊川县| 神农架林区| 伊金霍洛旗| 海南省| 通城县| 米易县| 蓬莱市| 汤原县| 左云县| 肃北| 南宁市| 蛟河市| 晋州市| 谷城县| 成安县| 那曲县| 桃江县| 马边| 余干县| 斗六市| 安阳市| 西安市| 方山县| 崇义县| 济宁市| 大埔县| 崇文区| 怀柔区| 天水市|