馬可波羅的夢鄉

          BlogJava 首頁 新隨筆 聯系 聚合 管理
            4 Posts :: 50 Stories :: 2 Comments :: 0 Trackbacks
          1、把零散的信息集成到數據倉庫中,對決策有巨大的好處。
          2、數據清理應該是一個繁瑣的過程。即使是數據倉庫,也不可能包含所有的數據,如果沒有解決問題的全部數據,就需要到外部獲取數據,并對這些數據進行清理,同時把這些數據集成到數據倉庫中去。
          3、經常需要對數據進行規格化操作,如使某個屬性的值在0-1區間。規格化操作的方法很多,如除以發現的最大數,或求統計均值,方差等。
          4、通過使用距離函數,名詞值也可以轉成成數字。如兩個名字相同,則值為0,兩個名字不同,則值為1。
          5、有時數據本身具備一些源自自身的映射關系,如電話號碼前的區號,郵編。學號前幾位數字可能代表該學生的入學時間等。
          6、現實生活中遇到的大部分數據集,都會包含缺失值,即missing value。
          7、數據有缺失是很正常的情形。如醫學實驗,如果動物在實驗完成之前就死掉了,有些數據就不能采集到了。數據缺失并不一定使用問號表示,也可以用超出正常值的一些特定值來表示,如使用負數和零等。即使同樣是缺失值,也可以有多種原因,可以使用不同的負值表示。。。
          8、
          posted on 2009-10-19 13:44 夢回唐朝 閱讀(120) 評論(0)  編輯  收藏 所屬分類: weka

          只有注冊用戶登錄后才能發表評論。


          網站導航:
           
          主站蜘蛛池模板: 壶关县| 乌兰浩特市| 永川市| 洛南县| 焦作市| 兰西县| 宁河县| 金门县| 东乡族自治县| 曲阜市| 金昌市| 安新县| 乌拉特后旗| 株洲市| 西吉县| 泽州县| 五寨县| 岳普湖县| 南江县| 蓝山县| 宁乡县| 将乐县| 长岭县| 阜城县| 中卫市| 新龙县| 宁乡县| 嫩江县| 依兰县| 荔波县| 万州区| 南丰县| 松阳县| 琼结县| 霍山县| 邵阳市| 宕昌县| 西城区| 平邑县| 邻水| 炉霍县|