qileilove

          blog已經轉移至github,大家請訪問 http://qaseven.github.io/

          測試大數據實施——如何區別于測試數據倉庫

           無論它是一個數據倉庫(DWH)還是一個大數據存儲系統,我們測試員關注的基本要素便是這‘數據’。在基礎水平上,數據驗證是為了在這兩種存儲系統中針對源系統涉及的數據驗證明確業務規則。這是個很容易思考的事,如果我們認識到如何測試一個DWH,我們就知道如何測試大數據存儲系統。但遺憾的是,事實并非如此!在博客中,我將會闡述一些區別在這些存儲系統和提出一個學習大數據測試的途徑。

            讓我們從下面的3 個觀點展示中查看這些區別:

            ● 數據

            ● 基礎設施

            ● 驗證工具

            數據

            在DWH 的數據與大數據存儲系統的區別是數據的4個基本特性,是數據量、數據種類、數據速率和數據值。

            現在能夠存儲在DWH系統中典型的數據是依據G,而大數據存儲系統能夠存儲&處理數據大小超過PB。

            當達到一定數據種類時,在大數據存儲系統中能夠被存儲和處理的數據類型并沒有限制。Web日志,無線射頻識別,傳感器網絡,社交網絡,互聯網文本和文件,互聯網搜索引擎,呼叫詳細記錄,天文學,大氣科學,生物學,基因學,生化學,醫學的記錄,科學研究,軍事監視,攝影檔案,視頻檔案,和大規模的電子商務的任何數據,在大存儲系統中,無論它是在可容許的運行時間內被存儲和有效處理的結構化的或者未結構化的忽略的數據。另一方面,DWH能夠存儲和處理的僅僅是結構化的數據。

            雖然存儲在DWH中的數據是通過‘批處理’,大量的數據實現也支持流數據。

            因為它的捕獲,管理和處理數據集大小的能力是超過DWH的能力,能夠派生出大數據實現的數據值/商業價值的信息是成倍大于DWH系統。

            這對測試人員意味著什么呢?

            一個DWH測試儀擁有與‘結構化’數據兼容的這種優勢。(傾向于靜態模式數據)。但大數據的測試儀可能需要與‘非結構化或者半導體結構化’數據(傾向于動態模式數據)絕大部分時間兼容。測試人員需要從商業/開發團隊那里尋找一些附加輸入關于‘如何從已知的數據派生出結構化動態數據’。

            在DWH中,當它談論到實際驗證的數據時,測試方法是良好定義的和經過時間考驗的。

            測試人員可選擇使用手動抽樣策略或從自動化測試工具里詳細的驗證策略,像Infosys Perfaware(專業的DWH測試解決方案)。但是考慮到為了驗證龐大的數據集,甚至抽樣測試在大數據驗證的情況下是有挑戰的。第三產業和自動化解決方案兩者正處于孵化期,測試大數據最好的方法是能夠下定決心來只有通過專注研發。這為測試人員提供非常多的機遇來創新、并且加倍努力來構建能夠提供測試優勢的工具,同樣的來提高測試效率。

            基礎設施

            DWH系統是基于RDBMS而大數據存儲系統是基于文件系統。當DWH系統在線性數據增長方面受到限制時,那些基于Apache安裝的大數據實現是不會受到限制,它們能夠在多個集群方面存儲數據。這個存儲是由HDFS(安裝分布式文件系統)來提供的,一個可靠的共享存儲系統能夠運用分析應用MapReduce技術。

            這對測試人員意味著什么呢?

            作為HDFS 給客戶產生力量來存儲大量的數據類型,運行整個數據集的詢問和在合理的詩句內返回結果時,它們在自己派生出的大量數據信息方面不再受到限制。應用復雜的轉換和業務規則將會是很容易的。這種力量將會通向一種數據探索的新方法。對于一個測試員,這意味著,指數增長大量的需求來進行測試。如果測試程序在可重用和測試集優化方面沒有加強,測試包將會巨大的增大,并且導致維修的災難。

            RDBMS 基于數據庫OracleSQL數據庫等)安裝在普通的文件系統中。所以,測試DWH系統沒有專門的測試環境,因為它能從DWH 被安裝在的文件系統中來操作。當它在HDFS中達到大量數據時,測試員需要一個測試環境基于自己的HDFS。測試員需要學習如何兼容HDFS而這不用于普通的文件系統。

            驗證工具

            對于DWH 系統測試的確認工具是基于SQL(結構化查詢語言)。為了比較不同的目的,這DWH 測試儀運用不是參照宏命令基準線就是基于自動化工具的成熟UI。對于大數據,并沒有定義工具。目前在安裝電子系統的可用工具范圍從純程序設計工具像MapReduce(提供JAVA、Pesl、RubyPython等代碼)到構建包裝在MapReduc上像HIVE QL或PIGlatin。

            這對測試人員意味著什么呢?

            HIVE QL和SQL并不一樣,如果他在SQL 方面有基本技能,盡管它是很容易學習的。HIVE QL為了確認目的也是在孕育期和尚未形成整個結構來從分布式文件系統存取數據。HIVE QL 僅僅適合做平面數據結構而并不能處理復雜的嵌入式的數據結構。為了處理這些,測試人員能夠運用PIGLatin,它是一個語句基礎而并不需要復雜的編碼,但是,為了編寫MapReduce 程序的需要,自從HIVE 和PIGLatin 兩個同時演變,使的專業綜合測試并沒有取消。這種形勢對于測試人員是巨大的驚人的挑戰。要么他們努力達到給他們的配置文件增加腳本編寫的技能,要么就等待他們內部的解決方案,要么外置的供應商來供應強大的自動化工具,用外緣資源在HDFS 提供簡單的接口來查詢和比照數據。

            總結

            經驗至少在WDH 中,只能夠縮短大數量測試人員在概念層從源系統到HDFS 理解提取、加載轉換數據方面學習曲線。它也并沒有提供其它別的用處。

            大數據測試人員必須從抓痕學習大數據電子系統組件。直到這時,市場演變和完全的自動化測試工具為了大數據的驗證是有效的,測試人員沒有任何選擇而是如大數據開發人員一樣,在借助大數據技術像Hadoop 獲得同種技能組合。這對于測試人員來說需要一個驚人的思維轉變,和在組織內自測試部件一樣好。

            為了競爭,在短期來看,這個組織應該投資于測試團隊的大數據具體的培訓需求,而在長期來看,應該投資于發展自動化解決方案來驗證大數據。

          posted on 2013-05-28 10:28 順其自然EVO 閱讀(1006) 評論(0)  編輯  收藏 所屬分類: DB2

          <2013年5月>
          2829301234
          567891011
          12131415161718
          19202122232425
          2627282930311
          2345678

          導航

          統計

          常用鏈接

          留言簿(55)

          隨筆分類

          隨筆檔案

          文章分類

          文章檔案

          搜索

          最新評論

          閱讀排行榜

          評論排行榜

          主站蜘蛛池模板: 内丘县| 平和县| 陆良县| 彰化市| 凤翔县| 固安县| 太原市| 衡山县| 达州市| 津南区| 宁津县| 台南县| 岢岚县| 宜城市| 繁峙县| 司法| 芜湖县| 梧州市| 塘沽区| 涞源县| 肇州县| 大宁县| 扶余县| 广宗县| 开原市| 隆回县| 河曲县| 桐城市| 体育| 巫山县| 汤原县| 南郑县| 台东县| 盐山县| 巴东县| 黄骅市| 江永县| 金川县| 精河县| 萍乡市| 云和县|