qileilove

          blog已經(jīng)轉(zhuǎn)移至github,大家請?jiān)L問 http://qaseven.github.io/

          測試大數(shù)據(jù)實(shí)施——如何區(qū)別于測試數(shù)據(jù)倉庫

           無論它是一個(gè)數(shù)據(jù)倉庫(DWH)還是一個(gè)大數(shù)據(jù)存儲系統(tǒng),我們測試員關(guān)注的基本要素便是這‘數(shù)據(jù)’。在基礎(chǔ)水平上,數(shù)據(jù)驗(yàn)證是為了在這兩種存儲系統(tǒng)中針對源系統(tǒng)涉及的數(shù)據(jù)驗(yàn)證明確業(yè)務(wù)規(guī)則。這是個(gè)很容易思考的事,如果我們認(rèn)識到如何測試一個(gè)DWH,我們就知道如何測試大數(shù)據(jù)存儲系統(tǒng)。但遺憾的是,事實(shí)并非如此!在博客中,我將會闡述一些區(qū)別在這些存儲系統(tǒng)和提出一個(gè)學(xué)習(xí)大數(shù)據(jù)測試的途徑。

            讓我們從下面的3 個(gè)觀點(diǎn)展示中查看這些區(qū)別:

            ● 數(shù)據(jù)

            ● 基礎(chǔ)設(shè)施

            ● 驗(yàn)證工具

            數(shù)據(jù)

            在DWH 的數(shù)據(jù)與大數(shù)據(jù)存儲系統(tǒng)的區(qū)別是數(shù)據(jù)的4個(gè)基本特性,是數(shù)據(jù)量、數(shù)據(jù)種類、數(shù)據(jù)速率和數(shù)據(jù)值。

            現(xiàn)在能夠存儲在DWH系統(tǒng)中典型的數(shù)據(jù)是依據(jù)G,而大數(shù)據(jù)存儲系統(tǒng)能夠存儲&處理數(shù)據(jù)大小超過PB。

            當(dāng)達(dá)到一定數(shù)據(jù)種類時(shí),在大數(shù)據(jù)存儲系統(tǒng)中能夠被存儲和處理的數(shù)據(jù)類型并沒有限制。Web日志,無線射頻識別,傳感器網(wǎng)絡(luò),社交網(wǎng)絡(luò),互聯(lián)網(wǎng)文本和文件,互聯(lián)網(wǎng)搜索引擎,呼叫詳細(xì)記錄,天文學(xué),大氣科學(xué),生物學(xué),基因?qū)W,生化學(xué),醫(yī)學(xué)的記錄,科學(xué)研究,軍事監(jiān)視,攝影檔案,視頻檔案,和大規(guī)模的電子商務(wù)的任何數(shù)據(jù),在大存儲系統(tǒng)中,無論它是在可容許的運(yùn)行時(shí)間內(nèi)被存儲和有效處理的結(jié)構(gòu)化的或者未結(jié)構(gòu)化的忽略的數(shù)據(jù)。另一方面,DWH能夠存儲和處理的僅僅是結(jié)構(gòu)化的數(shù)據(jù)。

            雖然存儲在DWH中的數(shù)據(jù)是通過‘批處理’,大量的數(shù)據(jù)實(shí)現(xiàn)也支持流數(shù)據(jù)。

            因?yàn)樗牟东@,管理和處理數(shù)據(jù)集大小的能力是超過DWH的能力,能夠派生出大數(shù)據(jù)實(shí)現(xiàn)的數(shù)據(jù)值/商業(yè)價(jià)值的信息是成倍大于DWH系統(tǒng)。

            這對測試人員意味著什么呢?

            一個(gè)DWH測試儀擁有與‘結(jié)構(gòu)化’數(shù)據(jù)兼容的這種優(yōu)勢。(傾向于靜態(tài)模式數(shù)據(jù))。但大數(shù)據(jù)的測試儀可能需要與‘非結(jié)構(gòu)化或者半導(dǎo)體結(jié)構(gòu)化’數(shù)據(jù)(傾向于動態(tài)模式數(shù)據(jù))絕大部分時(shí)間兼容。測試人員需要從商業(yè)/開發(fā)團(tuán)隊(duì)那里尋找一些附加輸入關(guān)于‘如何從已知的數(shù)據(jù)派生出結(jié)構(gòu)化動態(tài)數(shù)據(jù)’。

            在DWH中,當(dāng)它談?wù)摰綄?shí)際驗(yàn)證的數(shù)據(jù)時(shí),測試方法是良好定義的和經(jīng)過時(shí)間考驗(yàn)的。

            測試人員可選擇使用手動抽樣策略或從自動化測試工具里詳細(xì)的驗(yàn)證策略,像Infosys Perfaware(專業(yè)的DWH測試解決方案)。但是考慮到為了驗(yàn)證龐大的數(shù)據(jù)集,甚至抽樣測試在大數(shù)據(jù)驗(yàn)證的情況下是有挑戰(zhàn)的。第三產(chǎn)業(yè)和自動化解決方案兩者正處于孵化期,測試大數(shù)據(jù)最好的方法是能夠下定決心來只有通過專注研發(fā)。這為測試人員提供非常多的機(jī)遇來創(chuàng)新、并且加倍努力來構(gòu)建能夠提供測試優(yōu)勢的工具,同樣的來提高測試效率。

            基礎(chǔ)設(shè)施

            DWH系統(tǒng)是基于RDBMS而大數(shù)據(jù)存儲系統(tǒng)是基于文件系統(tǒng)。當(dāng)DWH系統(tǒng)在線性數(shù)據(jù)增長方面受到限制時(shí),那些基于Apache安裝的大數(shù)據(jù)實(shí)現(xiàn)是不會受到限制,它們能夠在多個(gè)集群方面存儲數(shù)據(jù)。這個(gè)存儲是由HDFS(安裝分布式文件系統(tǒng))來提供的,一個(gè)可靠的共享存儲系統(tǒng)能夠運(yùn)用分析應(yīng)用MapReduce技術(shù)。

            這對測試人員意味著什么呢?

            作為HDFS 給客戶產(chǎn)生力量來存儲大量的數(shù)據(jù)類型,運(yùn)行整個(gè)數(shù)據(jù)集的詢問和在合理的詩句內(nèi)返回結(jié)果時(shí),它們在自己派生出的大量數(shù)據(jù)信息方面不再受到限制。應(yīng)用復(fù)雜的轉(zhuǎn)換和業(yè)務(wù)規(guī)則將會是很容易的。這種力量將會通向一種數(shù)據(jù)探索的新方法。對于一個(gè)測試員,這意味著,指數(shù)增長大量的需求來進(jìn)行測試。如果測試程序在可重用和測試集優(yōu)化方面沒有加強(qiáng),測試包將會巨大的增大,并且導(dǎo)致維修的災(zāi)難。

            RDBMS 基于數(shù)據(jù)庫OracleSQL數(shù)據(jù)庫等)安裝在普通的文件系統(tǒng)中。所以,測試DWH系統(tǒng)沒有專門的測試環(huán)境,因?yàn)樗軓腄WH 被安裝在的文件系統(tǒng)中來操作。當(dāng)它在HDFS中達(dá)到大量數(shù)據(jù)時(shí),測試員需要一個(gè)測試環(huán)境基于自己的HDFS。測試員需要學(xué)習(xí)如何兼容HDFS而這不用于普通的文件系統(tǒng)。

            驗(yàn)證工具

            對于DWH 系統(tǒng)測試的確認(rèn)工具是基于SQL(結(jié)構(gòu)化查詢語言)。為了比較不同的目的,這DWH 測試儀運(yùn)用不是參照宏命令基準(zhǔn)線就是基于自動化工具的成熟UI。對于大數(shù)據(jù),并沒有定義工具。目前在安裝電子系統(tǒng)的可用工具范圍從純程序設(shè)計(jì)工具像MapReduce(提供JAVA、Pesl、Ruby、Python等代碼)到構(gòu)建包裝在MapReduc上像HIVE QL或PIGlatin。

            這對測試人員意味著什么呢?

            HIVE QL和SQL并不一樣,如果他在SQL 方面有基本技能,盡管它是很容易學(xué)習(xí)的。HIVE QL為了確認(rèn)目的也是在孕育期和尚未形成整個(gè)結(jié)構(gòu)來從分布式文件系統(tǒng)存取數(shù)據(jù)。HIVE QL 僅僅適合做平面數(shù)據(jù)結(jié)構(gòu)而并不能處理復(fù)雜的嵌入式的數(shù)據(jù)結(jié)構(gòu)。為了處理這些,測試人員能夠運(yùn)用PIGLatin,它是一個(gè)語句基礎(chǔ)而并不需要復(fù)雜的編碼,但是,為了編寫MapReduce 程序的需要,自從HIVE 和PIGLatin 兩個(gè)同時(shí)演變,使的專業(yè)綜合測試并沒有取消。這種形勢對于測試人員是巨大的驚人的挑戰(zhàn)。要么他們努力達(dá)到給他們的配置文件增加腳本編寫的技能,要么就等待他們內(nèi)部的解決方案,要么外置的供應(yīng)商來供應(yīng)強(qiáng)大的自動化工具,用外緣資源在HDFS 提供簡單的接口來查詢和比照數(shù)據(jù)。

            總結(jié)

            經(jīng)驗(yàn)至少在WDH 中,只能夠縮短大數(shù)量測試人員在概念層從源系統(tǒng)到HDFS 理解提取、加載轉(zhuǎn)換數(shù)據(jù)方面學(xué)習(xí)曲線。它也并沒有提供其它別的用處。

            大數(shù)據(jù)測試人員必須從抓痕學(xué)習(xí)大數(shù)據(jù)電子系統(tǒng)組件。直到這時(shí),市場演變和完全的自動化測試工具為了大數(shù)據(jù)的驗(yàn)證是有效的,測試人員沒有任何選擇而是如大數(shù)據(jù)開發(fā)人員一樣,在借助大數(shù)據(jù)技術(shù)像Hadoop 獲得同種技能組合。這對于測試人員來說需要一個(gè)驚人的思維轉(zhuǎn)變,和在組織內(nèi)自測試部件一樣好。

            為了競爭,在短期來看,這個(gè)組織應(yīng)該投資于測試團(tuán)隊(duì)的大數(shù)據(jù)具體的培訓(xùn)需求,而在長期來看,應(yīng)該投資于發(fā)展自動化解決方案來驗(yàn)證大數(shù)據(jù)。

          posted on 2013-05-28 10:28 順其自然EVO 閱讀(1007) 評論(0)  編輯  收藏 所屬分類: DB2

          <2013年5月>
          2829301234
          567891011
          12131415161718
          19202122232425
          2627282930311
          2345678

          導(dǎo)航

          統(tǒng)計(jì)

          常用鏈接

          留言簿(55)

          隨筆分類

          隨筆檔案

          文章分類

          文章檔案

          搜索

          最新評論

          閱讀排行榜

          評論排行榜

          主站蜘蛛池模板: 武穴市| 衢州市| 彩票| 马边| 晋江市| 故城县| 巧家县| 襄城县| 鹤岗市| 湘潭市| 聂拉木县| 砀山县| 淳化县| 高淳县| 海林市| 四子王旗| 海伦市| 临洮县| 临沧市| 定西市| 志丹县| 湘潭市| 凉城县| 柏乡县| 渭南市| 闽清县| 宽甸| 建水县| 义马市| 新竹县| 平原县| 中超| 东阿县| 丁青县| 开原市| 和平县| 万山特区| 迁安市| 仪征市| 嘉鱼县| 伊川县|