posts - 5,comments - 14,trackbacks - 0
          <2015年3月>
          22232425262728
          1234567
          891011121314
          15161718192021
          22232425262728
          2930311234

          常用鏈接

          留言簿(1)

          隨筆檔案

          文章檔案

          搜索

          •  

          最新評論

          閱讀排行榜

          評論排行榜

          今年過年,去一位長輩家拜年,剛好碰見他在研究股票趨勢,閑聊之下,“大數據”,竟然也從他嘴里蹦出來。真是 duang的一聲,把我嚇了一跳。大數據,真不再是只可遠觀,高大上的主了。

          大數據雖然不再飄在空中,但對大數據的爭論卻從未停過。

          何為大數據?

          大數據的概念,喧囂社會之上也有好幾年了。但具體什么是大數據,行業里也是各說不一。大狹義上來講,大數據就是巨量數據,極大量的數據。但究竟是“多大”,才叫大數據呢?也是未有一個統一的說法,一般來說,10T量級的數據量,就可以稱之為“大”數據了。而廣義上的大數據,更多是指包括數據本身在內的,一整套數據處理分析框架。縱觀眾多的何為大數據,小K以為,研究機構Gartner給的定義還是比較不錯的,也是百度百科上采用的定義:“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量的、高速增長率和多樣化的信息資產。

          這個定義還是比較好的,區分了純數據量論,也比較符合實際項目落地的情況。比如一個客戶終端偏好分析,如果在現有數據、分析模型上,已經可以99%的機會準確分析出來,那再增加大量的數據去分析,這是毫無意義的,可能由于噪音數據的增加,準確率更低也是可能的,就不應該歸入大數據的范疇,用大數據的方式去處理。目標數據要重質,而不是單純的量。

          大數據平臺化

             大數據該怎么玩?這也是一個大家熱烈討論的領域。大數據的快速發展、落地生根,可能已經超出了它的最初的含義,拓展了內涵。在數據量不斷劇增,數據資產化的趨勢下,大數據平臺化已經成為業內比較流行的一種建設方式。大數據平臺重在數據的采集、存儲、處理,重在數據能力的提供上,給應用建設提供數據支撐,而不是直接面對最終用戶。如下圖:

          大數據平臺解決了在以往技術框架內,面對大量數據時難以解決的數據采集、存儲、處理問題,并根據上層應用需求,提供了數據能力服務,支撐上層應用開發,滿足最終用戶的各類需求。

          在此,或許有朋友要糾結于:大數據平臺用什么技術建設比較好呢?目前熱門的hadoop技術?后起之秀spark?還是沉穩的MPP?諸如此類。有什么關系呢?技術是為業務服務的,技術也是優劣并存的,考慮的因素不一樣,技術選型就不一樣,沒有最好的技術,只有最合適的場景。也許,沒幾年之后,又是一片新技術的天下。

          小結

          根據IDC的研究,從2005年到2012年,全球的數據量翻了27番,約達到2.5ZB,其中僅有25%的數據是有用的,僅有3%的數據貼有標簽能被使用,僅有0.5%的數據被用于分析。大量的數據被閑置,被丟棄,價值被埋沒。隨著技術的不斷發展,數據價值的不斷體現,大數據將會成為推動未來企業發展的重要引擎。BAT知道,全世界也知道。大數據之路,任重而道遠。

          posted on 2015-03-02 10:37 kenlee14 閱讀(191) 評論(0)  編輯  收藏

          只有注冊用戶登錄后才能發表評論。


          網站導航:
           
          主站蜘蛛池模板: 资源县| 沧源| 永靖县| 循化| 潼南县| 上林县| 新和县| 饶平县| 安泽县| 长寿区| 秀山| 神农架林区| 怀远县| 邻水| 富川| 隆子县| 云林县| 涞源县| 迁西县| 汉中市| 安泽县| 班玛县| 剑河县| 习水县| 衡阳县| 安福县| 文水县| 永仁县| 湘潭市| 宁晋县| 高台县| 兰考县| 灯塔市| 志丹县| 呼伦贝尔市| 张家界市| 页游| 西平县| 蒙自县| 万全县| 新晃|