Change Dir

          先知cd——熱愛生活是一切藝術(shù)的開始

          統(tǒng)計

          留言簿(18)

          積分與排名

          “牛”們的博客

          各個公司技術(shù)

          我的鏈接

          淘寶技術(shù)

          閱讀排行榜

          評論排行榜

          讓數(shù)據(jù)鮮活起來

          ——數(shù)據(jù)是什么,不是冰冷的數(shù)字,不是躺在數(shù)據(jù)庫里,躺在硬盤上,躺在圖書館的那些塵埃,而是鮮活的東西。

          outline:

          數(shù)據(jù)可視化背景:數(shù)據(jù)+可視化 what & why

          數(shù)據(jù),不用多說,最強大的積累,世界的來源,沒有數(shù)據(jù)的積累,人類什么都不是。數(shù)據(jù)有幾大類:

          俗話說:一圖勝千言,各種感覺器官接受信息的比例是:視覺87%,聽覺7%,嗅覺3.4%,觸覺1.5%,味覺1%

          【展示各種比例數(shù)據(jù)】

          數(shù)據(jù)可視化:如何圖表展示 how

          1,時間趨勢的可視化

          時間是個天然的數(shù)據(jù)維度,我們時刻關注時間,不論數(shù)據(jù)是哪種類型,我們必然會期望看到它在這段時間內(nèi)是上升還是下降,發(fā)現(xiàn)其中的趨勢,回顧過去,超越現(xiàn)在,預測未來。

          趨勢數(shù)據(jù)分離散型和連續(xù)型,離散的數(shù)據(jù)基于事件的,一段時間一個事件就會發(fā)生若干次,比如一個賽季就會發(fā)生38場足球比賽,WDM中基于天的數(shù)據(jù)都是離散事件,比如我們統(tǒng)計crash的次數(shù);而連續(xù)型的數(shù)據(jù)是基于實時變化的,可以認為是隨著時間不斷變化的,比如溫度,會一直持續(xù)變化。總結(jié),我們?nèi)祟惗x的最小時間單位基本上在秒這個概念上,我們做數(shù)據(jù)的可以這樣去區(qū)分離散和連續(xù):如果事件在很小的時間粒度發(fā)生,比如UV這樣的,基本可以定位到秒級別,那么這是連續(xù)型數(shù)據(jù);如剛才的crash信息,因為不可能是每秒都在發(fā)生,甚至都不是每分鐘都發(fā)生,那么可以定義為離散型數(shù)據(jù)。

          --離散型:柱形圖和散點圖,當然對于非時序的分類數(shù)據(jù),離散型的數(shù)據(jù)圖展示也滿足。

          基本柱形圖:橫軸時間軸,縱軸數(shù)據(jù)軸,要注意柱形寬度,柱形間隔,柱形高度,柱形圖的視覺線索是:高度,數(shù)值越小,柱形越矮,數(shù)值越大,柱形越高。tip1:處理的數(shù)據(jù)都是正數(shù)時,請永遠讓柱形圖的數(shù)值軸從0開始,否則會讓人難以從視覺上比較各柱形的高度。如果在時間趨勢柱形圖上想表達多一個維度的概念,可以利用柱形顏色加以區(qū)分。tip2:柱形間隔選擇時要小心,如果間隔寬度和柱形寬度相近,視覺上會產(chǎn)生振動效應,給人感覺就是柱形和間隔的角色互換。

          堆疊柱形圖:在基本柱形圖上,堆疊多個矩形。如果數(shù)據(jù)存在子分類,并且各個子分類之和是有意義的,就可以使用堆疊柱形圖。注意一點,這種情況子分類不宜過多。

          散點圖:用圓點代替矩形,可能意義更明確,小巧而集中,這種表達有一種“流”的感覺。散點圖的視覺線索是:位置,通過xy坐標來觀察,通過與其他點的位置來比較。散點圖不強制要求從0開始。注意一點,數(shù)據(jù)不永遠是真實的,筆誤等各種原因都會導致數(shù)據(jù)偏離現(xiàn)實。

          --連續(xù)型:其實數(shù)據(jù)等價于離散型,區(qū)別只在表達的現(xiàn)實意義。

          點點連接:散點圖連接起來,基本折線圖,更有躍動感,默認了線性變化,也就是說從a點到b點的穩(wěn)定變化。(表示人口變化沒問題)

          臺階形:適合表達會長時間停留在某個數(shù)值上,然后突然增長或衰退的事務變化。(銀行利率)

          平滑形:數(shù)據(jù)點雜亂且趨勢不是簡單的線性穩(wěn)定趨勢,那么可以估算出一條平滑曲線,一般我們會擬合出一條樣條曲線或者貝塞爾曲線。

          2,比例的可視化(分類的可視化)

          在比例中尋求什么?最大,最小,總體分布?

          --整體中包含各個部分:占比數(shù)據(jù)非常重要。

          餅圖:像切蛋糕一樣切成若干個楔形,每個楔形代表整體的一個部分,楔形的角度代表占比(視覺線索也可以認為是面積),總和一定是100%。餅圖在表示數(shù)據(jù)時有著一些爭議,因為它不像柱形圖或者基于位置的圖形那樣精確,衡量角度或比例要比衡量長度復雜。但是如果數(shù)據(jù)塊不是特別多,餅圖是個很不錯的選擇(良好組織數(shù)據(jù),不要將一個餅圖分成太多塊)。對餅圖的一般設計是選擇好顏色,同時按照順序從12點方向開始順時針排列楔形塊。顏色的深淺代表了重點的強弱,需要強調(diào)的部分顏色要深。

          面包圈圖:中間有洞的餅圖,視覺線索不再是角度,但是跨過的弧度仍然和面積一樣可以作為視覺線索。面包圈圖中間部分適合放置標簽或者其他內(nèi)容。

          堆疊柱形圖:不僅僅用于時間趨勢數(shù)據(jù)類型,對于比例的展示,堆疊圖可以通過改變橫軸為類別軸,將柱形高度定義為單個類別的總和,內(nèi)部柱形高度代表了子分類的數(shù)值。堆疊柱形圖的表達能力是N個餅圖的和。

          板塊層級圖:treemap,一種基于面積的可視化方式,通過每一個板塊(矩形)的尺寸大小來度量。外部矩形代表父類別,而內(nèi)部矩形代表子類別。最適合顯示層級結(jié)構(gòu)和樹狀結(jié)構(gòu)的數(shù)據(jù)。

          --帶時間屬性的比例:比例加時間屬性,很自然的組合

          堆疊面積圖:水平軸時間,垂直軸是比例(100%),可以理解為按時間將一系列的堆疊柱形圖連起來。

          3,關系的可視化

          關系中尋求的就是變量之間的關聯(lián),比如一個量增加了,另一個怎么變?它們是因果關系還是關聯(lián)關系,更深入可以探求到數(shù)據(jù)的分布。

          --關聯(lián)性:聯(lián)系(correlation),發(fā)現(xiàn)事物之間的關聯(lián),如果確定關聯(lián)性,那么可以根據(jù)一項已知指標來預測另一指標。

          散點圖:表示變量之間的關系,這時的散點圖橫軸代表一個變量的數(shù)值,縱軸也代表一個變量的數(shù)值,每個點的坐標xy代表了關系。這時的散點圖讀圖方法是:從左往右,如果是上升的趨勢,那么是正相關,否則是負相關,如果雜亂無章,則不相關。

          散點圖矩陣:多個x軸,多個y軸,多個變量之間進行xy比較。

          氣泡圖:同散點圖一樣,只不過氣泡的大小表示第三個變量(比散點圖多一個維度)。tip:用圓形表示數(shù)據(jù)時,要用面積來定義尺寸,而不是半徑、直徑或周長。氣泡圖中的圓形可以被正方形等其他圖形代替。

          --分布:利用平均數(shù)、中位數(shù)、眾數(shù)、重心、線型等來判斷數(shù)據(jù)的分布。

          直方圖:等價于柱形圖,橫軸表示某個延續(xù)性變量,縱軸表示頻率或可能性,柱形高度表示柱形所在取值域出現(xiàn)的頻率或可能性,柱形寬度表示數(shù)值軸上的某個取值域,取值域應該彼此一致。一般直方圖的柱形間隔非常小或者沒有,并且英文叫做histogram,而柱形圖我們叫bar或者column。直方圖用來主要觀察分布,而不是看到每個具體的數(shù)值。比如圖像分析里有個典型的圖像顏色特征叫做顏色直方圖,就是統(tǒng)計一幅圖像的各個灰度級別的像素個數(shù)繪制的一個圖形。

          密度圖:直方圖的數(shù)值軸是延續(xù)性的,但是整個分布依然被分成了多個柱形。每個柱形代表的都是一些條目的集合。對于柱形內(nèi)部的變化,柱形圖無法表達,因此可以利用密度圖來對分布的細節(jié)變化進行可視化。基本架構(gòu)是:橫軸代表數(shù)值軸,縱軸代表可能性大小或者比例,曲線高度代表相應值發(fā)生的可能性,曲線下的面積代表整體1.

          最后還可以考慮直方圖和密度圖的結(jié)合,等價于柱狀圖和折線圖結(jié)合。

          4,空間關系的可視化

          我們一般把空間信息的尋求量化到地圖層面,基于地域維度。利用地圖做空間關系的可視化,要比用常規(guī)圖表更直接,結(jié)合地域維度使地區(qū)數(shù)據(jù)更顯而易見。同時對于個別感興趣的區(qū)域的數(shù)據(jù)可以更方便的觀察,可以讓人們專享數(shù)據(jù)。

          --具體位置:給出地點的經(jīng)緯度信息

          單純點圖:直接將經(jīng)緯度點信息標注到地圖對應位置。類似現(xiàn)實中在地圖上按圖釘。這樣的可視化只能標注出發(fā)生特定事件的地點,也就是指明了類別,維度的話只包含地域維度和事件類別維度。可以看做一維。在這個點圖上的擴展就是加入跟蹤信息,將有序的點用直線連接起來。線的長短將會成為明顯的視覺線索表明點與點之間的距離關系。

          氣泡地圖:在單純點圖的基礎上,加一個維度,表明了在發(fā)生特定類事件的地區(qū)的數(shù)值大小。

          --地區(qū):以宏觀更大范圍的匯總數(shù)據(jù)

          地區(qū)著色:以地區(qū)區(qū)域為單位,通過著色表示指標的高低。

          --跨越時間和空間:將時間維度加入空間地圖里,查看隨時間變化在地區(qū)維度上的數(shù)據(jù)指標變化。

          系列組圖:將一組地區(qū)的圖表(前面說過的點圖或者著色區(qū)域圖)按時間順序排放,隨著視線的移動(從左到右或從上到下),可以看出變化趨勢。

          刻畫變化:不是將狀態(tài)按順序展示出來,而是進行差額計算,直接將變化以著色圖的形式展現(xiàn)。使觀察更聚焦,直接看變化。

          動畫:讓數(shù)據(jù)動起來,是最直觀和吸引人的設計。

          未來:想象力

          不管怎么講,數(shù)據(jù)可視化是輔助我們拿數(shù)據(jù)講故事的最有力的武器。

          與我們結(jié)合:數(shù)據(jù)可視化是最終的展現(xiàn),數(shù)據(jù)產(chǎn)品的終極形態(tài)有兩種,一種是利用數(shù)據(jù)做強大的分析和挖掘,得到有意義的可以匯總成知識的內(nèi)容;另一種就是通過豐富的想象力用可視化形式將其展示。

          posted on 2013-05-11 13:24 changedi 閱讀(2012) 評論(0)  編輯  收藏 所屬分類: 數(shù)據(jù)

          主站蜘蛛池模板: 昭苏县| 双鸭山市| 广饶县| 博野县| 自治县| 射阳县| 监利县| 阿克陶县| 文水县| 江都市| 鸡泽县| 社会| 合川市| 城口县| 新巴尔虎左旗| 元朗区| 昂仁县| 五河县| 类乌齐县| 绥江县| 商河县| 多伦县| 阳新县| 榆树市| 大余县| 达拉特旗| 石屏县| 固安县| 松溪县| 黄梅县| 丰镇市| 五原县| 沁阳市| 宁明县| 邢台县| 米泉市| 炉霍县| 吴忠市| 隆尧县| 沙田区| 弥渡县|