摘要: 簡單的介紹了數據可視化的基礎,將數據進行設計可視化後,可以讓我們有一種全新的方式去認識數據,改變對數據的呈現和思考方式。那現在就讓我們開始做一份數據的可視化圖表,一步步的來看下我們如何獲取數據,以及如何進行可視化的展示。
作者:騰訊雲
上篇文章簡單的介紹了數據可視化的基礎,將數據進行設計可視化後,可以讓我們有一種全新的方式去認識數據,改變對數據的呈現和思考方式。那現在就讓我們開始做一份數據的可視化圖表,一步步的來看下我們如何獲取數據,以及如何進行可視化的展示。
在上章內容中,提到了關於【數據可視化迭代過程】的步驟,這也能看出整個過程包含的步驟,大致有:1. 確定主題– 2.數據獲得– 3.圖表選擇(表達)- 4圖表繪製。
當然了我們也可以看到可視化是要一個不斷迭代的過程,步驟之間都需要多次的迭代修改的。
確定主題
這肯定是第一步了,在做數據可視化的時候,首先你要明了你要做什麼,想要從數據獲中取什麼信息,有了目標才能明確的往下做。
那我們這次還是來做關於空氣質量PM2.5的數據展示,了解歷年來PM2.5的實際情況和發展趨勢。
數據獲得
對於全國空氣質量的數據,最權威的來源肯定是來自於中國環境監測總站(http://www.cnemc.cn/)的數據提供。但是監測總站的API提供的並不是很詳細,還有很多第三方也提供類似的API接口,比如PM25.in(http://pm25.in/),在API說明上做的很詳細,他們的數據每日更新。所以這次我們選擇PM25這個網站來獲取數據源。
我們可以看到PM25提供的內容是相當多,包括PM2.5、AQI、PM10、CO、NO2、O3等等。我們只需要PM2.5的數據,所以我們把其他不需要的數據都可以去除掉,同時把Json的數據轉換為CSV的數據格式,這裡轉換數據只是為了下一步處理方便,我這邊是選用Processing來做數據可視化處理的。如果你用D3.js,Echart來做的話,Json可能會更方便點。
圖表選擇(表達)
對於很多人(非設計師)來說數據可能容易獲取,但是像要把數據轉換成合適的圖表進行表達反而非常困難的。因為同樣的數據,用不同的圖表進行展示出來,得到的效果是完全不一樣的。在平時我們可能用到最多的就是通過Excel來做的圖表,在Excel2010的版本里面,提供了10類共53個圖表,還提供了什麼數據透視圖,自定義圖表等等,總之種類非常多。不過儘管圖表種類繁多,但其基本類型只有以下幾種:
- 曲線圖:用來反映隨時間變化的趨勢;
- 柱形圖:用來反映分類項目之間的比較,也可以用來反映時間趨勢;
- 條形圖:用來反映分類項目之間的比較;
- 散點圖:用來反映相關性或分佈關係;
- 餅圖:用來反映構成,即部分佔總體的比例;
- 地圖:用來反映區域之間的分類比較;
那知道了基礎圖表的類型,如何去做圖表的選擇呢?國外專家Andrew Abela他將圖表展示的關係分為4 類:比較、分佈、構成、聯繫。然後根據這個分類和數據的狀況給出了對應的圖表類型建議。當我們不確定使用什麼類型的圖表的時候,可以參考下這個圖。
圖表繪製
俗話說【不會擼碼的交互不是好的數據可視化設計師】,雖然現在市面上有各式各樣的可視化的方法和工具,但坦白來說【這些可視化工具都是大坑!!!】,要想做好可視化的表現,最好的方式還是需要掌握一門編程語言,只有這樣你才能最合適的表達清楚出你想傳達出來的數據信息。
這裡給各位想跳入數據可視化這個大坑的設計師們(編程大佬請無視),推荐一下Processing這個創意編程語言。
Processing是美國麻省理工學院媒體實驗室旗下美學與運算小組創造出來的(就是搞設計的人做出來的編程語言),非常容易上手,代碼邏輯也很簡單,幾段代碼就能做出十分出現效果的展示,下圖就是Processing的界面。
不過Processing沒有代碼提示的功能的,用起來還是十分痛苦的,經常是因為一個單詞寫錯了,而造成程序報錯。不過後來我發現到Subilme Text能支持Processing的編譯環境,而且能提供代碼提示功能,簡直是發現新大陸一樣,從此Processing用起來再也不費勁了。歡迎大家一起入坑Processing一起學習。
確定用Processing來實現後,我們繼續來做PM2.5的可視化展示。國家環保部將空氣質量分為六個等級,分別用綠、黃、橙、紅、紫、褐六個顏色來標註,對於著優、良、輕度污染、中度污染、重度污染和嚴重污染六個空氣質量。我們要展示歷年來PM2.5的實際情況和發展趨勢,就可以把每天的空氣質量轉換一個個不同顏色的小方格,通過顏色的區別來展示當天的PM2.5情況。
先在紙上畫一個簡單的草圖。已年為劃分,下面用小方格展示該年內每天的空氣質量是什麼等級,把當天的PM2.5數值轉換對應的顏色值。
確定方式後,開始擼代碼,代碼很簡單的,我大概編寫了40來行就完成了,代碼邏輯很簡單就是先導入數據,然後判斷當前數據的值是多少,根據不同的值賦予小方塊不同的顏色。
實現之後,看起來就是這樣子的。日期時間軸是按照1月到12月排列的,通過上面的圖示我們可以比較清楚的看到污染程度比較高的時間是集中在開頭和結尾,就是1-2月,11-12月之間,也就是每年冬天就是PM2.5污染程度高的時間。
我們繼續把成都歷史的數據可視化後來看下。我們發現12年之前成都空氣質量都還不錯的,在14年的時候,就沒有小綠格了,可見14年成都空氣質量有多差勁,15年、16年後慢慢的開始有點好轉。我們在把北京,上海和深圳的天氣拔來看看。
第一列是成都08-16年的空氣質量,第二列是北京的,第三列是上海的,第四列是深圳的。可見深圳的空氣質量完爆成都、北京和上海。幾乎全是小綠格,真是宜居好地方。而帝都北京空氣質量是這四個城市中最差的。其中14年都是上述幾個城市空氣質量最差的一年,而也是這一年央視記者柴靜從央視辭職出去開始拍攝霧霾的深度調查,在第二年2015年2月28號推出紀錄片《穹頂之下》,引發了公眾的一片嘩然,全民開始關注霧霾,政府部門也開始著手治理霧霾,15年、16年開始有所好轉。
小結
通過數據我們能看出起因,也能看到結果,這就是數據的力量。將數據可視化後,我們可以發現數據中更大的意義,最重要的還是實踐做出來,這篇文章簡單的講解了下可視化的整個過程,我們如何尋找數據,以及做出有意義的可視化圖表出來。希望更多的人興趣,一起來做數據可視化。
End.
轉貼自: 36大數據
留下你的回應
以訪客張貼回應