原文標題:A Step-by-Step Guide to learn Advanced Tableau – for Data Science and Business Intelligence Professionals
作者:Pavleen Kaur ; 翻譯:李清揚 ;校對:盧苗苗;
本文共4000字,建議閱讀8分鐘。
本文藉助高階圖表建立計算深入研究資料以提取對資料的分析,並瞭解R如何與Tableau相互整合和使用。
簡介
“檢視資料。 顯示圖表。 講故事。 吸引觀眾。”
Tableau是當今資料科學和商業智慧專業人員使用的最流行的資料視覺化工具之一。 它使您能夠以互動和多彩的方式建立具有洞察力和影響力的視覺化效果圖。
它的用途不僅僅是建立傳統的圖表和圖表。 您可以使用它來挖掘可操作的資料解析,這要歸功於它提供的大量功能和自定義。
以其易用性和簡單的功能而聞名,製作如下所示的富有洞察力的儀錶盤只需點選幾下滑鼠:
在本文中,我們將看到一些超越拖放功能的高階圖表。 我們將建立計算以深入研究資料以提取對資料的分析。 我們還將看看R如何與Tableau相互整合和使用。
本文假定您掌握豐富的使用Tableau的知識,例如基本圖表形成,計算,引數等。如果您不這樣做,我會建議先參考以下文章,然後再傳回此處:
-
Tableau for Beginners – 簡化資料視覺化
https://www.analyticsvidhya.com/blog/2017/07/data-visualisation-made-easy/
-
中級Tableau指南 – 適用於資料科學和商業智慧專業人員
https://www.analyticsvidhya.com/blog/2018/01/tableau-for-intermediate-data-science/
目錄
1. 高階圖形 – 視覺化超越“顯示我”
-
運動圖
-
凹凸圖
-
甜甜圈圖表
-
瀑布圖
-
帕累託圖
2. 在Tableau中引入R程式設計
1. 高階圖形 – 視覺化超越’Show Me’
幾乎所有的Tableau使用者都知道各種基本圖形,例如介紹儀錶板中顯示的那些圖形。 這些圖表可以使用Tableau的“Show Me”功能輕鬆完成。 但由於這是一篇面向高階使用者的文章,因此我們將超越“Show Me”並探索需要額外計算的圖表。
首先,讓我們快速瀏覽一下我們將在接下來的幾節中做什麼。 以下是我們超市的銷售額和利潤的一些基本分析。 簡單的圖表可以達到與主機板中的相同的目的,但我認為您會對這些圖表的宏偉感到興奮和激動。
(https://github.com/pavleenkaur/TableauTutorial-On-AnalyticsVidhya/blob/master/Sample-Superstore.xls/)
1.1動態圖表
在開始之前,先看看Hans Rosling的世界經濟圖表展示(https://www.gapminder.org/tools/#_chart-type=bubbles)。 點選播放鍵,看到魔法在你面前展開。
有興趣自己做一個類似的圖表展示嗎? 不要擔心如何做這些動畫!你所看到的被稱為動態圖表。 使用此功能,您可以實時檢視資料中的變化。
因此,我們首先下載可在此處找到的Superstore資料集(https://github.com/pavleenkaur/TableauTutorial-On-AnalyticsVidhya/blob/master/Sample-Superstore.xls)。
現在讓趨勢線如下圖所示對你來說應該很容易:
但是本節我們首先要學習的是如何使下麵的趨勢線運動(gif動圖):
https://s3-ap-south-1.amazonaws.com/av-blog-media/wp-content/uploads/2017/08/23131759/2.gif
所以讓我們開始吧!
-
匯入您的資料集,並建立上述趨勢圖。 我們的X軸是訂單日期(月份格式),銷售額和利潤是度量值。
-
您只需將“訂單日期”拖到“頁面”功能區,然後再次更改格式以與X軸匹配。
-
將標記型別從自動更改變更為圓形。
-
轉到“顯示歷史記錄”,然後選擇“追蹤”以檢視趨勢變化。 瞧! 您的動態圖表已準備好啟動。
-
按箭頭按鈕檢視動作,更改“顯示歷史”定製項,速度項等:
1.2凹凸圖
假設你想探索Superstore各個部門的銷售額(整整一年)。 其中一種方法是:
然而備選方案如下:
雖然折線圖能夠顯示每個細分部門之間的銷售差異,但凹凸圖(上圖)給出了更清晰和簡明的相同結果圖。
這些圖表通常用於瞭解多年來特定產品的受歡迎程度如何變化。
現在讓我們嘗試自己建立一個:
1)首先,我們需要考慮度量單位,根據這些度量單位我們對我們的測量維度進行排名。 這裡我們採取的度量單位是銷售量,測量維度是部門。
2)您需要計算模組的幫助才能製作凹凸圖表。 所以快速建立一個如下所示的計算。 我們將對每個細分部門的銷售總額進行排名:
3)現在將“訂單日期”拖到列中並將格式更改為月。 在標記窗格中將“Segment”拖動到Marks Pane裡的顏色。 最後將“Rank”拖到行。
4)在你現在可以看到的圖表中,排名是根據月份數量分配的。但是,我們需要他們在細分部門的基礎上。 因此,右鍵單擊行中的排名,然後轉到編輯表格計算。
5)由於我們希望使用細分部門計算,請將配置更改為:
您將獲得的圖表看起來不像儀錶板中的圖表,因為它缺少標簽。 讓我們在雙軸(Dual Axis)的幫助下快速修複:
6)再次將排名拖到行上並重覆步驟4)和5)以得到:
您在Marks Pane中看到了Rank和Rank(2)嗎?我們將使用這些來建立帶圓圈的標簽。
7)要將上述內容轉換為雙軸圖表,請右鍵單擊第二個圖表的Rank軸並選擇雙軸。
8)在Marks Pane中,Rank或Rank(2),然後將標記型別更改為圓形而不是自動。
9)這裡的排名按降序排列。 要將其更改為升序,請右鍵單擊左側的Rank軸 – >編輯軸 – >反向比例。 對右邊的Rank軸重覆同樣的操作。
10)最後,將“銷售額”拖放到標簽 – >快速表計算 – >總計百分比上,以獲得我們期望的凹凸圖。
1.3甜甜圈圖
圓環圖是初級圖的另一種表現形式。 坦率地說,它是一個中間有一個洞的餅圖,但它有助於更加強調各個細分市場,如下所示:
讓我們瞭解這個區別的不同之處。
1)我們將從一個簡單的餅圖開始描繪每個細分部門的利潤:
2)要建立餅圖的雙軸,將measure的number of records拖動到rows兩次。 透過右鍵點選它們並選擇最小值代替預設總和來更改每個綠色藥丸的度量:
3)選擇Marks Pane中的第二個餅圖,並將其中的每個度量/維度拖出。 減小圖表的大小,並將顏色更改為白色(儘管此處未顯示):
4)要建立雙軸,右鍵單擊第二個餅圖的Y軸,然後選擇雙軸,以獲得圖表。
現在你必須明白,以上所有圖表雖然在最終外觀上都不相同,但都是從“顯示我”功能的核心圖表中獲得的。 但是等一下,它還沒有結束。 我有更多要展示給你。
1.4瀑布圖
瀑布圖的名稱來自於其類似的方向和流動。在這裡,我們繪製了Superstore多年來的執行銷售情況,您可以在2013年中和2014年初看到兩個小紅色區域,表明銷售額實際下降了,並且還有多少。
這意味著這些圖表被用來分析一個度量的累積效應,並且看它是如何作為一個整體增加和減少的。 為了更好地理解這一點,讓我們想象它。
瀑布圖是折線圖的衍生物,因此我們將從該圖開始:
註意:這裡的X軸是訂單日期(以月 – 年格式並轉換為離散型), Y軸是利潤
1)右鍵單擊綠色的Profit Pill,然後選擇Quick Table Calculation – > Running Total。
2)將標記型別從自動更改為甘特條:
3)建立一個名為’NegProfit’的計算欄位:
4)將這個NegProfit拖到Marks框架中的Size上,得到:
計算的欄位用於填寫甘特圖中的空間。 利潤中的負值將向下延伸,而正值則會向上延伸。
圖表中每個小條的長度表示利潤從一個月到下一個月的變化量。
5)最後,將利潤拖到顏色:
6)您可以繼續前進,將顏色更改為兩步變化,並清楚地檢視上升和下降:
您將獲得的圖表也可以非常容易地以條形圖的形式表示。 請註意,我在這裡將顏色分置,以使其凸顯出來:
但我相信你會同意使用瀑布圖是一種更直觀的表示資料的方式,特別是看看多年來度量的變化,例如銷售和利潤。
1.5帕累託圖
下麵我已經將一個流行的80-20資料分析原理可視化出來。 如果你還沒有聽說過它,讓我試著用例子來解釋它。我們會經常觀察到超市的大部分銷售來自少數幾種產品。
人們不能指望麵包和雞蛋與蛋糕有相同的銷售數字,對吧? 這正式被稱為80-20原則,這意味著80%的銷售額來自20%的產品。 在我們的超市裡,這個原則可以在下麵的圖表中看到,其中大部分銷售是由電話和椅子生成的:
這是一種相當流行的視覺化,帕累託圖通常用於風險管理,以確定對專案造成最大負面影響的最常見問題; 但正如我們將看到的,它也可以有其他應用程式。
讓我們看看它是如何完成的:
1)我們將從下麵的圖表開始。 這具有作為X軸的子類別和作為Y軸的銷售。 圖表按降序排列:
2)接下來,將銷售額拖放到圖表上,直到您看到綠色突出顯示的條形和最右邊的虛線軸:
3)在此處下降銷售以建立雙軸。 將第一個圖表的標記型別更改為條形圖,將第二個圖表更改為直線,最終得到:
4)右鍵單擊第二個綠色銷售藥丸,併為其新增執行總計算:
5)剩下的只是改變配色方案,並且您的帕累託圖表已準備就緒!
2.在Tableau中引入R程式設計
我喜歡Tableau的一個原因是,它不僅僅是一個工具,而且意味著只需拖放操作即可建立漂亮的圖形。隨著2013年Tableau 8.1的釋出,出現了許多新的功能。
R程式設計的引入使得更豐富和動態的視覺化得以實現,這是主要特徵之一。 R程式設計可與Tableau一起用於聚類、預測等技術。
我想透過Clustering開始對R和Tableau的探索,所以我使用了超流行的Iris Dataset(https://github.com/pavleenkaur/TableauTutorial-On-AnalyticsVidhya/blob/master/iris.csv)。 它包含不同的功能來區分3種型別的flowers,即Virginica,Setosa和Versicolor。 正如你在下麵的圖片中看到的那樣,R程式設計整合很容易建立這三種物種的叢集:
如果你有興趣,可進行一下操作。首先,深入瞭解基礎知識和安裝過程,然後深入研究視覺化問題!
以下描述了Tableau和R之間的控制流程,以實現此整合:
R指令碼作為表計算寫入Tableau,併傳送到R的R服務包。在此模組執行必要的計算並將結果傳回給Tableau。
註意:為了正確理解並使用此功能,您必須具備R及其各種語法的一些知識。 對於相同的你可以參考以下教程:
Learn Data Science in R from scratch:
https://www.analyticsvidhya.com/blog/2016/02/complete-tutorial-learn-data-science-scratch/
現在讓我們看看這個整合的步驟:
1)安裝R (https://cran.r-project.org)
2)安裝Rserve軟體包
在R命令列中執行以下命令:
3)配置Tableau以在R中執行
開啟Tableau – >幫助 – >設定和效能 – >管理R /外部連線。 使用以下預設資訊填寫欄位並選擇測試連線:
所以,現在你已經準備好了適當的配料,讓我們開始吧!
如上圖所示,您可以使用Tableau的表計算與R進行通訊:
如果您向下滾動功能串列,您將遇到以下四種情況:
當計算區域中包含這些函式時,Tableau會自動理解該指令碼適用於R.
我希望你最初興奮的製作叢集仍然存在! 我們繼續。
1)從這裡下載Iris資料集。
https://github.com/pavleenkaur/TableauTutorial-On-AnalyticsVidhya/blob/master/iris.csv
2)在Tableau中匯入資料集,並製作下圖:
3)在這裡,您可以透過不同的度量獲得總和。要獲得離散值,請轉至分析,並取消選中聚合度量,以獲取:
4)最後,要形成群集,請在標記窗格中將類維度拖到顏色上:
我們上面有一個散點圖,它顯示了分為3個不同群集的資料點群集。
現在讓我們嘗試與R一樣,並比較我們將得到的兩個視覺化。 我們將使用最常見的聚類演演算法K-Means:
1)從與上面第2點相同的散點圖開始。
2)建立一個新的計算欄位並填寫以下內容:
為了清楚起見,上述計算是:
3)最後,將新形成的Field Cluster拖放到Marks Pane中的Color,以使您的叢集準備就緒!
雖然有一些重疊,但這兩個視覺化確實看起來相當準確。
這是將R與Tableau整合的潛力的一個小要點。 它的應用程式是無限的,我相信你一定已經開始考慮可以與之互動的不同方式。
結束筆記
如果我說這就是Tableau的全部,這可能稍顯幼稚。隨著新版本的推出,新功能也將隨之推出。
不僅如此,人們總是在試驗和探索Tableau,並提出新的視覺效果。在很多部落格裡,人們也釋出了其資料實驗。可以搜尋一下。
您還可以在Tableau官方相簿頁面上查詢每週更新的視覺化影象(https://public.tableau.com/en-us/s/gallery)。 建議你繼續參考這些帖子,建立自己的視覺效果,並與社群分享。
作為一名資料探索者,保持創意並保持最佳狀態!
原文連結:https://www.analyticsvidhya.com/blog/2018/03/tableau-for-advanced-users-easy-expertise-in-data-visualisation/
譯者簡介:李清揚,清華大學工商管理研究生在讀,主修管理學。對大資料、人工智慧在經濟金融領域的應用感興趣。希望能在資料派平臺獲得大資料前沿知識,找到志同道合的朋友,一起研究和應用資料分析工具於企業管理實踐當中。
END
版權宣告:本號內容部分來自網際網路,轉載請註明原文連結和作者,如有侵權或出處有誤請和我們聯絡。
關聯閱讀:
原創系列文章:
資料運營 關聯文章閱讀:
資料分析、資料產品 關聯文章閱讀: