這篇文章是2014年由SapientNitro廣告公司的數據分析師Myles Harrison所分享的文章,介紹它應用主成分分析(Principal Component Analysis)與K平均算法(k-means)去分析達美航空的飛機數據。
Myles Harrison從 達美航空的官方網站(Delta.com)取出客機本身的數據,以AIRBUS A330-200為例,就包含巡行航速(Cruising speed)、載客數(Accommodation)等16種可以被量化的資料,像Wi-Fi就可以用Y跟N來做表示,網站上一共提供了44架客機的數 據。
※原文中提到的客機型號為AIRBUS A319 VIP,可被量化的屬性共33種。
筆者這邊整理他分析的過程,有興趣可以回到原文去查看他所撰寫的R原始碼。
- 進行探索式資料分析(Exploratory data analysis),發現這些數據有許多正相關(Positive correlation)
- 接著採用主成分分析(Principal component analysis)進行降維的動作,找到可以解釋85%的數據的主成分。
- 最後採用K平均算法(k-means)將數據分成4種群組。
原作整理分析結果如下:
- 第1個群組只有一架飛機,就是Airbus A319 VIP,本身就是有錢人才會搭的飛機。
- 第2個群組為CRJ 100/200's、E120 、ERJ-145,屬於載客量較小的飛機。
- 剩下3跟4的群組為常見的客機,像是波音757、767等。
看到這也許有些朋友會覺得,哎呀結果看起來沒什麼特別,甚至覺得沒有管理意涵,因為這些客機組合本來就是航空公司會知道的事情,像上述的第1個群組與第2個群組用載客量就可以分辨。
但事實上原作對筆者來看,是充滿想像空間的,我們可以嘗試透過資料組合來做很多事情,筆者針對管理與工程的應用舉出兩個,譬如:
- 將乘客資料與這些數據整合一起,找到乘客群組,客製化行銷。
- 將每一台維修資料整合一起,找到經常維修的群組,加強客機的維運。
傳統的敘述統計只能幫我們找到單項或交叉的統計數據,但是資料探勘的方法卻是可以找出一堆數據組合的結果,尤其是類別型的資料。在大數據的環境下,可以組 合的資料又非常的多,因此筆者認為善用數據組合(Data matching)這樣的概念,並且搭配領域知識,相信可以挖掘到不少好商機。
最後,這篇文章與上一篇最大的不同在於不是告訴我們「做什麼」,而是「怎麼做」,因此可以作為實作的參考文章,對R程式碼有興趣朋友可以回原文觀賞。
參考資料:
PCA and K-means Clustering of Delta Aircraft
k-means clustering
本文同步刊載於Data Science Program 資料科學計畫
資料來源:資料科學實驗室
留下你的回應
以訪客張貼回應