摘要: 一想數據管理世界中的那個偉大的存在–數據倉庫吧。在過去的二十年中,儘管其他的系統和軟件在許許多多的迭代、變革中演進,甚至完全被新模型所拋棄,數據倉庫這個老骨幹卻安然屹立。她可能會偷偷地給自己的面頰,皺紋整容,也可能會激起一些不那麼令人深刻的模仿,但是沒有什麼能長期的吸引她的注意力。 直到現在。自從Hadoop出現在舞台上之後,一直有人嘀咕說,這個閃亮的新星正在為一些最好的數據管理角色提供服務–這些角色就是,在幾年前,數據倉庫已穩操勝券。 但是現在真的到了數據倉庫要退休的時候了嗎?Hadoop甚至想要進入她的鞋子裡嗎?還有誰在後面等著呢? 讓我們仔細看看這些據報導的競爭對手的全部本領。
本文為36大數據獨家授權編譯,作者Shelby Blitz ,編譯Echo
一想數據管理世界中的那個偉大的存在–數據倉庫吧。在過去的二十年中,儘管其他的系統和軟件在許許多多的迭代、變革中演進,甚至完全被新模型所拋棄,數據倉庫這個老骨幹卻安然屹立。她可能會偷偷地給自己的面頰,皺紋整容,也可能會激起一些不那麼令人深刻的模仿,但是沒有什麼能長期的吸引她的注意力。
直到現在。自從Hadoop出現在舞台上之後,一直有人嘀咕說,這個閃亮的新星正在為一些最好的數據管理角色提供服務–這些角色就是,在幾年前,數據倉庫已穩操勝券。
但是現在真的到了數據倉庫要退休的時候了嗎?Hadoop甚至想要進入她的鞋子裡嗎?還有誰在後面等著呢?
讓我們仔細看看這些據報導的競爭對手的全部本領。
數據倉庫持久吸引力的背後是什麼?
簡單地說,數據倉庫意味著將不同來源的數據聚合為一個用於報告和分析的中央存儲庫。它長期成為實際解決方案的原因如下:因為這些數據是被聚合的,在經歷抽取,轉換,加載過程後,協調成為“真理的唯一版本”,緩和矛盾,重構數據格式化的方式,從而適應預定的模式。
結果是一個完整的、可靠的,一致的數據來源,這些數據可用於商業智能軟件查詢。
Hadoop究竟是什麼?
對於需要處理海量數據集的用戶來說,這是一個開源的編程框架。使用分佈式存儲系統,它給用戶一種存儲、清理和處理大量數據的方法。
為了使數據達到千兆兆字節的傳輸速度,Hadoop分佈式文件系統(HDFS)沿著成千上萬的硬件節點讀取數據。即使許多節點由於技術故障而停止工作,系統仍能保持正常運行。這意味著存在低風險的數據丟失–對於那些使用大量數據進行非常複雜的分析的企業來說,這是一種真正的恐懼。
難怪Hadoop正在轉向一個尋求可靠的方法來運行大數據處理任務的行業。
另外,它是開源的–這是一個巨大的吸引力。它具有無限的可伸縮性和無限的可定制性。包含定制應用程序、查詢和方法的範圍是無限的。數據挖掘的複雜性可以隨著數據的複雜性和數據的數量而增長。
它哪裡比數據倉庫更出色?
大數據正變得越來越大,許多大型數據倉庫都試圖採取定制的多處理器設備來應對不斷飆升的存儲需求。但是除了最大的組織外,所有這些都需要付費。
與此同時,Hadoop可以靈活地處理滾雪球般的數據。然後用戶可以將它與數據倉庫層或頂部構建的服務相結合,無論是像Presto的SQL軟件,或者用相似方式工作的Hive,或者像HBase類的NoSQL。
但這並不意味著Hadoop將取關係型數據庫或者數據倉庫。事實上,我們馬上就會看到,這很可能是最好的支持,而不是取代。
那麼他們是競爭對手嗎?
完全不是。簡單地說,他們沒有扮演相同的角色。
數據專家趨向於把Hadoop看作現有數據倉庫架構的一個補充,並且可以為他們節省大量現金。通過把數據塊遷移到Hadoop,可以減少關係型數據庫的壓力,從而使數據倉庫平台更便宜,並且可以在不增加語速那的情況下進行擴展。
用這種方式,Hadoop可以降低數據倉庫的總成本,而不是取代它的某些東西。
它如何使數據倉庫的性能更好?
數據倉庫的構建成本很高,運行成本和增長成本昂貴。隨著收集的數據量的增長,存儲需求和花費也會呈指數級增長。
此外,這些龐大的數據集合意味著用戶每次運行查詢的時候,不能進入數據倉庫的全部範圍–而且他們的硬件也無法處理這個問題。這意味著使用分析數據集來給業務中的各個部門訪問數據倉庫特定區域的數據。
它是一個不完美的系統。不僅限制了用戶在數據上執行分析的範圍,也是一個定時炸彈。
隨著越來越多的數據湧入倉庫,每個數據集都可能變得如此不堪重負,以致難以使用。你可以通過限制訪問來減輕硬件壓力,但是那意味著給各個部門越來越窄的數據分析選擇。對於嚴格的商業智能來說,這樣的做法並不夠好。
Hadoop並沒有遭受這些挫折。進入門檻很低,而且對增量投資是開源的。它可以隨著時間的推移而建立起來,你可以不斷增大數據量而不需要花大量的成本來匹配。
對於那些剛剛進入數據行業的公司–沒有對大型機或者基於Unix的數據倉庫的投資–這種可擴展的、增量式的框架是非常吸引人的。但是Hadop是一個框架,而不是一個完美的解決方案。它在處理巨大數據集方面很出色,但是它從來沒有打算要替代數據倉庫。
那麼Hadoop和數據倉庫是最終的BI夢想團隊嗎?
哇哦,請等一下。使用Hadoop與數據倉庫處理了數據存儲問題。但是存儲數據只是商業智能的一個要素。
廣義上說,一個功能性的、可用的BI系統應該由五個部分組成:
1.在某個地方幾種存儲數據。
2.劃分這些數據的工具,如:地理,操作或者其他業務需要的工具。
3.為數據分析準備工具。
4.幫助您快速處理此數據的ETL數據引擎。
5.顯示所有這些數據的前端(通常是某種儀錶盤)。
即使Hadoop和數據倉庫在最好的情況協同工作,他們也只處理這些組件中的第一個。現在,BI技術的創新,同時提供了所有的五個組件,很快將夢想團隊降級為二類組合。
誰,誰會為了搶風頭而出風頭?
正如我們看到的,數據倉庫和Hadoop是一個成功的雙重行為。但是,要執行來自多個源的快速、高性能的數據分析,您並不需要它們中的任何一個。
現在,我們正在見證一顆新星的崛起。
整體的“單棧”解決方案消除了關係數據庫的需要,直接鏈接源數據,無論來自何處,並在現場執行英語教學功能。最好的工作是創建一個元數據(抽象)層,用於在任意數量的表中查詢數據,這種格式是以任意格式的任意來源繪製的。
正確的方法是通過構建像柱狀數據庫和內存處理這樣的智能的、節省硬盤的方法來解決通常伴隨巨大數據集而來的問題。首先通過只加載正在用的數據簡化處理過程,而後確保將這些數據加載到計算機的主內存中,而不是佔用RAM。這意味著你可以獲得完全的、不受限制的訪問所有數據的權限,而不需要像好萊塢山那樣大小的計算機來處理它。
一個唱歌、跳舞的超級巨星
更勝一籌的是,使用一個完整的BI系統消除了對非技術用戶可理解數據的額外軟件層的需求。
正如我們看到的,數據倉庫和Hadoop的不足之處在於它們是嚴格的“後端”解決方案——它們只處理外層數據。
為了使您的前端用戶能夠訪問數據,您仍然需要引入和集成各種各樣的應用程序,這些應用程序允許業務團隊提取並可視化他們需要的見解。
雖然Hadoop是開源的,但它不是“免費的”。讓它做你想做的事情,並將它與你的數據倉庫集成,你的工具來處理和準備數據分析,以及前端的儀表板界面,要么需要大量的資源投入,要么需要引入第三方來管理它。另外,當然,你仍然需要投資它需要運行的硬件。
有了一個像樣的單棧替代,您可以查詢源數據,使用ETL數據引擎快速處理它,並在一步生成新的報和表指示板。現在這種創新挑戰了數據倉庫、Hadoop或沒有Hadoop的未來。
所以,是的,也許是時候讓這個(國際)國家寶藏退後一步,讓下一代數據技術接手。但並不是因為Hadoop竊取了她的皇冠,而是因為單棧技術正在為BI提供冗餘存儲數據解決方案。
End.
轉貼自: 36大數據
留下你的回應
以訪客張貼回應