摘要: 在Hadoop發展史上,三家三家公司得得提提,分別是Cloudera,Hortonworks和MapR。
在Hadoop發展史上,三家公司得提提,分別是Cloudera,Hortonworks和MapR。
在Hadoop發展史上,三家公司得提提,分別是Cloudera,Hortonworks和MapR。 Cloudera公司是第一家Hadoop的商業化公司,成立於2008年8月,創始人來自谷歌,Facebook和雅虎,其首席架構師Doug Cutting 也是Hadoop的的第一位作者;!Hortonworks成立於2011年,是由雅虎!的Hadoop的團隊拆分而成; MAPR成立於2009年,創始人M.C.Srivas來自於谷歌。
這三家公司同屬於的Hadoop發行版提供商。所謂的“發行版”,其實是開源文化特有的,雖然在很多外行眼中,發行版只是將開源代碼打包,然後在添加一些自己獨創的邊角料。但其實發行版真正比拼的是對海量生態系統組件的價值篩選,兼容和集成保證以及支撐服務。
同樣是提供發行版,這三家公司的商業模式可以說是完全不同.Cloudera主要是發布的Hadoop商業版和商用工具,其核心組件CDH開源免費,與Apache的社區同步;而數據治理和系統管理組件閉源,用戶需要獲得商業許可,除了之外,商業組件也會提供企業生產環境中必需的運維功能。
Hortonworks的商業模式是100%完全開源的策略,所有產品開源,用戶可免費使用。真正用來盈利的是技術服務支持。
MAPR的商業模式遵循了傳統軟件廠商的模式,採用私有化實現,用戶通過購買軟件許可來使用。
雖然三家公司的商業模式不盡相同,但是都曾從Hadoop的中獲得了紅利,Cloudera的的估值在頂峰時高達41億美元,而Hortonworks和MAPR的估值也曾超過10億美元。
不過,最近劇情急轉直下,2018年10月,Cloudera的和Hortonworks宣布合併,Cloudera的的股東將擁有新公司60%的股權,Hortonworks的股東持有40%的股權。合併時,雙方對於未來的盈利能力信心十足“到2020年預計每年收入有望超過10億美元。”但是,事情發展並不如預期,合併半年多後,2019年6月6日美股開盤,Cloudera的股價暴跌43%,曾經41億美元的估值縮水為14億美元。
相比於抱團取暖的Cloudera的和Hortonworks,MAPR的處境更為艱難了,甚至走到了“閉店裁員”的窘境,“如果再獲得新的資金注入,MAPR可能會裁員122人,並關閉位於聖克拉拉的總部“。據外媒報導,MAPR裁員將於6月14日生效,但是就在前幾日,有消息稱MAPR將尋找新資金的最後期限延長到了7月9日。
眼看Hadoop的三大商業公司起高樓,為何忽然之間樓斜了呢?眾說紛紜,有人說是因為數據庫的發展,有人說是因為雲端計算的崛起,還有人說是自身模式有問題?
MongoDB的和Elasticsearch會是Hadoop的的競爭對手嗎?
在一篇外媒的分析文章中,提出了這樣一個觀點:在受歡迎指數,收益等方面,大數據其他開源供應商(如彈性和MongoDB的公司)和Hadoop的三大商業公司呈現出了此消彼長的態勢,之前沒有人認為的MongoDB和Elasticsearch這樣的技術以及它們背後的公司能夠挑戰的Hadoop及相關產品,但是現在它們做到了。
事實真如這篇文章分析的那樣嗎?MongoDB中,Elasticsearch和Hadoop的真的已經成為了競爭關係嗎?
從目前來看,MongoDB的和Elasticsearch與Hadoop的並不構成競爭關係,甚至連重合點都很少。
“MongoDB和Elasticsearch與Hadoop的在本質上是離線處理和在線處理兩個完全不同的方向,”MongoDB的中文社區主席唐建法這樣認為:“Hadoop的的底層存儲是基於無索引的HDFS,核心應用場景是對海量結構化,非結構化數據的永久存儲和離線分析,例如客戶肖像,流失度分析,日誌分析,商業智能等。而MongoDB的和Elasticsearch的核心場景是實時交互,通常用於人機交互場景,例如電商移動應用,其特徵是響應時間一般是毫秒級到秒級“。
當然,它們之間也不是完全沒有競爭的地方,但MongoDB的,Elasticsearch真正競爭的是的Hadoop內的生態組件,例如HBase,Hive,Impala 等。以Elasticsearch為例,它滿足了比較基礎的即席查詢需求,在線業務檢索需求,甚至是輕量的BI需求,這些在功能上與Hadoop的會有所重合。
除了競爭關係,這篇外媒評論文中還提到了一個重要觀點,那就是Hadoop的使用繁瑣,用戶體驗糟糕,MongoDB的和Elasticsearch使用方便,而這也導致了Hadoop的的“衰敗”。
“Hadoop的使用繁瑣”的觀點得到了眾多技術專家的贊同.Hadoop的本質其實就是HDFS存儲+ MapReduce的計算框架,但是Hadoop的發行商為了提高自己的商業競爭力,在Hadoop的技術上增加了各種組件.Elastic社區首席架構師吳斌稱,“假設你發現了一個符合需求的組件,那麼在部署使用它之前,可能還需要部署它的存儲和配置管理組件,這時就不得不把精力放在諸如HDFS,Zookeeper 等組件之上。在真正使用服務之前,用戶就在HDFS和Zookeeper 上付出了不少代價,這個過程往往會讓入門級選手心灰意冷,進而追求門檻更低的服務,例如Elasticsearch或者MongoDB的。 “
即使成功邁過了入門的門檻,很多企業也會因為複雜性難以充分利用Hadoop.MongoDB中文社區主席唐建法曾在兩間銀行看到過這樣的情況,他們一家使用MAPR,一家使用Cloudera的,在系統上線2年後的今天,只完成了一個最簡單的業務場景,行內一部分業務數據的歸檔功能。他們提到了一個共同的問題就是,如果說寫進數據湖(Hadoop)還算可以做得到,把數據從裡面讀出來使用是更加困難的!
公有雲會給Hadoop的致命一擊嗎?
在很多分析文章中,都把Hadoop的近日來的“頹勢”歸因為公有雲的發展,Hadoop的的出現代表了當時革命性的技術,而雲計算代表了數據處理的新方法,解決了與Hadoop的相同的問題.Hadoop主要是應用了比之前廉價的存儲,但是雲計算的出現,讓存儲變得更加廉價,且用戶體驗也獲得了成倍提升。
雲計算廠商打造了完全集成的一站式雲原生服務,並且在雲上提供了很多組件來替代原有的Hadoop的組件,例如AWS的S3替代了HDFS,K8S替代了Yarn。而Hadoop的因其龐然的架構,本身並不適合以彈性靈活快速擴展的公用雲環境。
公有雲的出現給了Hadoop的一定的壓力,但會成為Hadoop的的致命一擊嗎?答案是否定的。
本地化部署的Hadoop的頹勢確實和公有雲產品有關,吳斌認為:“雲計算廠商提供的託管服務在部署和運維上給予了用戶太多便利,且從計算資源角度來看,雲廠商大大降低了用戶的成本,尤其是競價實例,在給終端用戶節省成本的同時,也做到了資源的合理利用和自身利益的較大化“
支撐大部分實體經濟的企業,例如製造業,金融業,政府等強監管行業,還遠遠沒有達到把企業全量數據存放到公有雲的階段,甚至會出於數據安全的考慮,永遠不放在公有雲上。“也就是說,公有雲也不是銀彈,即使發展得更好,也不可能完全侵占的Hadoop的應用場景。
在很多分析文章都把雲公司和Hadoop的發行版公司放在了對立的兩端,事實上它們並不是天然的對手,Hadoop的發行版公司也在積極的向雲端轉型,甚至Cloudera的原本的初衷就是提供雲服務.Cloudera創始人在某次訪談中提到:“Cloudera公司在創建時原本打算做的服務是類似於現在AWS的彈性MapReduce那樣的雲上服務但很快發現這個模式太超前,所以轉向了做Hadoop的發行商的角色“。
公有雲會威脅Cloudera嗎?
Cloudera的創始人Mike Olson 在2018年接受採訪時,是這樣回答的:“如果五年後我們只是一個本地部署供應商,我們將成為一個註腳我們的大好機會是幫助客戶遷移到雲,並提供雲和本地部署之間的可移植性。由於我們在早期所做的賭注,我們可以讓用戶在不編碼到專有API的情況下進行遷移。我們與所有的超大規模雲提供商都有良好的合作關係。當然,他們在某種程度上與我們競爭,但我的機會不是擊敗紅移。
Redshift的目的是幫助那些希望訓練機器學習模型的客戶在所有雲提供商中提供這種能力。而我們的目標是將客戶想要的所有可移植性與他們需要的法規和遵從性功能集成並提供給他們“。
Hadoop的三大發行商的衰落是否代表了Hadoop的的衰敗?
“Hadoop的三大發行商的衰落是否代表了Hadoop的的衰敗?”這是很多人關心的問題,也是技術人在熱情討論的問題。首先,需要明確的是Hadoop的三大發行商無法全權代表Hadoop的,其次,與前幾年相比,Hadoop的的熱度確實在下降。
與其說Hadoop的衰敗,倒不如說是Hadoop的走下了神壇。早些年前,Hadoop的是與大數據劃等號的存在,但是現在,大家對於大數據產品的需求更豐富了,眼光也更挑剔了。最早大家只要求能夠處理海量數據,後來追求高效實時,而現在大家還要求經濟便宜,功能豐富。
Hadoop的生態的衰敗並非是指技術,而是市場炒作的一種理性回歸。因為低成本,海量擴展能力,以及對半結構化,非結構化數據的支持,Hadoop的在大數據分析,歷史數據歸檔方面是有獨特地位的。如果的Hadoop能夠專注於擅長的離線場景,並提升用戶使用體驗,那麼基於Hadoop的的技術方案在未來還是很有前景的。
Hadoop的真正面臨的競爭態勢是什麼?
既然Hadoop的真正的競爭對手不是MongoDB中,Elasticsearch等其它開源產品,也不是公有雲,那麼真正的對手是誰?
首先,我們不能簡單的把Hadoop的理解成一款產品,它是一種生態。所以,Hadoop的真正面臨的其實是生態之爭,而不是某款產品之爭。
Elasticsearch技術專家表示:“與Elasticsearch生態相比,Hadoop的的產品功能相對比較分散.Elastic堆棧的整合程度則非常高,且Elasticsearch的分析速度更快更實時,從數據接入到前端分析展現都有完整的產品,打通了整條數據分析的鏈路,開箱即用,用戶體驗要好的多“。
而雲計算廠商通常會選擇更多的生態夥伴來一起合作,例如谷歌宣布將MongoDB的納入市場廣場產品目錄,AWS與MongoDB的簽署全球推薦合作夥伴,騰訊雲和 Elastic達成合作。
與單個產品或環節的競爭不同,生態之間的競爭更加複雜多樣,既包括了產業鏈上的生態,也包括了跨行業的生態,所以競爭結果不只是簡單的爭長競短,你死我活,也有可能是互相融合,共同繁榮.Hadoop生態與其它大數據生態各自有自己的使用場景和成熟的生態鏈,它們之間不只有競爭,更有互補的地方,從這個角度來看,Hadoop的未來的機會不是打敗對手,而是做好自己。
轉貼自: 鍊數成金
若喜歡本文,請關注我們的臉書 Please Like our Facebook Page: Big Data In Finance
留下你的回應
以訪客張貼回應