摘要: 微軟旗下有數不清的服務,因此其需要相當多的數據中心。而作為一家注重數據保護與客戶隱私的大公司,微軟在雲基礎設施的安全性上也是下了很大的工夫。近日,微軟企業網絡安全事業部首席安全顧問Mark Mclntyre,就在出席華盛頓特區召開的“首席信息安全官圓桌會”時,分享了該公司應對這方面挑戰的應對策略。通過歷年的互聯網使用量數據圖,微軟展示了自己是如何成為一家被信賴的雲服務提供商的。

摘要: 自從Google 的人工智能AlphaGO 成為圍棋界的百勝將軍開始,AI(Artificial Intelligence,人工智能)這兩個英文字,剎那間成為科技業最熱門的關鍵字之一。而就在2017年初,早在AI 領域打下深厚底子的IBM Watson,除了打進一些數據服務公司、科技公司外,甚至進軍醫療領域,能夠依照病患資料判定青光眼,準確率高達95%。

摘要: 這幾年來,機器學習和數據挖掘非常火熱,它們逐漸為世界帶來實際價值。與此同時,越來越多的機器學習算法從學術界走向工業界,而在這個過程中會有很多困難。數據不平衡問題雖然不是最難的,但絕對是最重要的問題之一。

摘要: Wikibon最近完成了2017年大數據全球預測,該報告的作者是Wikibon分析師George Gilbert,以及Wikibon的Ralph Finos和Peter Burris,涉及到大數據的市場規模、增長和趨勢等。

 


解讀Wikibon 2017年大數據分析預測報告

今年,我們把重點放在構建實現大數據成果所必需的戰略業務能力來說最重要的大數據軟件技術上。下面是該報告主要的一些研究發現:

– 2016年,全球大數據硬件、軟件和服務整體市場增長22%達到281億美元,讓大數據成為技術領域更具吸引力的領域之一。

–我們的模型顯示,到2027年期間,在大數據硬件、軟件和服務上的整體開支的複合年增長率為12%,將達到大約970億美元,而這主要是受到了大數據軟件的推動。

–不過,即使大數據仍然是企業關注熱點,但是嚴重的問題也使得大數據市場出現了一些黯淡之處。特別是,大數據項目的故障率很高,甚至是信息技術標準。

–大數據市場正在快速變革,以應對項目故障率較高的問題。正如我們所預測的,對基礎設施的關注正在轉移到對使用實例、應用、利用大數據能力創建可持續業務價值上來。

–為了避免出現基礎設施問題,企業對於把雲用於大數據應用特別感興趣。

大數據軟件細分市場快速增長

與很多技術領域一樣,大數據領域的很多項目首先是把焦點集中在了硬件和基礎設施軟件上。在大數據領域,獲取、保存和處理大量大數據有很多需要的技術。因此,用戶提到了大規模處理較高數據到達率而構建“數據湖”能力。這種能力仍然很重要,但是構建集群、數據庫和數據遷移工具是不夠的。如今,企業領導者重新將注意力集中在了構建大數據軟件和系統的工具和業務能力上。下面就讓我們來快速瀏覽一下每個大數據軟件細分的趨勢:

–應用數據庫增加了分析數據庫的功能。越來越多的數據分析會實時地給人類和機器發送通知信息。2016年這個細分領域的總規模為26億美元,到2020年增幅放緩到30%達到77億美元。

–分析數據庫不止是數據湖。作為數據湖的主幹,MPP SQL數據庫將繼續變革,最終成為大規模、高級、離線分析的平台。2016年這個細分領域的總體規模為25億美元,增幅要慢於總體水平,到2020年達到38億美元。

–在線選擇的增長是以大筆基礎設施開支為代價的。這個部分包括像Spark、Splunk和AWS EMR這樣的產品,2016年的總體規模為17億美元。到2020年期間增幅搶眼,到2020年規模將達到61億美元。

–物聯網應用將提升持續處理基礎設施。這個細分領域將是新興的、基於微服務的大數據應用的基礎,包括大多數智能交互系統,在2016年的總體規模為2億美元,但是到2020年將增長到18億美元。

–數據科學工具鏈正在演變為帶有API的模型。今天,數據科學工具鏈要求有專門的專家來架構、管理和操作。但是,複雜的數據科學工具鏈——包括針對機器學習的——都將轉變為實時的、預培訓的模型,可通過開發者應用編程接口進行訪問。這個細分領域的總體規模是2億美元,到2020將達到18億美元。

–機器學習應用現在大多都是定制的。除了出現很多新的專業公司之外,這些應用還將在現有的企業應用中更為普及。2016年這個市場總體規模為9億美元,到2020年它將赶超其他所有大數據細分市場,規模達到63億美元。

行動項目:企業正在迅速積累大數據經驗,但是還不夠快,無法滿足商業領袖的想像力和需求。2017年及之後,CIO們需要專注於戰略業務能力,以更快速地創建、具有成本效益地管理、成功地集成高級分析系統。

轉貼自: 36大數據

摘要: 數據造假的甄別在數據分析領域是一個熱門的話題,也是對數據分析師的一項挑戰。分析數據造假的方法有很多種。我們在前面的系列文章中曾經介紹過兩種檢驗作弊流量的方法。一種是根據歷史經驗及分佈情況的多維度交叉檢驗,另一種是使用隨機森林模型根據已知作弊流量的特徵對新流量進行分類及預測。

摘要: 作者:George Hill ,他是知名商業媒體 Innovation Enterprise 的主編,同時也是 The Cyclist 公司的聯合創始人。本文由可譯網toypipi , 中山狼 , 薯片番茄, 班納睿翻譯。長期以來,Hadoop 這個詞鋪天蓋地,幾乎成了大數據的代名詞。三年之前,提起超越 Hadoop 這件事,似乎還顯得難以想像。但三年後的今天,這一情況發生了一些改變。

摘要: 麥肯錫研究發布了機器學習將影響的12個領域,每個領域又分為10個方面。換言之,這就是機器的120個商業機會。有理由相信,深度學習將徹底改變以下提及的這12個領域。這些行業的大多數領導者都在關注機器學習,不過他們卻認為深度學習帶來的改變在遙遠的未來才會發生。他們錯了。

摘要: R語言翻轉教室,是作者參考社群多次開辦R教學的心得,撰寫出來的一份「自學教材」、 「自學教材」、「自學教材」。 有興趣的版友可以到官網上去安裝課程與進行教材。這份教材也具有挑戰性,沒有程式基 礎的版友做完一次約12 ~ 18小時。有經驗的版友大約是6 ~12小時,並不輕鬆。

 

區塊鏈確實將要顛覆世界,不過還要很多年才能實現

合同、交易及其記錄是我們的經濟、法律和政治體系中,起決定性作用的結構。它們保護資產並確定組織邊界(organizational boundary),建立並核實身份和歷史事件,影響不同國家、組織、社群和個人之間的互動,引導社會和管理行動。但這些關鍵工具以及衍生的官僚機構沒能追趕上經濟數字化的轉型步伐,其笨拙程度如同在堵車高峰期追捕一輛F1賽車。在數字世界中,我們調整和維持行政管控的方式必須改變。

區塊鏈有可能解決這一問題。它是比特幣(bitcoin)和其他虛擬貨幣的核心技術,本身是一種開源分佈式賬本,能夠高效記錄買賣雙方的交易,並保證這些記錄是可查證且永久保存的。該賬本也可以通過設置,自動發起交易。

我們能夠想像到,如果區塊鏈得到普及,未來合同將嵌入數字編碼並保存到透明、共享的數據庫中,可防止數據被刪除、篡改和修訂。到那時,每份協議、每個流程、每項任務和每次付款,都會有一份可識別、驗證、保存和分享的數字記錄和簽名。律師、代理人和銀行家等中間人可能就不是必要的交易參與者了。個人、組織、機器和算法彼此之間的交易和互動將順暢無阻。這就是區塊鏈的巨大潛力。

幾乎每個人都聽說過這一說法:區塊鏈將徹底改造行業,重新定義公司和經濟。我們同樣看好區塊鏈的潛力,但也擔心它遭到捧殺。我們擔心的不僅僅只是區塊鏈存在的安全隱患,比如2014年某比特幣交易平台的崩盤以及更近期的黑客攻擊事件。在技​​術創新領域的研究經驗告訴我們,只有消除在技術、政府管控、組織和社會等多方面的障礙,才有可能真正發生區塊鏈革命。若不清楚區塊鏈將如何占領高地,貿然開始區塊鏈創新就是個錯誤。

我們認為,真正由區塊鏈引導的行業和政府改革,還要在很多年後才能實現。原因在於,區塊鏈並非“顛覆性”技術,它不能用成本更低的解決方案顛覆傳統商業模式,並迅速壓倒在位企業。區塊鍊是種“基礎性”技術:它有為經濟和社會體系創造新基礎的潛力。雖然它的影響巨大,但要滲透到我們的經濟和社會基礎設施中,仍需數十年之久。隨著技術和製度改革的浪潮勢頭漸猛,區塊鏈的應用將穩健推進。

 

新架構

區塊鍊是建立在互聯網基礎之上的P2P網絡,於2008年10月首次應用於比特幣的協議中。比特幣是種虛擬貨幣系統;它將貨幣發行、所有權轉讓和交易確認去中心化。比特幣是區塊鏈技術的第一個應用案例。

區塊鍊和TCP/IP之間的相似之處顯而易見。電子郵件使信息雙向發送成為可能,比特幣則讓金融雙向交易成為可能。區塊鏈的開發和維護是開源、分佈式以及共享的,而TCP/IP也是如此。兩者的核心軟件都由一個來自世界各地的志願者團隊維護。此外,比特幣和電子郵件都是從積極性很高但規模較小的社群中流行開來。

TCP/IP大幅壓縮連接成本,釋放了新的經濟價值。同樣,區塊鏈也大幅降低了交易成本;它有潛力成為所有交易的記錄系統。如果這一天到來,那麼隨著區塊鏈衍生品影響力和控制力的擴大,整個經濟都會再次經歷巨大轉型。

如今,某次股票交易可以在幾微秒內進行,往往不需要人工干預。但股權轉讓可能要用一周時間,因為交易雙方無法看到彼此的賬本,不能自動確認資產的實際所有權和轉讓權限。組織交換交易記錄時需要一系列中間人,充當資產的擔保人;賬本也要逐個更新。

區塊鏈系統中,賬本在大量相同的數據庫中復制,每個數據庫都由一個利益相關方主管和維護。任意一份文件有改動的話,其他所有文件都會同時更新。同樣,如果出現了新交易,交易資產和價值的記錄就會出現在所有賬本中,並且永久保存。沒有必要請第三方中間人確認或轉讓所有權。在以區塊鍊為基礎的系統中進行股權交易,數秒內就可以完成轉讓,既安全,又有據可查。 (臭名昭著的黑客襲擊比特幣交易事件並未凸顯區塊鏈本身的弱點;相反,這些事件反映了連接不同區塊鏈使用者的獨立系統有嚴重漏洞。)

普及區塊鏈的框架

如果說比特幣好比早期的電子郵件,那麼區塊鍊是不是也要等很多年,才能充分發揮出其潛力?對這個問題,我們要給出一個不完全肯定的回答。我們無法準確預測區塊鏈改革要用多長時間才能實現,但可以猜想,什麼技術應用會最先受到歡迎,以及區塊鏈的普及最終將以什麼方式實現。

反觀歷史,我們認為有兩大維度會影響到基礎性技術及其商用案例的擴展和演進。第一個維度是新穎度,即技術應用相對於外界事物的新鮮程度。新穎度越高,開發人員就要花越多精力,確保用戶了解到新技術能解決的問題。第二個維度是複雜性,或者說,技術應用要求的生態系統協調度——須合作利用新技術,產出價值的相關方數量和多樣性的情況。舉例來說,只有一個成員的社交網絡基本上毫無用處;只有足夠多的聯繫人登錄後,建立這個社交網絡才有意義。其他用戶也要參與進來,這樣所有參與者才能獲得價值。區塊鏈技術應用的運作也是如此。

單個案例  新穎度和協調度雙低的技術應用屬於第一象限;這些創新帶來更有效,成本更低,定制化的解決方案。電子郵件是TCP/IP的單個應用案例(雖然其價值隨用戶數量增多而上漲),它是電話、傳真和傳統郵遞的廉價替代品。比特幣也屬於這一象限。在其早期發展階段,即使僅將比特幣作為支付手段的用戶,也不太可能即刻獲取價值。 (你可以將比特幣視為一種電子郵件,只不過更為複雜,不僅傳送信息,還傳遞實際價值。)2016年末,比特幣交易的預測值為920億美元。雖然這一數字和411萬億美元的全球支付款數相比,僅是個零頭,但比特幣發展迅猛,在即時支付、外幣和資產交易等現行金融體係有局限性的領域中,重要性日益凸顯。

本地化  構成第二象限的創新新穎度較高,但因為這類創新僅要求有限數量的用戶創造即刻可得的價值,所以促進其普及並不是很困難。如果區塊鏈採取和網絡技術一樣的路線進入企業,我們就可以預期,區塊鏈創新以單一應用案例為基礎,創建本地私有的網絡,讓多個組織通過一個分佈式賬本相互連接。

很多早期以區塊鍊為基礎的創新都出現在金融服務領域,而且一般在一些公司組成的小型網絡中,所以對協調度的要求不太高。納斯達克(Nasdaq)正在和區塊鏈基礎設施供應商之一Chain.com合作,提供處理和確認金融交易的技術。美國銀行、摩根大通(JPMorgan)、紐約證券交易所、富達投資(Fidelity Investments)和標準渣打銀行(Standard Chartered)正在測試區塊鏈技術,試圖讓其代替基於紙張的手動交易處理流程,並在貿易融資、外匯交易、跨境結算和證券結算等領域應用。加拿大銀行正在測試一種名為CAD幣(CAD-coin)的數字貨幣,用於跨行轉賬。我們預測,未來私有區塊鏈會激增,在各行各業發揮特定作用。

取代  第三象限的創新建立在單個案例和本地化技術應用的基礎之上,所以新穎度較低,但由於其公用範圍和幅度更廣,所需協調度很高。這些創新旨在取代整個商業模式,但也因此面臨巨大障礙——它們需要更高的協調度,而且想要取代的流程可能已經很成熟,並在組織和機構中已根深蒂固。取代的案例包括加密數字貨幣(crypto currency)。這是種健全的新貨幣系統,由簡單的比特幣支付技術演進而成。兩者最大的不同是,加密數字貨幣要求進行貨幣交易的各方都要使用該系統,這給長期以來處理、監管此類交易的政府和機構帶來了挑戰。消費者也要改變自己的行為模式,並了解如何使用加密數字貨幣的新功能。

麻省理工學院(MIT)近期的實驗讓我們看到,數字貨幣系統面臨的挑戰。 2014年,MIT比特幣俱樂部為4494名MIT大學生每人免費提供價值100美元的比特幣。有趣的是,30%的學生甚至都沒有申請這筆錢,20%的申請者在數週之內就把比特幣兌換成了現金。即便是頗懂技術的人,也要下很大工夫弄清比特幣的使用方法和用處。

改革  位於第四象限的是全新的技術應用。這些創新只要能成功,就可以改變經濟、社會和政治體系的本質。這類創新要求協調多方的行動,並在標準和流程上與相應機構達成一致;其普及則要求社會、法律和政治方面出現重大改革。

“智能合約”(smartcontracts)可能是現在最具改革性的區塊鏈技術應用。只要交易符合合約條款要求,智能合約就可以實現自動支付和貨幣等其他資產的自動化轉讓。舉例來說,某份智能合約能在貨物簽收後,立即給供應商支付應付款項。某公司可用區塊鍊錶明某特定貨品已經簽收;或者產品可能有GPS追踪功能,可以在區塊鏈中自動更新地理位置,而這一功能反過來還能發起收款。我們已經看到一些自動生效型合同的早期實驗,應用的領域包括風險投資、銀行業務和數字版權保護。

智能合約的前景一片大好。公司基於合同而建;從法人團隊的組成到買家與供應商的關係,再到僱員關係,簽訂合同都必不可少。如果合同可以自動生成,那麼傳統企業結構、流程以及律師和會計等中間人將會發生什麼變化?管理者又會受到什麼影響?他們的職責會發生巨大改變。但我們現在為這一想法激動不已恐怕太早,要記住,智能合約得到廣泛普及那天為時離我們還有數十年之久。沒有眾多機構或其他力量的支持,智能合約並不能彰顯其作用。只有就如何設計、確認、實施和強制執行的問題上達到高度協調和明晰化,這類合同才能實現潛力。我們認為,肩負這些重責的機構要用很長時間才能完成轉變。它們面臨技術方面的嚴峻挑戰,特別是安全挑戰。

如何投資區塊鏈?

高管如何為所在組織佈局區塊鏈?我們制定的框架有助於公司抓住正確時機。

總體來看,最簡單的方法是從位於單個案例象限的技術應用開始。這樣做可以將風險降至最低,因為這些創新不新穎,而且對第三方的協調度基本沒有要求。公司的策略之一是,讓比特幣成為一種支付機制。比特幣的基礎建設和市場已經成熟,應用虛擬貨幣會迫使多個職能部門(包括IT、財務、會計、銷售和市場營銷)鍛造區塊鏈能力。另一種低風險的方法是,將區塊鏈當作內部數據庫使用,保存多個應用軟件的數據,比如實體和數字資產管理軟件中的信息,內部交易記錄和身份確認信息。有些公司為保持內部多個數據庫信息一致,已經焦頭爛額;對它們來說,引入區塊鏈不失為一種極其有效的解決方案。測試單一案例的技術應用有助於組織開發必要新技能,為使用更先進的軟件做準備。而隨著區塊鏈雲服務(初創公司和亞馬遜、微軟這樣的大型平台都提供此類服務)的出現,實驗正變得越來越容易。

開發本地化的技術應用是公司自然而然會採取的第二步。我們看到,如今在私用區塊鍊網絡上的投資巨大,而相關項目似乎是為了在短期內取得成效。比如一些金融服務公司發現,它們和可靠的交易夥伴(數量有限)建立的私用區塊鍊網絡能夠顯著降低交易成本。

組織也可以利用本地化的應用軟件,解決跨國交易中出現的特殊問題。比如公司已經開始利用區塊鏈技術追踪複雜供應鏈中的產品。在鑽石行業,區塊鏈可以持續追踪寶石從挖掘到出售階段的情況。現在這類實驗的技術,應用起來已十分方便。

開發取代型技術應用需要嚴謹的計劃,因為現有解決方案可能很難顛覆。改革方法之一是,將精力集中在那些不要求終端用戶做出太多改變的新產品,並保證用戶得到更廉價或更有吸引力的解決方案。要提升吸引力,取代型創新必須保證產品性能和傳統解決方案同樣優秀、完善,同時要方便整個生態系統採納自身技術。第一資訊(First Data)首次嘗試利用區塊鏈技術發行禮品卡,這就算是一個考慮周全的替代方案。為消費者提供新型禮品卡的零售商能夠利用區塊鏈在賬戶內追踪現金流,避免了對外部刷卡服務提供商的依賴,從而大幅壓縮每次交易的成本,並加強安全性。新的禮品卡還允許多個商家通過統一賬本,互相之間轉移欠款和交易能力。

改革型技術應用離我們還很遠,但現在評估其潛力,並投資發展必要的基礎設施仍有一定意義。一旦這些創新捆綁了不同於以往價值創造和捕捉方式的新商業模式,就能發揮出最大效能。雖然接納新商業模式需要很大付出,但能夠打開公司未來增長的大門。

舉例來說,律師事務所未來必須改革,為實行智能合約鋪路。它們要發展軟件和區塊鏈編程方面的新專業技能,可能還要反思現行的按小時付費模式,並考慮是否根據合同收取轉賬或託管的費用。這僅僅是兩種可行方案,但不論高管採取哪種方法,都必須在做出改變前,確定自己了解並測試過新商業模式的效果。

改革型創新會最後成功,並將帶來巨大價值。這些創新可能對兩大領域影響深遠:1)和過境檢查等職能配套的大型公共身份系統;2)算法驅動的決策,用來防止洗錢和進行涉及多方的複雜金融交易。我們認為,這些創新要用10年或更久的時間,才能被大眾接受並得到廣泛應用。

改革型創新也會催生有能力協調並管控新生態系統的平台級公司。這些公司是下一代的谷歌和Facebook。抓住這樣的機遇需要有耐心。雖然現在就在這類創新上投入大額資金似乎為時過早,但建設必要的基礎設施(工具和標準)仍是值得的。

高管可以利用我們總結的框架,確定建立區塊鏈能力的第一步。他們必須確保員工了解區塊鏈,開發上文提到的四個像限中適合自己的技術應用,同時投資區塊鏈基礎設施建設。但考慮到投資期、不利於新技術普及的障礙和達到與TCP/IP同等接受程度的複雜性,高管還必須謹慎看待區塊鏈實驗的風險。顯然,從小處做起是為成就更大夢想打好專業基礎的好方法。但投資力度應取決於公司和所在行業的具體背景。金融服務公司早已開始啟用區塊鏈技術,但製造業還未行動。

不管你所在公司處在什麼背景之下,區塊鏈都可能影響到你。這一前景已經非常明朗;一切不過是時間問題。

轉貼自: XXX

摘要: 神經網絡是一種數學模型,是存在於計算機的神經系統,由大量的神經元相連接並進行計算,在外界信息的基礎上,改變內部的結構,常用來對輸入和輸出間複雜的關係進行建模。......

摘要: 從基礎理論入手,詳細講解了爬蟲內容,分為六個部分:我們的目的是什麼;內容從何而來;了解網絡請求;一些常見的限制方式;嘗試解決問題的思路;效率問題的取捨。......

熱門標籤雲

每月文章