摘要: “大數據”(Big data),實際上意譯作“高頻複雜數據”更貼切一些,也更便於非從業者直觀了解這個詞的含義。由於“大數據”的大並非指單純的數據量龐大,即便是1DB 大的數據庫,如果僅僅是一張簡單的二維表,裡面填...

“大數據”(Big data),實際上意譯作“高頻複雜數據”更貼切一些,也更便於非從業者直觀了解這個詞的含義。


由於“大數據”的大並非指單純的數據量龐大,即便是1DB 大的數據庫,如果僅僅是一張簡單的二維表,裡面填滿唯一主鍵構成的簡單數據,也沒什麼難以處理的,只要硬件設備能跟上,基本上中學生學過C 也就足以處理這份數據了。並不需要整個社會這麼大張旗鼓的研究和鼓吹。


IBM 定義“大數據”有4 個V 的標準(量級Volume,多樣性Variety,價值Value,速度Velocity),這點毋庸置疑(當然,還有所謂的5V 或新3V。強調Veracity),但是很多書籍上定義的量級Volume 起始計量單位是PB(1000TB)起,那麼現在絕大部分自稱的“大數據應用”是不足以稱之為大數據的。要知道,整個中國去年一年的數據產生量也僅僅是0.8ZB(800PB)。


至少提問者提到的Match In-sights 軟件產生的數據,是不夠這個量級的。


現在更多研究的有意義的“大”數據,更多的是針對不同獨立的數據集(data set)進行合併分析,進而形成關聯性和額外信息,用於現實,這是“大數據”的意義。糾結於定義大小之類的,並沒有什麼幫助。


由於新的處理方法,普遍無法使用單純的人工和原始的編程方式來解決,更多的需要是對不同類別的數據進行匯總進行處理,包括統計分析、建模、模擬抽樣、乃至預測。 SAS 是代表作。數據處理的這種方式,其實才是大數據應用和採集的意義之所在。雖然人家謙虛的自稱 sequence retrieval。


在這方面,美國的科研機構比我們不知道高到哪裡去了。


所有具體研究“大數據應用”的專題,鮮少有自稱“Big data”,或將其用作自己研究內容的關鍵詞的。也因此,名義上的大數據科學或大數據工程,現在連紙上談兵的資本都還不足。本身沒什麼理論支持,更談不到一門學科。與傳統的數據統計、數據分析之類的區分界線也很淡薄,更多的是具體案例的應用和應對。


而現在最愛鼓吹大數據的,往往都是不從事具體工作的新聞工作者們。


我見過的所有談大數據的論文,也都是泛泛而談,性質和科學研究沒什麼關係,主要是報導和命名性質的(這種論文是存在的)。真正涉及大數據的論文,則普遍在認真討論方法而非數據形態。最多用到PB 級別數據的工程論述,大多是地理類數據。


這 類數據一年就有數十 PB 產生。 “智慧城市”的數據一個季度就是大約有200PB,每個高清攝像頭一個月產生1.8TB 的數據,每天北京市的視頻採集數據量在3PB,一個中等城市每年視頻監控產生的數據在300PB 左右,國家電網年均產生數據510TB 以上,而其他像搜索、地圖、社交、影視娛樂類等互聯網公司也擁有PB 量級的數據儲備(以上數據來自《大數據史記2013》)——但這不說明就是大數據。擁有和處理是兩碼事。或者說,前者應該叫海量數據,經過處理的海量數據才叫大數據。


(所以通常自稱大數據工程師或工作是大數據相關的,一般和騙子沒什麼區別,很難具體到某一方面的大數據業務,是屠龍之技。編造職位和過往履歷時,要么說自己是大數據分析工程師,要么說自己是數據工程師,也能好很多。)


提問者是從世界杯談起的,那麼先說不除了體育方面,因為提問者的距離沒有任何內容——常見的體育運動方面“大數據”應用分為兩部分,一部分是分析,一部分是預測。但是這兩者說是數據工作也可以,沒必要非說是“大數據”。量級也往往不夠 PB。


體育類的數據分析應用,通常是由科研或學術機構發起的。


這個行業最著名的會議叫做MIT Sloan Sports Analytics Conference(MIT Sloan Sports Analytics Conference,這個“斯隆”和偉大的爵士傑里·斯隆毫無關係)。


主要參與人員由兩類人組成:

 

  1. 職業體育從業者

  2. 數據分析科學家

 

 

拓撲數據分析是最常見的分析方法。還有其他很多,包含的大量的人工智能、視覺仿真、人體運動學的科學在內。舉個例子:

離籃板越遠,前場籃板越不好搶——這是我們普通人的觀感。


每距離籃板多一英尺,拿下前場籃板的機率就會降低1%,但距離超過三分線時,機率重新變大。此外,90%投丟的球都可以在距離籃板11 英尺的範圍內拿下——這是科學家根據數據分析得出的結論。


如果你經常關注斯隆體育大會的NBA 相關研究會經常看到這二位仁兄——Rajiv Maheswaran 和Yu-Han Chang,他們有大量相關研究,甚至對NBA 的鏡頭擺放和有效鏡頭也提出了自己的看法,並且真的改變了大量數據軟件分析公司的鏡頭使用方式。去年這倆哥們拉上一個叫做Jeff Su 的伙計組件了運動數據分析公司Second Spectrum,最常見的業務就是將運動追踪鏡頭​​捕捉的數據收集起來,然後讓機器學習並分析,給出分析結果和結論。


今年的斯隆大會,他們又做了籃板統計的量化分析的三種方法(《The Three Dimensions of Rebounding》,拿了大會的最佳論文獎。


往往這類工作用於提供給非專業人士的複雜數據還需要一項工作:可視化


這個工作由軟件公司來代為完成。


還有一種分析,則是統計數據的量化評估。與前一種給出如何得出數據的分析不同,這種分析是利用已有的統計數據做結論。


這工作其實和普通公司的量化評估沒有兩樣,都是通過統計數據得出的結論。關於這類工作,張公子曾經做過評議,個人認為說的很對。


如果實在是對這東西無感,直接看帥哥電影《點球成金》(Moneyball),奧克蘭運動家隊經理Billy Beane 通過小球會取得成功的方法就是放棄普通球探方式,直接將數據化用到球隊交易和選秀上,獲得了創MLB 歷史戰績的連勝紀錄。雖然有不少美化和過簡單的鏡頭式語言表達,但是數據分析在21 世紀開始正式成為北美職業體育的一項重要工作。而非單純的賽后統計。


最早最成熟的數據量化和這種可視化分析,都出現在美式橄欖球場上,早期的NBA 統計,其實只有得分籃板助攻等很少的幾樣,所以張伯倫也沒有完善的蓋帽統計。


現在球迷們也大都只關注老五樣(得分、籃板、助攻、蓋帽、搶斷),然後還有出手數、命中率、出場時間之類的數據,能扯扯這些的,大概就算看球略入門了。


然而根據這些統計數據進行的諸如PER、Efficiency、FantasyRating、+/-、TS%等等數據,則是從單純的賽后數據列表上看不出來的,而是根據一系列制衡指標計算出來的。例如真實命中率(TS%)就是根據球員的所有得分(2 分、3 分、罰球)一併計算的:PTS / (2 * (FGA + 0.44 * FTA))


這些是混幾週論壇就能做到的數據球皮要能侃侃而談的。


而到了現在,數據量化到了什麼地步呢?來看斯隆體育大會上的論文(2012 年的最佳體育革新獎):

Muthuball: How to Build an NBA Championship Team

 

 

Alagappan 把球員分成十三類:

  • 進攻控球者——傑森特里和托尼帕克

  • 防守控球者——麥克康利和凱爾洛里

  • 綜合控球者:賈米爾·內爾森和約翰·沃爾

  • 投籃控球者— —斯蒂芬庫里和馬努吉諾比利

  • 角色控球者——阿隆阿弗拉羅和魯迪費爾南德斯

  • 三分籃板手——洛爾鄧和蔡司·巴丁格

  • 得分籃板手——德克·諾維斯基和阿爾德里奇

  • 三秒區保護者——坎比和泰森錢德勒

  • 罰球線保護者——凱文·勒夫和格里芬

  • NBA 一陣型——凱文杜蘭特、勒布朗詹姆斯

  • NBA 二陣型——魯迪·蓋伊、卡隆·巴特勒

  • 角色球員型——肖恩·巴蒂爾和羅尼·布魯爾

  • 以及獨孤球員——優秀到電腦無法進行分類,也無法與其他球員進行聯繫。例如德里克羅斯和德懷特霍華德。



而根據這個分類分析,森林狼的球員分類明顯不均衡,而上一年的達拉斯小牛明顯更均衡。


籃球運動方面存在著大量的統計數據,而這些數據還由時刻、場上情況、隊友指數、上場時間等等一系列複雜因素導致不同的結果。這就是典型的複雜數據——而且瞬發。群體運動項目中,這就足夠典型的“大數據”了。


但是這數據量仍舊不夠 PB 級別。


NBA 幾位著名的數據量化球隊經理/ 經理人,包括中國球迷最熟悉的火箭隊莫雷(這個身高將近2 米的胖子從來沒有參與過與籃球運動直接相關的工作,麻省理工的MBA…等等,又是麻省理工?),ESPN 最著名的球評人約翰·霍林格(虎撲綽號火靈哥,著名的PER 值Player Efficiency Rating(球員效率值)創始人),相比而言,劉翔的訓練成果和什麼“三大一從”、“一元訓練理論”關係甚微,和孫海平的關係也沒有想像中那麼嚴苛。反倒是中期改變動作時和體育大學聯合開發的數據分析軟件(內部名稱就叫什麼什麼fly,嗯沒錯,就是劉翔最愛的英文單詞)關係更緊密一些。


後一大類有關運動的大數據應用,​​叫做“運動預測”,則是純粹性質和意義上的預測。


例如微軟和百度在世界杯結束後均宣布自己預測正確率超過80%,其實並非首創運動預測,這也不是行業內第一次做這類數學預測。


最傳統的數學預測方式,是類似538動輒使用的泊松分佈回歸分析法。這類方法用於預測評議類選項時的正確性頗高(參見538 預測從總統到奧斯卡的歷次成果),但是在足球比賽的結果預測上往往不盡如人意。


微軟的預測分成好幾部分在做,一會兒是微軟研究院與Office 團隊共同開發了一款Excel 工具,一會兒是微軟的個人語音助手Cortana,百度則只有一個工作部門弄了這個預測:“百度大數據實驗室負責人張潼教授進行了解答:…我們選擇了以下5 個方面的數據:球隊實力、主場效應、近期狀態、大賽能力以及博彩數據。對這五個維度的數據進行收集後,我們使用由大數據實驗室的科學家們設計的機器學習模型對數據進行匯總”、“搜索過去5 年內全世界987 支球隊的3.7 萬場比賽數據,並與國內著名彩票網站樂彩網、歐洲必發指數獨家數據供應商Spdex 等公司建立數據戰略合作夥伴關係,將博彩市場數據融入到預測模型中”……


實際上,對於這些預測方式,數據的採集才是他們的難點(重點數據在於球隊實力的數據化、近期球員狀態的數據衡量…),這些採集無論是主觀性還是大量冗餘信息的存在都難以進行有效的預測,而採用博彩數據進行核定才是重中之重。


當然,我個人建議百度以後加上烏賊劉指數做為重要權重予以參考。

 

 

這種方法也並非在這兩年才有,創立於上個世紀的Tipp24應該是最早把這個做出名的企業,他們專門針對歐洲博彩業進行下注和預測。必髮指數和凱利指數的數據統計應用也是各類博彩網站必備的手段之一。


其實方法上更接近傳統的統計分析,沒必要非掛上大數據的名字。


我們都知道競技比賽開始之前是會有博彩公司為此開出賠率的,通過各博彩公司的賠率進行統合進行的預測,又可以稱為“根據他人預測的預測”。實際上數據篩選本身就是由人工生成的數據產生的二次生成。


實際上,前面所說的分析方法也應用在了預測方面,畢竟模擬現實本身也是計算機技術的一個研究方向。


比較著名的包括科隆體育大學(German Sport University Cologne)的世界杯​​預測,科隆體大很早就根據自己在足球運動方面的觀察分析系統進行過各種有關比賽的預測。其中最著名的就是06 年世界杯的德阿點球大戰“紙條預測”,準確的靠高概率預測中了阿根廷守門員的撲救方向。


但是對於整個比賽結果的預測,由於涉及大量現實模擬內容,而博彩的權重比例相對很低,預測結果並不盡如人意。預測結果大概和我用《冠軍足球經理》湊兩個隊模擬十場的結果成功率差不多高。


當然,科隆體育大學和德國足協合作的項目重點本身,也不在於賽事預測,2004 年歐洲杯失利之後,德國足協就開始著手國家隊訓練方式的調整,有一個叫做Urs Siegenthaler(譯作烏爾斯·濟根塔勒,瑞士人)成為了之後十年的德國隊首席分析師。


09 年,Siegenthaler 和科隆體育大學的Buschmann 教授組成過31 個小組,進行4 類觀察分析(當時使用的還是老版的Posicap)。這些都成為了球隊訓練的一部分。


但是當把這些訓練數據拿來做還原模擬的時候,預測結果卻不盡如人意。簡單說——仿真模擬之路還很長。


因為分析預測與單純的“預測”不同的是,標記和統計體系在觀察分析下成為一項項更為細化的指標,指標量化變為質化結論的過程,本身就可以為球隊的改善作出有效的幫助——當然,需要和教練員共同進行人工處理才可以實現最後的步驟。


“預測”的現實意義,對於彩民來說更大一些。畢竟西方的成熟博彩業已經有了200 多年的歷史,大量的預測方法應用在各家博彩公司之中,例如elo 預測、進球率比較法之類,而將博彩預測法的結果進行統計學歸類,對於比賽預測不失為一種有效工具。


拋開體育,大量的生活中的數據面臨所謂的“大數據處理”,典型的案例即天氣預測。各類氣象指徵瞬時發生,以典型的“高頻複雜”的形式出現,給各類分析人員提供了大量的可參考數據,從這其中藉用建模工具分析提取有效指標,是一種典型的“大數據”應用。


同時還有金融行業交易時,各類金融期貨數據,每秒鐘因一個品種產生的買入賣出數據、量、需求量、成交價格…一秒鐘即有12 個數據,每小時42200 個數據,加上技術指標和成千上萬的品種,也是一種典型的高頻數據。但是複雜程度?除非需要進行分析預測,否則單純的指數並不復雜。


知乎上有人從事的用戶研究和趨勢研究後半部分,其實也是典型的長期討論中的大數據研究。成熟的例子自然是亞馬遜的用戶行為分析,但是普遍得出的結論過於簡單粗暴,分析複雜性還遠遠不夠。


常有軍粉說在軍事科學方面大數據如何如何,但是現在大到戰場模擬仿真(天氣、地形、敵我雙方態勢、後援預測…),小到武器的擊發測試(發射速度、風速、射表指徵、每一個測速點的形態、溫度…),這些都符合瞬發數據。但是至於這些數據如何復雜,還有待商榷。沒有具體到個體的態勢分析,我個人認為還稱不上大數據。


這些其實是同質的數據,但是無論是否同質,最終都是0 和1 的表現形式。人為的認定數據有不同的維度,才是定義數據“複雜”的根本。需要有不同維度的處理,才會形成“大數據”的概念。


要能夠高效處理數據,將數據的冗餘部分去處,將高效率低成本的數據存儲起來,形成新的數據表達方法,這種數據融合、跨學科的數據挖掘,才是談及現在“大數據”的根本意義。在數據界(data nature)裡面形成一套完整的生態。數據庫的發展過程是一個比較典型的例子,也為數據挖掘奠定了基礎,機器學習是下一步工作,形成研究而非研究目標,才可以縱談大數據。

 

資料來源:煉數成金

 


留下你的回應

以訪客張貼回應

0

在此對話中的人們

Popular Tags

每月文章