摘要: 編輯在 BDTC 2016中國大數據技術大會上,從科大訊飛大數據研究院副院長譚昶的演講中,發現了一個悲劇——編輯和同事的較勁測試得出的一些數據,說不定正在用於語訊飛語音技術的改進中。

 


科大訊飛在拿大數據做什麼生意

某天,編輯看到一位同事拿着手機和電腦在「聲情並茂」地朗讀他自己寫的稿件。

是不是太激動,覺得自己這篇可以點擊量「十萬+」?懷着這樣的疑問,編輯聽他用「湖南塑普」讀了一會。然後,他又朗讀了一遍。

編輯實在忍不住了:「朋友,你這麼開心?在幹嘛?」

這位同事「炫耀」式地拿着一段文本給編輯看——「你看準確率高不高?」

噢!他在測試訊飛語音的準確率!本着相互較勁能促使進步的理念,編輯自信地用國家認證的一級乙等普通話也讀了一遍。結果,準確率相較於這位「湖南塑普」同事,讓人大跌眼鏡。

你以爲編輯這篇要講技術和背後原理?不,此處需要一個反轉——今天編輯在 BDTC 2016中國大數據技術大會上,從科大訊飛大數據研究院副院長譚昶的演講中,發現了一個悲劇——編輯和同事的較勁測試得出的一些數據,說不定正在用於語訊飛語音技術的改進中。

衆所周知,科大訊飛的各位老大在很多場合,都對自己的「人工智能」和「大數據」十分自豪。

那麼,讓他們自豪的數據是從像編輯這樣的吃瓜羣衆中獲取的嗎?

按照譚昶的說法,訊飛的數據收集從6年前開始。

從 2010 年左右,訊飛開始做語音雲平臺,從那時開始真正擁有互聯網上用戶的大數據。

現在訊飛的大數據有多少?來簡單算一下:譚昶稱,目前訊飛約有 8.9 億的用戶,3.6億輸入法用戶,同時從其他領域獲得了很多非互聯網數據。

有哪些?

與運營商的合作的數據,如中國移動。 在智能家居、智能汽車領域的數據。 在智慧城市領域,和政府方面的合作數據。 ……

而這些數據的特別之處在於,由於其中很多數據是通過人臉、聲紋識別等獲得,更具有真實性。

拿到數據後,訊飛把這些數據放到一箇中型的分析及處理平臺上 。

當然現在也沒有看到哪個平臺能把基於人工智能的數據處理能力整合到平臺內部來。

譚昶承認,對人工智能很自豪的訊飛現在也在這個領域做一些嘗試和實踐工作。衆所周知,訊飛的數據大多數還是語音數據,把語音數據轉化成可處理的結構化的數據,真正挖掘這些數據的價值是重中之重。

他們現在的工作是,整合機器的GPU,進一步整合深度學習的算法模型。

數據到手,撒網捕魚

把數據資源拿到手後,雖然不知道科大訊飛把這些語音數據處理到哪種程度。但是,資源到手後,開始撒網捕魚是任何一個企業都會做的事情。

人機交互、教育、智慧城市是科大訊飛的大數據當前主攻的方向。這三個點其實不太新鮮,在今年科大訊飛董事長劉慶峯的兩會提案中,就已經涵蓋了這些領域。

然而,值得探究的是,在這三個大方向下,訊飛的數據生意到底怎麼做?怎麼變現?

譚昶揭祕:他們現在真正在做的大數據生意落地到三點——精準營銷、教育、政府服務。

1. 精準營銷

訊飛走了其他企業利用數據做生意的老路,因爲有十分成熟的模式。譚昶認爲,只要有自己用戶的畫像平臺,即數據 DMP 平臺,可以整合外部的數據,也可以單純使用內部數據,則既可爲自己精準營銷服務,也可爲外部企業的數據需求服務。

當然,挖掘這些數據的核心價值來對用戶進行分析、挖掘、獲取和引導的作用,最後的導流作用是直接變現還是對廣告點擊,要具體問題具體分析。

訊飛在這個領域起步其實比較晚,譚昶說,他們的主意是:

用戶8.9億,累計用戶12億,產生了1700類的標籤。不僅對內部的訊飛廣告平臺提供服務,也爲第三方的精準營銷提供數據交換和數據查詢服務。

人工智能的技術應用在了標籤精細化的工作中。在自然語言理解方面,因爲訊飛通過輸入法、開放雲平臺服務,產生了大量短文本的數據,在這種短文本數據的挖掘中,使用了人工智能的技術產生了「一種非常精細化」的標籤分類。

比如,基於聲紋做了性別、年齡的劃分,譚昶稱,基於用戶傳統的行爲數據或者日誌數據無法得到這些精細化標籤。

在大家都關注的變現上,金融領域對用戶的 1700 類標籤梳理後進行了廣告投放。在遊戲領域,尤其是對用戶的年齡分別或者性別的判斷,對遊戲定圖的效果影響很大。

2. 教育

譚昶介紹,訊飛現在在爲學校、教育主管部門對學生的成長過程進行數據採集和分析。

他們的關注點是,一是如何用人工智能手段蒐集到真正的教育過程數據,二是如何把過程數據轉化爲學生學習過程中的進步和優勢。

咱們先把素質教育拋在一邊,大家心知肚明的是,中國現在大部分升學手段依然是考試。

可能讀者你會說,在「考考考」的中國教育中,大家都用電腦考試就好了呀,這不就有數據?不過,你以爲所有的試卷都是電子試卷嗎?這讓中國差異化的經濟發展水平情何以堪。

如何做到無紙化收集數據?

訊飛退了一步:試卷還是有紙化,但可以掃描成無紙化。

退了一步後,發現掃描誰都會做,人工智能已經解決了這個問題,不需要讓人判試卷,不僅可以閱卷答題卡上的答案,還可以讓機器判作文、主觀題、閱讀題,這就又回到了訊飛的特長——用人工智能來解決非結構化的學習過程採集。

下一步就是解決如何讓非結構化的過程數據變學習指導,打造個性化家庭教師。

其實說起來也很簡單。比如,小明同學進行了一場考試,不幸錯了很多題,回家要被家長進行語重心長的教育,這時機智的教育工具就來了,它針對小明的成績的情況以及薄弱點,經過簡單分析得到了結論。通過這些結論推薦相應的課程學習的課件、老師講解的題目,以及所有可以做的練習題,按照難易程度、知識點的覆蓋面精準推送。

不過,譚昶發現了一個難點:這個推送聽起來和做廣告推送沒什麼區別,但機器學習是非常痛苦的,因爲廣告每秒鐘可以學習一千次,但一個學校、一個學期可能只能學習幾千次。

還有一個潛在的問題是:小明怎麼辦?明明一頓教育可以解決,現在需要多做好多試卷和題(開玩笑,還是要好好學習)!

3. 智慧城市

談到政府服務,由於「歷史問題」,你一定經歷過爲了辦一個事情,需要跑幾個、十幾個、甚至幾十個政府單位蓋章的慘劇。

除了不能描述的一些原因,一個重要的問題是——很多部門、政府單位「各自爲政」,形成了信息孤島。

還有一個軟的數據標準,數據共享的標準,數據交換的標準,以及相應的政策支持,這些工作都需要有大量的投入,大量的精力、人力,而政府沒辦法做這些事情,需要有很多的企業服務這樣的工作,爲政府建立政務數據流通和交換的生態系統。

譚昶認爲,這是訊飛能「入手」的點。

按照訊飛在某省的實踐來看,如果把數據打通了,除了可以構建一站式政務辦理,原來分散在公安局、稅務局、工商局的各種企業數據可以進行全面融合和共享,共享後可以像對互聯網用戶做畫像一樣,做企業的畫像。

通過企業畫像,可以對企業間的社交關係,即投融資的關係進行分析,對企業做整體的標籤化、對企業重點的獎懲信用方面都可以做出相應的數據化分析,這些結論最後可以用於政府的監管過程,實時監督,聯合執法。

他們也和運營商進行了合作,將城市的地理信息數據變成城市交通的疏導和管理工具。譚昶稱,

這樣的數據,通過任意一家運營商,精確度很差,需要用很多手段把數據的精確度,變成非常精細化的軌跡的分析數據,這樣的數據經過分析之後可以得到城市的交通情況,不需要任何在線的浮動車、探頭就可以得到實時的交通情況。

還可以做更精細化的工作。在匿名化條件下的移動軌跡,如果任意選擇一個區域或者一個路口,每一個白點代表着一個移動軌跡的移動,整個移動軌跡全部整合起來後,可以看到導致路口擁堵的車輛來源於哪裏,到了哪裏去,它們的聚集、分析以及疏導,可以基於這樣的統計工作進一步展開。

除了點線,還可以發現人羣的聚集區域有沒有發生踩踏事故的風險,提前20~40分鐘進行預警。

注:BDTC 2016 中國大數據技術大會由中國計算機學會(CCF)主辦,CCF 大數據專家委員會協辦,有大量大數據和人工智能的乾貨分享。

轉貼自: 趣讀

 


留下你的回應

以訪客張貼回應

0
  • 找不到回應

熱門標籤雲

每月文章