摘要: 我認為,因子可用性半衰期較短的說法基本上適用於高頻因子。如果對高頻因子進行回溯測試,它們有時看起來幾乎和風險不相關,只有非常高的回報,一旦人們發現這些因子好得令人難以置信,效果就會很快消失。而我們使用的是更長期的因子,回報期限為幾個月,有時甚至長達一年。我們意識到,與這些因子相關的風險是存在的,但事實證明它們能長期發揮作用。 人工智能和機器學習策略最終表現如何?新的數據類型在預測股票回報和風險方面有多大的利用價值?這些還有待觀察。我猜測,結果將令人大失所望。一些新的數據類型將具有價值,但很多類型可能將沒有價值。機器學習和人工智能同樣如此。在當今的AI工具中,可能只有一小部分工具將會有用。 我認為,機器人投顧是重大進展之一,可以在很大程度上改變資產管理行業的運作方式。進展是全方位的,也包括其他的服務提供商、投資組合分析提供商等等。

摘要: 羊毛黨,是一個令網貸平台談之色變的群體,這篇《P2P網貸市場中的“羊毛黨”及其對平台的影響》論文,從羊毛黨的產生、行為特點和運作方式進行了細緻分析,並歸納了判斷平台是否遭遇羊毛黨攻擊的特徵,具有參考價值...

摘要: 作為目前虛擬貨幣中的“領頭羊”,比特幣聲名在外。而在比特幣的產出環節,比特幣“礦場”如何運轉,盈利情況如何?外界尚難知曉更多。比特幣“礦機”24小時不停地進行哈希碰撞,是為了爭奪區塊鏈的記賬權。誰記賬, ...

摘要: 在P2P市場逐步降溫、趨於理性之際,以經典資產組合理論為基礎、結合大數據分析和人工智能的“智能投顧”從海外流傳到國內並受到廣泛關注,一方面,投資機構對它們青睞有加,融資消息頻傳,另一方面,互聯網強者和傳...

 


智能投顧的發展現狀和未來發展趨勢

“These violent delights have violent ends”(狂暴的歡愉必將有狂暴的結局)——《西部世界》裡這句出自莎翁筆下的經典台詞,用來形容近幾年國內P2P市場的火爆與亂象恰到好處。從餘額寶引發的歡愉,到招財寶“僑興債”違約帶來的陣痛,P2P從最初的野蠻生長到最近的反思整頓,完成了一個週期,市場反复教育投資者:收益和風險正相關,只有根據自己的風險偏好進行分散配置才是健康的理財方式。

在P2P市場逐步降溫、趨於理性之際,以經典資產組合理論為基礎、結合大數據分析和人工智能的“智能投顧”從海外流傳到國內並受到廣泛關注,一方面,投資機構對它們青睞有加,融資消息頻傳,另一方面,互聯網強者和傳統金融機構也爭相佈局。

然而,資本的熱情並沒有點燃國內投資者的激情,市場表現出謹慎觀望的態勢,智能投顧出現了“水土不服”。有鑑於此,筆者將結合智能投顧在美國的發展趨勢和國內的發展現狀,以及國內理財市場的特點,探索下階段智能投顧在國內可能的發展趨勢。

一、 智能投顧簡介

“智能投顧”即利用大數據分析、量化模型及算法,根據投資者的個人收益和風險偏好,提供相匹配的資產組合建議,並自動完成投資交易過程,再根據市場變化情況動態調整,讓組合始終處於最優狀態的財富管理服務。智能投顧的服務流程包括:客戶分析、構建投資組合、自動執行交易、動態調整組合、投資組合分析。

與依靠理財師、投資顧問實現的傳統投顧服務比較,智能投顧具有多方面特點:

大數據、人工智能:大數據和人工智能是智能投顧最核心的技術,也是與傳統投顧相比較的最大優勢。用戶行為大數據與金融交易大數據是機器學習的“養料”,它們馴化出來的人工智能是整個智能投顧的核心。

門檻低、費率低:傳統投顧只服務於中高淨值人群,而且每年收取的諮詢費率昂貴,智能投顧大大降低了門檻和費率,讓投顧服務觸達長尾市場。

透明化、便捷化:智能投顧的投資組合完全公開,服務流程標準、簡潔。

二、 智能投顧在美國的發展現狀和趨勢

2008年金融危機過後,美國傳統金融機構還在忙於應對公眾巨大的信任危機和嚴苛的監管政策之際,以Betterment和Wealthfront為代表的智能投顧創業公司成長起來,它們通過互聯網信息技術手段,降低投資門檻,為用戶提供個性化、低費率、透明化、便捷化的財富管理服務,成為了行業的一股清流。受益於人口結構變化、人工智能技術發展和監管法規等因素,智能投顧管理的資產規模從2010年以來複合增長率超過80%,到2017年末有望達到千億美元。根據My Private Banking的預測(圖2),在未來的五年中,美國智能投顧行業將保持高速增長態勢,預計在2020年全行業資產管理規模將達到1.6萬億美元。

從參與主體和進入時間的角度來看,美國的智能投顧公司可以分為獨立創新公司和傳統金融機構兩類,前者以Betterment、Wealthfront和Personal Capital為代表,後者以Vanguard和Charles Schwab為代表。Betterment和Wealthfront作為行業創新標杆,通過快速產品迭代,不斷開發新的理財產品,來保持領先地位,到2016年年中,它們管理的資產分別達到了50億美元和35億美元。

Vanguard和Charles Schwab是佈局智能投顧較早的傳統金融機構,截止2016年6月,Vanguard Personal Advisor Services和Schwab Intelligent Portfolios管理的資產分別達到了310億美元和66億美元,成為市場最大的兩家平台。除此之外,2016年以來,德意志銀行(Deutsche Bank)、TD Ameritrade、美銀美林(Bank of America & Merrill Lynch)以及高盛(Goldman Sachs)等也大舉進入智能投顧領域,還有更多的傳統金融機構躍躍欲試。可以看到,雖然這些傳統金融機構的智能投顧平台成立較晚,但是依託其龐大的客戶群體、強大的產品線、優質的品牌形像以及多元化而全面的服務,一方面吸收了公司原有平台客戶以及新增客戶,另一方面還為依托平台的傳統投資顧問提供智能投顧產品以便於其更好地服務客戶。

從服務對象和服務方式來看,美國的智能投顧又可以分為2C、2B以及綜合性服務三大類,第一類直接為C端用戶提供服務,第二類為金融機構提供智能投顧解決方案以更好服務其客戶,第三類同時為用戶以及顧問群體提供服務。根據線上服務和傳統服務的結合程度,2C的智能投顧又可以細分為純智能化平台、人工投顧協助平台兩類。

1、 純智能化平台

這類平台通過完全自動化操作幫助客戶完成用戶畫像、資產組合建議、組合交易、動態調整和分析報告,全過程無人工干預。其特點是智能化程度高、產品迭代快速、費率最低,其客戶群體更多定位於年輕用戶、科技愛好者。這一類平台的典型代表性是Wealthfront和Betterment。

2、 人工投顧協助平台

這類平台將智能投顧與人工投顧相結合,為所有用戶免費提供財務狀況分析、投資風險評估、投資組合建立與優化等服務,具有強大的工具屬性,能很好地隨時跟踪用戶理財以及費用支出等方面的行為,可以幫助用戶更好地實現理財目標,同時也向有需要的客戶提供收費的私人投資顧問服務。這一類平台的典型代表性是Personal Capital。

3、 機構服務平台

這類平台為傳統機構以及獨立第三方財務顧問提供智能投顧解決方案,並不直接面對客戶。其特點是滿足第三方機構研發能力不足的需求,極大降低了自身獲客成本,可以致力於研發更具創新型、智能型的投顧產品。這一類平台的典型代表性是Myvest和nextcapital。

4、 傳統金融機構的綜合服務平台

傳統金融機構利用自身資源以及規模優勢,同時為用戶以及顧問群體提供服務,不僅利用智能投顧作為特色吸收了公司原有平台客戶以及新增客戶,還可以為依托平台的傳統財務顧問提供智能投顧產品以便於其更好地服務客戶。其特點是,傳統金融機構平台自身擁有豐富的產品線,可以自主發行和管理不同的ETF產品,提供交易、清算等一系列多樣服務,而實現全產業鏈整合,為客戶提供全方位周到的服務。這一類平台的典型代表性是Vanguard和Charles Schwab。

隨著傳統金融機構的進入,行業競爭加劇,獲客成本上升、價格競爭激烈,美國智能投顧行業發展呈現一些趨勢:

隨著大數據、人工智能技術的發展,智能投顧技術將成為財富管理行業的基礎設施;

創新型2C平台競爭將更加激烈,除個別領先平台通過快速的產品迭代形成差異化優勢並脫穎而出之外,大量平檯面臨死亡或轉型;

從單純2C模式向2B2C模式轉變——將原本用於客戶營銷的大量精力轉移至產品創新以及研發(Betterment專門新成立的Betterment For Advisor和瑞銀、高盛等機構合作就是典型案例);

傳統金融機構後發製人,收購和自主研發投入會更大,將推動智能投顧行業更加快速增長。

三、 智能投顧在國內的發展現狀

我國居民家庭財富穩步增長,中產階級日益擴大,財富管理市場空間巨大,但投資渠道稀缺,經過一輪P2P市場的洗禮,互聯網理財開始廣泛被接受並且流行,同時大眾的風險意識也有所提高,年輕一代對互聯網財富管理更加認同。在這個背景下,2014年底,智能投顧概念開始引入我國,隨後大量的科技創業企業開始出現,2015年下半年以後傳統金融機構也大力佈局智能投顧方向。

國內智能投顧的發展雖然跟隨美國,但由於用戶特徵、金融市場發展程度、稅收體制以及監管差異等因素(表2),也存在一定程度的區別。從參與主體和進入時間的角度來看,國內的智能投顧公司可以分為獨立創新公司、互聯網強者佈局和傳統金融機構佈局三類(表3)。如果按照用戶定位、投資標的和平台形式又可以分為四大類別,包括2C創新平台、資產配置建議平台、主動投資建議平台以及綜合理財平台。

2C創新平台

相對於美國有1600多支ETF(淨資產2.1萬億美元),國內ETF僅130多支(淨資產4729億人民幣),而且主要是傳統的指數型ETF,其他的債券型ETF和商品型ETF等較少,難以有效分散風險,同時,國內股票市場波動劇烈,指數型ETF穩定性較差,也不適合於構建被動資產組合。另一方面,在人民幣貶值的預期下,國民有很強的海外資產配置需求,因此,目前國內很多智能投顧平台都選擇以海外資產作為投資標的。這些創新平台直接對標美國的Betterment和Wealthfront,如彌財、財鯨、投米RA和藍海智投等公司,它們提供海外ETF或美股的自動配置和動態調整服務,但受到獲客成本高昂和外匯管制等因素的較大製約。

資產配置建議平台

這一模式通過全市場各類型產品數據的實時抓取,統計各類型金融產品的收益率數據、風險指標等,對市場上的各類型金融產品進行篩选和排序,結合用戶的風險評測指標,幫助用戶選取最為適合的金融產品組合。典型案例是財魚管家。

主動投資建議平台

這類平台利用大數據,實時分析有價值的新聞信息和交易數據,分析數據之間的關聯性,結合用戶的自選股,為股民提供最有價值的交易策略。典型案例是同花順iFinD和百度股市通。

綜合理財平台

這類平台將智能投顧功能很好地整合到公司原有運營的體系,通過對接內部以及外部投資標的,既能更好地服務原有體系的客戶,還可以吸引新增投資者。這些綜合理財平台不僅能達到更好地服務投資者的目標,還可以推動自身理財產品的銷售,達到多重效果。其特點在於綜合理財平臺本身就擁有很好的客戶資源,廣泛的銷售渠道,以及覆蓋面廣的資產標的等優勢,其智能投顧平台在客戶獲取和用戶體驗等方面就較其他平台更具有競爭力。典型案例有平安一賬通、京東智投、招商銀行摩羯智投等。

四、 國內智能投顧可能的發展趨勢

結合國內的市場情況來看,在接下來一個階段,我國智能投顧行業的發展將呈現以下特徵:

1、智能投顧的核心是模型和算法,它們需要長時間序列的數據進行學習和修正,也需要較長的時間週期經由市場檢驗,而這些條件在國內市場短時間難以滿足,另一方面,在人民幣貶值的大背景下,國內投資者俱有很強的海外資產配資需求,因此,擁有海外資管經驗的優秀團隊可能在海外資產配置的細分領域獲得階段性機會。但是,在國內市場缺乏對沖標的、外匯管制趨緊的市場環境下,大部分獨立創新型2C智能投顧生存堪憂。

2、從投資者角度來看,一方面,國內股票市場散戶佔比較高,他們更傾向於以市場風向為主導,關注市場短期波動,依賴於追漲殺跌的短期策略,更傾向於個股的簡單化操作,較少採取分散投資組合投資,另一方面,智能投顧提供的預期收益率與隱含剛性兌付的P2P等資產相比並無明顯優勢,用戶教育還有很長的路要走。但是,擁有強大的用戶運營能力和用戶行為數據分析能力,能夠幫助用戶管理、分析理財賬戶並提供資產配置建議的智能投顧,類似財魚管家等,更容易獲得用戶的認可。

3、對大多數獨立創新型2C智能投顧,其最可行的模式是為傳統機構以及獨立第三方財務顧問提供智能投顧解決方案,從直接2C調整到以2B為主的模式,這樣,其盈利模式不再直接面向客戶,將極大降低它們的營銷成本,讓它們在激烈的競爭中存活下來。另一方面,對於傳統金融機構而言,通過與智能投顧平台合作實現對自身服務種類的補充,是階段性實現雙方利益最大化的有效路徑。

4、近期來看,智能投顧在高淨值客戶財富管理市場,更多扮演著工具的角色。智能投顧將後台功能簡化、財富管理數字化、資產建議智能化,幫助財務顧問更好、更有效地服務其客戶。對於之前缺乏理財顧問服務的長尾市場而言,智能投顧更大程度滿足P2P市場洗禮出來的客戶對被動投資的需求,對於現有財富管理市場起到更好的補充作用。

5、將來中國智能投顧格局會與美國行業格局相仿,佔據客戶資源和渠道資源,具有成本、規模優勢的綜合性平台將佔有較大的市場份額。在基金銷售端佔據優勢以及擁有龐大客戶資源的互聯網系京東、同花順等具有較大潛力,而擁有廣泛的零售客戶、龐大的投顧團隊、眾多的線下網點以及強有力的基金銷售渠道的券商系、銀行系傳統金融機構也會在智能投顧領域具備強勢地位。

轉貼自: 煉數成金

摘要: 區塊鏈把現在互聯網升級2.0版,實現“信息互聯網-價值互聯網-秩序互聯網”三步曲中的首次升級換代;甚至將重構社會在線上和線下的價值信用體系,通過價值分享,推動形成人類社會在信息文明時代的價值度量衡。

 


區塊鏈應用全圖景

區塊鏈把現在互聯網升級2.0版,實現“信息互聯網-價值互聯網-秩序互聯網”三步曲中的首次升級換代;甚至將重構社會在線上和線下的價值信用體系,通過價值分享,推動形成人類社會在信息文明時代的價值度量衡。

2017年伊始,比特幣價格上演驚魂“過山車”式跌宕,1月5日突破歷史新高一度逼近9000元,並迅速跳水觸及6000元。比特幣價格波動是多方面原因,但毋庸置疑的是新金融科技正在接受廣泛關注。尤其是作為比特幣底層架構技術的區塊鏈,被行業譽為“信任的機器”,成為2016年最為炙手可熱的金融科技。

近日,歲末年初交接時期,總結和展望區塊鏈的發展,貴陽市政府新聞辦公室、CCIDConsulting等多家機構相繼發布《貴陽區塊鏈發展和應用》《2016中國金融區塊鏈演進、應用及投資價值研究》等行業報告,從發展階段、應用價值、投資價值、總體設計等角度對區塊鏈發展進行了全面梳理和闡釋。

區塊鏈將把現在互聯網升級為2.0版,實現“信息互聯網-價值互聯網-秩序互聯網”三步曲中的首次升級換代;甚至將重構社會在線上和線下的價值信用體系,通過廣泛共識和價值分享,推動形成人類社會在信息文明時代的價值度量衡,從而構建新的誠信體系、價值體系、秩序規則體系。

一、 區塊鏈:信任的機器

當前,對於區塊鏈的定義,各方不盡相同。CCIDConsulting認為,區塊鍊是一種分佈式賬本構造技術,可以在去中心化的系統中構建不可篡改、不可偽造的分佈式賬本,並保證系統中各個節點所擁有賬本的動態一致性。

(CCIDConsulting:分佈式賬本與中心式賬本對比示意圖)

網錄科技創始人呂旭軍錶示:區塊鏈的本質是通過交易與記賬同步,減少重複工作和錯誤率、提升效率、避免人為造假;按時間軸分佈式存儲增加篡改成本;通過信息流與價值流同步,減少中間環節、提升交易效率、降低交易成本;按照同一規則運行降低管理成本。

(網錄科技呂旭軍:區塊鏈的工作機制)

二、 區塊鏈3大應用領域:重塑政務、民生、商業的底層架構

當前,根據區塊鏈的性質和開放程度的不同,普遍形成的共識是:對所有開放的是“公有鏈”、針對單獨個人和實體的是“私有鏈”,介於兩者之間的是“聯盟鏈”;分類的核心在於,應用系統中存在的中心節點的數量。CCIDConsulting指出,金融區塊鏈的應用或將以聯盟鍊為主,原因在於公有鏈完全無中心,不利於政府監管和保護隱私,而聯盟鏈能夠在2者之間尋找平衡點。

(區塊鏈的分類-根據開放程度和中心節點的數量)

在應用層面,圍繞數字經濟、互聯網治理和大數據發展中的價值實現,區塊鏈規劃的應用場景分為政用、民用、商用3類,包括應用層、合約層、激勵層、共識層、數據層、網絡層6個層次。

(區塊鏈發展總體架構)

1)在政務方面,主要應用於①政府數據共享,通過構建專屬的私有鏈,解決數據共享監管弱、數據關聯風險較大等痛點;②數據提籠監管;③互聯網金融監管,如利用區塊鏈記錄網貸客戶信息,保護客戶隱私,通過公司算法驗證交易,保證監管機構對節點的跟踪和控制。

2)在民生方面,主要應用於①精準扶貧,結合指紋識別等技術實現扶貧對象的識別和退出、以及基金管理等;②個人數據服務中心,通過用戶分層、數據驗證、數據獲取和存儲,實現數據共享;③個人醫療健康數據,解決數據分散、不完整、共享難的痛點;④智慧出行,建立引導鏈、停車鏈、充電鏈,以及車輛租賃鏈、公共交通鍊等,實現方便高效的出行。

3)在商業方面,主要應用於①票據,通過建立互信的票據鏈平台,降低交易成本,實現傳統票據市場向數字票據跨越;②小微企業信用認證,利用區塊鏈與大數據技術,還原小微企業行為特徵、風險畫像、信用水平,從而形成整體智慧風控解決方案;③數據教育與數據資產流通;④供應鏈管理與供用鏈金融,運用區塊鏈技術解決供應鏈跨度大、缺乏透明度、違法行為調查難等痛點;⑤貨運物流,解決車貨數據不對稱、效率低、物流糾紛多、司機徵信記錄缺失等痛點。

CCIDConsulting指出,區塊鏈帶來的應用分為3個階段:數字貨幣-可編程金融-可編程社會;金融區塊鏈的應用主要涉及前兩個階段;在未來一段時間,數字貨幣依然是金融區塊鏈的典型應用。

(CCIDConsulting:金融區塊鏈產業全圖景)

三、 金融區塊鏈的5大典型應用場景:

商業和金融領域的應用方面規劃方向是:①票據;②小微企業信用認證;③數據交易和數據資產流通;④供應鏈管理與供應鏈金融;⑤貨運物流。在麥肯錫2016年中發布的《中國銀行業白皮書》中則增加了證券發行與交易。

(億歐:區塊鏈應用的5大金融場景)

麥肯錫認為,證券的發行與交易的流程手續繁雜且效率低下,區塊鏈技術使得金融交易市場的參與者享用平等的數據來源,讓交易流程更加公開、透明、有效率。Chain與Nasdaq已經推出私募股權市場交易平台。

而與此相似,CCIDConsulting金融區塊鏈的應用並未提到企業徵信及反欺詐,當前徵信業,尤其是互聯網徵信普遍正在積極探索區塊鏈的研發和落地,它能夠為徵信環節帶來更高效​​和便捷的體驗。

(麥肯錫:區塊鏈應用最可能發生在支付、交易銀行、資本市場及投資銀行業務)

1)數字貨幣。雖然數字貨幣的研究仍處於初期,但CCIDConsulting指出,它的到來已經勢不可擋,區塊鏈有望在數字貨幣領域擔當重要技術保障。2013年12月,央行等發布《關於防範比特幣風險的通知》,將比特幣定義為“虛擬商品”而非傳統意義上的貨幣。但目前,中國央行正積極籌備成立數字貨幣研究所,並招聘專職人員對數字貨幣展開研究。

數字貨幣設計的關鍵在於消除單點故障、保障賬本數據安全。區塊鏈技術綜合已有技術,通過分佈式記賬、存儲有效消除網絡單點故障,並通過共識機制保障賬本數據一致性、安全性和可追溯性。目前,使用區塊鏈技術的典型數字貨幣包括比特幣、以太坊、萊特幣和瑞波幣。

2)智能合約。智能合約是一套以數字形式定義的承諾,包括合約參與方可以在上面執行這些承諾的協議。智能合約的外在表現形式是程序,其內定義了合約參與方的權利和義務。區塊鏈技術的不可篡改特性可保障智能合約的執行,可以為智能合約提供運行的平台。目前,典型的智能合約平台為以太坊。

然而,CCIDConsulting指出,智能合約的發展也面臨重重問題:①目前的數字資產化程度不足,智能合約的應用依賴於資產數字化,資產數字化後才可通過編程的方式完成資產流動。②智能合約自身的實施方案仍不成熟,其安全性仍有待商榷。

3)跨境支付。這是當前被行業普遍認為區塊鏈最能發揮價值的應用領域,主要原因在於傳統跨境支付的多個痛點:需要經過開戶行、央行、境外銀行、代理行、清算行等機構,每個機構都​​有自己的賬務系統,因此速度慢、效率低。

(麥肯錫:區塊鏈解決方案使得B2B跨境支付中的中轉銀行不再需要)

2016年10月,工信部發布《中國區塊鏈技術和應用發展白皮書(2016)》中指出,“區塊鏈+支付”的應用場景,在跨境支付領域尤為明顯,除了降低金融機構間的對賬成本及爭議解決的成本,提高支付業務的處理速度及效率;同時,也為以前不符實際的“小額跨境支付”開闢了廣闊空間。

然而,京東金融戰略研究部支付研究專家魏敏表示,跨境支付的難點或許並非在於技術本身,它能否實現大規模增長,政策因素更多一些。

4)供應鏈金融。CCIDConsulting指出,在供應鏈金融鏈條中,核心企業及上下游企業的信息流、物流、資金流信息的整合至關重要。但目前各企業維護自己的數據信息,信息孤島增大了信息整合的難度。而區塊鏈技術將每個交易方變成網絡中的一個節點,企業的各項資產、產品以數字化的形式在網絡中體現,任一節點間的交易都會被全網認定,物流信息也可通過產品地理位置信息的改變在網絡中體現。同時,區塊鏈保證交易信息不可篡改。

據麥肯錫測算,在全球範圍內區塊鏈技術在供應鏈金融業務中的應用,能幫助銀行的運營成本一年縮減約135-150億美元、風險成本縮減11-16億美元;買賣雙方企業一年預計能降低資金成本約11-13億美元及運營成本16-21億美元。

5)大數據交易。CCIDConsulting指出,自貴陽大數據交易所成立,全國陸續出現了15個區域性大數據交易中心。截至2016年9月1日,貴陽大數據交易所的交易額累積突破1億元,交易框架協議接近3億元。未來3-5年,大數據交易將呈現爆發式增長。

但數據交易雙方的責任認定困難。數據具有很強的偽造性和可更改特性。而區塊鏈的防篡改特性可明確問題責任方,溯源、加密特性可保護數據擁有方的權利。

2016年11月,京東雲旗下的京東萬像數據服務商城宣布將使用區塊鏈技術用於大數據交易,實現數據的確權、溯源。這是首個明確公開表示應用區塊鏈技術保障大數據交易的平台。

轉貼自: 煉數成金

by 崔維福

情感分析是學術領域研究多年的課題,用google學術搜索可以找到很多paper,基本的方法上有基於詞典規則的方法、語言文法的方法,此外還有分類器以及近幾年比較火的深度學習的方法(稍後有詳細介紹)。

各類paper是有一定的借鑒意義的,不過這主要是學術界在單個問題上的細化,要真正從研究領域落地到大數據的處理還有很多工作要做。

一、工程上的處理流程

工程上的處理流程具體包括以下幾個方面:

1、情感分析任務的界定

在進行情感分析任務的界定時,要弄清楚工程的需求到底是什麼;要分析文本的哪個層面上的情感,比如篇章、段落、句子、短語、詞等粒度;是不是要分析所有的文本還是分析其中的部分文本;准許的錯誤誤差是在個什麼範圍內等。

2、情感分析標準的製定

在實際的企業應用中往往要根據行業的特點來製定一些情感分析的標準,甚至要從客戶的立場中去建立標準。根據國雙實際接觸客戶的經驗,在行業上建立標准後,還需要再具體跟客戶做一些適度調整。

3、 語料數據加工、詞典加工

有了上一步的工作, 接下來進行加工語料或者字典的總結。這一步中不同的方法要做的工作不同,基本上是鋪人力的工作,難點是讓各個語料加工人員能協調一致,執行統一的標準(通常會在這個過程中還會反作用到第二步情感分析標準的製定,因為看到實際數據後會發現標準總會有一些模糊地帶)

4、根據數據特徵、規模等選擇合適的方法,並評測方法的優劣

工程中的方法並不是單一的方法,想用一個方法或者模型來解決各類數據源上的問題是不可能的。想要做出好的效果一定是採用分而治之的思想,比如,能用規則精準過的就不需要用分類器。

當應用在實際產品時,最好能結合產品的垂直特點,充分利用垂直行業的特性,比如在金融行業、汽車行業,它們一定有自己的行話,這些行話具有非常明顯的規則或者特徵。

二、情感分析方法及工具

情感分析對象的粒度最小是詞彙,但是表達一個情感的最基本的單位則是句子,詞彙雖然能描述情感的基本信息,但是單一的詞彙缺少對象,缺少關聯程度,並且不同的詞彙組合在一起所得到的情感程度不同甚至情感傾向都相反。所以以句子為最基本的情感分析粒度是較為合理的。篇章或者段落的情感也可以通過句子的情感來計算。

現階段關於情感分析方法主要有兩類:

(一)、基於詞典的方法:

基於詞典的方法主要通過制定一系列的情感詞典和規則,對文本進行拆句、分析及匹配詞典(一般有詞性分析,句法依存分析),計算情感值,最後通過情感值來作為文本的情感傾向判斷的依據。

做法:

基於詞典的情感分析大致步驟如下:

  • 對大於句子力度的文本進行拆解句子操作,以句子為最小分析單元;
  • 分析句子中出現的詞語並按照情感詞典匹配;
  • 處理否定邏輯及轉折邏輯;
  • 計算整句情感詞得分(根據詞語不同,極性不同,程度不同等因素進行加權求和);
  • 根據情感得分輸出句子情感傾向性。

如果是對篇章或者段落級別的情感分析任務,按照具體的情況,可以以對每個句子進行單一情感分析並融合的形式進行,也可以先抽取情感主題句後進行句子情感分析,得到最終情感分析結果。

參考及工具:

1. 常見英文情感詞庫:GI(The General Inquirer)、sentiWordNet等;

2. 常見中文情感詞庫:知網、台灣大學的情感極性詞典;

3. 幾種情感詞典構建方法:基於bootstrapping方法的Predicting the semantic orientation of adjectives及Determining the sentiment of opinions兩種最為經典的詞典構建方法。

(二)、 基於機器學習的方法:

情感詞典準確率高,但存在召回率比較低的情況。對於不同的領域,構建情感詞典的難度是不一樣的,精準構建成本較高。另外一種解決情感分析的思路是使用機器學習的方法,將情感分析作為一個有監督的分類問題。對於情感極性的判斷,將目標情感分為三類:正、中、負。對訓練文本進行人工標註,然後進行有監督的機器學習過程,並對測試數據用模型來預測結果。

處理過程:

基於機器學習的情感​​分析思路是將情感分析作為一個分類問題來處理,具體的流程如下:

1、 文本預處理

文本的預處理過程是使用機器學習作用於文本分類的基礎操作。由於文本是非結構化數據及其特殊性,計算機並不能直接理解,所以需要一系列的預處理操作後,轉換為計算機可以處理的結構化數據。在實際分析中,文本更為複雜,書寫規範也更為隨意,且很有可能摻雜部分噪聲數據。整體上來說,文本預處理模塊包括去噪、特徵提取、文本結構化表示等。

特徵抽取:中文最小語素是字,但是往往詞語才具有更明確的語義信息,但是隨著分詞,可能出現詞語關係丟失的情況。n-元文法正好解決了這個問題,它也是傳統機器學習分類任務中最常用的方法。

文本向量化:對抽取出來的特徵,向量化是一個很重要的過程,是實現由人可以理解的文本轉換為計算機可以處理數據的重要一步。這一步最常用到的就是詞袋模型(bag-of-words )以及最近新出的連續分佈詞向量模型(word Embedding)。詞袋模型長度為整個詞表的長度,詞語對應維度置為詞頻,文檔的表示往往比較稀疏且維度較高。Embedding的表示方式,能夠有效的解決數據稀疏且降維到固定維度,更好的表示語義信息。對於文檔表示,詞袋模型可以直接疊加,而Embedding的方法可以使用深度學習的方法,通過pooling得到最終表示。

特徵選擇:在機器學習分類算法的使用過程中,特徵好壞直接影響機器的準確率及召回率。選擇有利於分類的特徵,可以有效的減少訓練開支及防止模型過擬合,尤其是數據量較大的情況下,這一部分工作的重要性更加明顯。其選擇方法為,將所有的訓練語料輸入,通過一定的方法,選擇最有效的特徵,主要的方法有卡方,信息熵,dp深層感知器等等。

目前也有一些方法,從比句子粒度更細的層次去識別情感,如基於方面的情感分析(Aspect based Sentiment Analysis),他們從產品的評價屬性等更細粒度的方面對評價主體進行情感傾向性分析。

2、分類算法選擇

文本轉換為機器可處理的結構後,接下來便要選擇進行機器學習的分類算法。目前,使用率比較高的是深度學習(CNN,RNN)和支持向量機(SVM)。深度學習的方法,運算量大,準確率有一定的提高,所以都在做這方面的嘗試。而支持向量機則是比較傳統的方法,其準確率及數據處理能力也比較出色,很多人都在用它來做分類任務。

參考及工具:

1. svm分類libsvm

2. python 機器學習工具scikit-learn

3. 深度學習框架:Tensorflow、Theano

本文選自國雙商業市場在知乎的回答。

 

轉貼自: 36大數據

摘要: 近日,埃森哲發布《銀行區塊鏈投資價值分析報告》(Accenture Banking on Blockchain)。報告指出,與許多新技術一樣,區塊鏈的創新技術為銀行業注入了許多興奮和刺激。一些分析人士將其革命性的潛力與互聯網相提並論。因為這種創新大幅度的提高了效率,大大降低了風險,節省了數十億美元。

 


埃森哲《銀行區塊鏈投資價值分析報告》中文版

一、 區塊鏈令人激動的特性

與許多新技術一樣,區塊鏈產生了很多的讓人激動的事情。一些分析師將區塊鏈革命性性的潛力比作互聯網,具有強大的效率提升,節省數十億美元,大大降低風險的能力。但其中也有不少炒作成分。那麼,區塊鏈確實能帶來什麼樣的成本/效益率,業務應用和投資回報率?為了了解這些,我們與頂級基準公司Mclagan(Aon plc的業務部門)合作,進行深入的影響分析,並對成本節約和可能實現的其他收益進行了基於事實的估計。

首先,為什麼區塊鏈讓人激動呢?區塊鍊是分佈式賬本技術的一個總稱,它在本質上是一種新型的數據庫系統,使多方能夠以共識機制在相同的時間對相同數據進行訪問。目前,數據一致性是大多數商業模式的核心。然而,由於每個人都保留自己的數據,所以該過程被低效率所困擾,例如不同方需要不斷地在它們之間來回地發送數據以完成事務。相比之下,區塊鏈可以實現從今天的多重和連續數據協調模型到更高效的過程,其中對賬是交易過程的一個組成部分。

因此,對銀行來說,長期機會是將重要的運營、風險和財務系統重新分配給基於區塊鏈的共享數據平台。這將使銀行的數據處理過程和數據基礎設施大部分退役, 雖然達到這個最終狀態將需要較長時間和多次迭代,但是區塊鏈的巨大的開源節流潛力將繼續引起興趣和投資。

雖然已經對區塊鏈可能產生的價值做了一些估計,我們認為資本市場領導者需要更詳細的分析來評估區塊鏈的商業案例。這對於在不斷評估多種新興技術的潛力的高層管理人員尤為重要。隨著現有傳統系統的考慮、合規性遵從和股東利益,你如何確保區塊鏈將提供你所需要的競爭優勢和股東價值?

二、 研究過程與結論

為了充分了解區塊鏈對銀行運營影響,我們與McLagan聯合開展了一項研究。作為世界級的資本市場基準提供商,McLagan每年對最大的銀行執行全面的財務基準。它使用直接來自參與銀行總分類帳的粒度成本數據。在本研究中,我們將來自世界上最大的八家投資銀行(基於收入)的McLagan匯總的運營成本數據模型與埃森哲專有的高性能投資銀行模型進行了對比。這使我們能夠了解區塊鏈在投資銀行的整個前後流程範圍和運營指標內可能產生的最大影響。(研究過程略)

研究結論:根據我們的高性能投資銀行模型,將50多個運營成本指標與McLagan數據進行映射,提供了明確的對比指標。以下四個示例是一個小型快照,用於通過我們的專有分析實現的粒度級別說明典型效率影響。

1.由於更加精簡和優化的數據質量、透明度和內部控制,財政報告中的潛在成本節約70%。

2.由於提高了金融交易的透明度和可審計性,在產品層面和集中基礎上, 符合標準的潛在成本節省30%-50%。

3.由於KYC和客戶端加入,因為更強大的數字身份和參與者之間的客戶端數據的交互,集中運營的潛在成本節約50%

4.例如通過減少或消除對和解,諸如貿易支持,中間結算,清算,結算和調查,在業務運營中的潛在成本節約50%

區塊鏈如何為8家銀行節省80多億美元?按照今天的成本結構,研究結果表明,區塊鏈能夠在300億美元的成本基礎上初步節省80多億美元。這些估計不包括所需的潛在成本和投資。這相當於我們調查的八家銀行中約27%的成本。

為了指導我們的分析研究,我們使用一組保守的標準,包括以下假設:

Ø 網絡效應只會持續在成熟市場到2025年

Ø 監管規則將允許採用區塊鏈解決方案和退役傳統基礎設施

Ø 不包括對房舍(建築物,設施)的成本的影響

Ø 考慮了固定成本和可變成本之間的差異

在當前這個階段,這些假設可能是保守的。我們的初步估計假設業務和集中運營將“從根本上受到影響”,表明節省成本大約50%。事實上,我們的初始用例,概念證明和早期測試環境顯示有可能進一步增加這些成本,使它們進入“中斷”類別,將總額提高超過70%。從這個角度來看,每年的成本節約相當於38%或約120億美元。需要注意的是,如果重大問題或監管障礙阻止區塊鏈的廣泛採用,那麼這些節約可能無法達到。

鑑於物料成本節約的預測,金融服務部門的區塊鏈支出正在加速,這並不奇怪,尤其是在資本成本上升使得通過傳統方法增加盈利能力變得困難的時候。2015年9月,一家專注於金融服務的獨立研究機構Aite Group,預測2016年資本市場參與者的區塊鏈支出將在1.25億美元左右。只是9個月後,一家獨立基準研究公司Greenwich Associates的一項研究預測,資本市場公司的2016年區塊鏈支出將接近2.80億美元,是之前估計的兩倍多。這說明了行業投資區塊鏈不僅加速,它以相當快的速度上升,使得難以準確地量化總和。

三、 報告的觀點和影響

區塊鏈的主要組件, 例如加密散列,分佈式數據庫和共識建立,都不是新的。但是,當它們組合時,它們創建了一種非常強大的新形式的數據共享和資產轉移,能夠消除中介,中央第三方和昂貴的對賬過程。自2008年全球金融危機以來,資本市場行業面臨著收益減少的完美風暴,主要是由於監管合規成本上升,資本配置和流動性成本上升,以及收入減少。據我們估計,投資銀行花費大約三分之二的IT預算支持傳統的後期基礎設施建設,每年增加數十億美元的成本削減計劃。

換句話說,投資銀行花費了太多的時間,精力,流動性和資本來支持不利於可持續改善利潤的流程。因此,銀行,中央銀行,交易所和結算所迫切地嘗試區塊鏈,作為提高成本基本面並提高資本回報率的方式。也要清楚,區塊鏈也不是靈丹妙藥,可以解救投資銀行的所有弊病。對於許多用例,不用面對區塊鏈解決方案的成本和挑戰,傳統的數據庫結構或過程將實現類似的結果。例如內部自動化和外包。然而,有令人信服的證據表明,區塊鏈可以從根本上減少許多現有的結算和結算流程,如果不是完全消除的話。

1.每年節省數十億美元:它對貿易確認,對賬,現金管理,資產優化和其他基於例外的業務邏輯流程有巨大的影響,這些每年花費數十億美元。

2.減少時間窗口:根據標的資產和交易對手的要求,它還承諾通過大大減少時間或甚至完全消除交付窗口和支付,同時支持市商的需求來優化結算。

3.影響成本動態:.最終,它將使今天的後台基礎設施完全退役,關鍵業務流程轉到行業通用,這將深刻影響成本動態。

毫無疑問,金融服務,特別是資本市場中因為區塊鏈而興奮是有原因的。雖然我們不相信它會完全中斷或替代當前的生態系統參與者,但我們認為其影響將是變革性的。

一個常見的類比是互聯網的興起:那些當年接受變革的人創造了全新的產品和商業模式,並獲得了回報。當然,也有許多商業模式導致了昂貴的失敗。以類似的方式,區塊鏈正在激勵行業玩家從根本上重新想像他們的數據共享過程。沒有回頭,特別是考慮到它將促進投資的顯著影響,銀行重新構建當前的商業模式、運營功能和盈利能力(短期和長期)。然而,高級經理應該考慮進行受控和良好對沖賭注,以避免昂貴的失誤,同時有利於獲得新模式的好處。

但是,為了實現承諾,投資銀行必須重新思考他們的戰略和方法,以進行勞動力優化,數據中心需求,存儲,網絡和安全。與互聯網一樣,早期採用者將最有利於優化成本,推動全新的收入,並受益於所有區塊鏈可以提供的。從過去的變革性技術經驗中,投資銀行已經採用了建立內部實驗室,加入行業聯盟和資助或與完全投資於區塊鏈的公司建立聯合經營的戰略。

綜上,區塊鏈有了這麼誘人的前景,吸引了這麼多的興趣,創新和投資,你準備好抓住機會了嗎?

四、 區塊鏈的未來

區塊鏈正在一往無前的挑戰行業玩家從根本上重新想像他們的數據共享過程。

下一步,加快你的行動計劃,利用區塊鏈技術從一開始行動計劃,以解決關鍵問題,例如:

戰略:你的企業發展到更高水平的戰略是什麼,什麼樣的創新組合將是實現這一戰略的關鍵?你會在哪裡找到最有價值的?

對標:您的多年投資計劃如何與現有技術,能力和市場功能如何發展相一致?你投資/建設在今天的能力或明天的潛力範圍內嗎?

知識:您是否接入了正確的行業,監管和跨行業創新論壇,以保持信息,並成為塑造下一個創新周期(以您的最佳優勢)的積極參與者?

探索:您是否已經探索了支持區塊鏈DLT環境所需的人力和技術資源?

您是否準備從區塊鏈中獲益?正如我們的研究表明,區塊鏈技術可以帶來顯著的效益。雖然投資銀行生態系統的許多部分首先需要為分佈式賬本技術調整以最大限度地發揮其潛力,但我們已經看到一些行業領導者展示了目前可能實現的目標。通過將正確的部分放在適當的位置,結合清晰的視野,您可以開始實現短期贏利,同時建立更有效,安全和成本效益的運營模式,以釋放可持續收益,節約和長期競爭優勢。

轉貼自: 36大數據

摘要: 大數據交易,大數據商品化,必然會涉及到一系列法律問題,如大數據所有權、隱私權、版權等,其中所有權問題最為模糊,至今無明確法律法規予以清晰規定。交易的所謂大數據的所有權究竟歸誰?

熱門標籤雲

每月文章