Finance

Python For Finance: Algorithmic Trading

摘要： Technology has become an asset in finance: financial institutions are now evolving to technology companies rather than just staying occupied with just the financial aspect: besides the fact that technology brings about innovation the speeds and can help to gain a competitive advantage, the speed and frequency of financial transactions, together with the large data volumes, makes that financial institutions’ attention for technology has increased over the years and that technology has indeed become a main enabler in finance.

“These violent delights have violent ends”（狂暴的歡愉必將有狂暴的結局）——《西部世界》裡這句出自莎翁筆下的經典台詞，用來形容近幾年國內P2P市場的火爆與亂象恰到好處。從餘額寶引發的歡愉，到招財寶“僑興債”違約帶來的陣痛，P2P從最初的野蠻生長到最近的反思整頓，完成了一個週期，市場反复教育投資者：收益和風險正相關，只有根據自己的風險偏好進行分散配置才是健康的理財方式。

在P2P市場逐步降溫、趨於理性之際，以經典資產組合理論為基礎、結合大數據分析和人工智能的“智能投顧”從海外流傳到國內並受到廣泛關注，一方面，投資機構對它們青睞有加，融資消息頻傳，另一方面，互聯網強者和傳統金融機構也爭相佈局。

然而，資本的熱情並沒有點燃國內投資者的激情，市場表現出謹慎觀望的態勢，智能投顧出現了“水土不服”。有鑑於此，筆者將結合智能投顧在美國的發展趨勢和國內的發展現狀，以及國內理財市場的特點，探索下階段智能投顧在國內可能的發展趨勢。

一、智能投顧簡介

“智能投顧”即利用大數據分析、量化模型及算法，根據投資者的個人收益和風險偏好，提供相匹配的資產組合建議，並自動完成投資交易過程，再根據市場變化情況動態調整，讓組合始終處於最優狀態的財富管理服務。智能投顧的服務流程包括：客戶分析、構建投資組合、自動執行交易、動態調整組合、投資組合分析。

與依靠理財師、投資顧問實現的傳統投顧服務比較，智能投顧具有多方面特點：

大數據、人工智能：大數據和人工智能是智能投顧最核心的技術，也是與傳統投顧相比較的最大優勢。用戶行為大數據與金融交易大數據是機器學習的“養料”，它們馴化出來的人工智能是整個智能投顧的核心。

門檻低、費率低：傳統投顧只服務於中高淨值人群，而且每年收取的諮詢費率昂貴，智能投顧大大降低了門檻和費率，讓投顧服務觸達長尾市場。

透明化、便捷化：智能投顧的投資組合完全公開，服務流程標準、簡潔。

二、智能投顧在美國的發展現狀和趨勢

2008年金融危機過後，美國傳統金融機構還在忙於應對公眾巨大的信任危機和嚴苛的監管政策之際，以Betterment和Wealthfront為代表的智能投顧創業公司成長起來，它們通過互聯網信息技術手段，降低投資門檻，為用戶提供個性化、低費率、透明化、便捷化的財富管理服務，成為了行業的一股清流。受益於人口結構變化、人工智能技術發展和監管法規等因素，智能投顧管理的資產規模從2010年以來複合增長率超過80%，到2017年末有望達到千億美元。根據My Private Banking的預測（圖2），在未來的五年中，美國智能投顧行業將保持高速增長態勢，預計在2020年全行業資產管理規模將達到1.6萬億美元。

從參與主體和進入時間的角度來看，美國的智能投顧公司可以分為獨立創新公司和傳統金融機構兩類，前者以Betterment、Wealthfront和Personal Capital為代表，後者以Vanguard和Charles Schwab為代表。Betterment和Wealthfront作為行業創新標杆，通過快速產品迭代，不斷開發新的理財產品，來保持領先地位，到2016年年中，它們管理的資產分別達到了50億美元和35億美元。

Vanguard和Charles Schwab是佈局智能投顧較早的傳統金融機構，截止2016年6月，Vanguard Personal Advisor Services和Schwab Intelligent Portfolios管理的資產分別達到了310億美元和66億美元，成為市場最大的兩家平台。除此之外，2016年以來，德意志銀行（Deutsche Bank）、TD Ameritrade、美銀美林（Bank of America & Merrill Lynch）以及高盛（Goldman Sachs）等也大舉進入智能投顧領域，還有更多的傳統金融機構躍躍欲試。可以看到，雖然這些傳統金融機構的智能投顧平台成立較晚，但是依託其龐大的客戶群體、強大的產品線、優質的品牌形像以及多元化而全面的服務，一方面吸收了公司原有平台客戶以及新增客戶，另一方面還為依托平台的傳統投資顧問提供智能投顧產品以便於其更好地服務客戶。

從服務對象和服務方式來看，美國的智能投顧又可以分為2C、2B以及綜合性服務三大類，第一類直接為C端用戶提供服務，第二類為金融機構提供智能投顧解決方案以更好服務其客戶，第三類同時為用戶以及顧問群體提供服務。根據線上服務和傳統服務的結合程度，2C的智能投顧又可以細分為純智能化平台、人工投顧協助平台兩類。

1、純智能化平台

這類平台通過完全自動化操作幫助客戶完成用戶畫像、資產組合建議、組合交易、動態調整和分析報告，全過程無人工干預。其特點是智能化程度高、產品迭代快速、費率最低，其客戶群體更多定位於年輕用戶、科技愛好者。這一類平台的典型代表性是Wealthfront和Betterment。

2、人工投顧協助平台

這類平台將智能投顧與人工投顧相結合，為所有用戶免費提供財務狀況分析、投資風險評估、投資組合建立與優化等服務，具有強大的工具屬性，能很好地隨時跟踪用戶理財以及費用支出等方面的行為，可以幫助用戶更好地實現理財目標，同時也向有需要的客戶提供收費的私人投資顧問服務。這一類平台的典型代表性是Personal Capital。

3、機構服務平台

這類平台為傳統機構以及獨立第三方財務顧問提供智能投顧解決方案，並不直接面對客戶。其特點是滿足第三方機構研發能力不足的需求，極大降低了自身獲客成本，可以致力於研發更具創新型、智能型的投顧產品。這一類平台的典型代表性是Myvest和nextcapital。

4、傳統金融機構的綜合服務平台

傳統金融機構利用自身資源以及規模優勢，同時為用戶以及顧問群體提供服務，不僅利用智能投顧作為特色吸收了公司原有平台客戶以及新增客戶，還可以為依托平台的傳統財務顧問提供智能投顧產品以便於其更好地服務客戶。其特點是，傳統金融機構平台自身擁有豐富的產品線，可以自主發行和管理不同的ETF產品，提供交易、清算等一系列多樣服務，而實現全產業鏈整合，為客戶提供全方位周到的服務。這一類平台的典型代表性是Vanguard和Charles Schwab。

隨著傳統金融機構的進入，行業競爭加劇，獲客成本上升、價格競爭激烈，美國智能投顧行業發展呈現一些趨勢：

隨著大數據、人工智能技術的發展，智能投顧技術將成為財富管理行業的基礎設施；

創新型2C平台競爭將更加激烈，除個別領先平台通過快速的產品迭代形成差異化優勢並脫穎而出之外，大量平檯面臨死亡或轉型；

從單純2C模式向2B2C模式轉變——將原本用於客戶營銷的大量精力轉移至產品創新以及研發（Betterment專門新成立的Betterment For Advisor和瑞銀、高盛等機構合作就是典型案例）；

傳統金融機構後發製人，收購和自主研發投入會更大，將推動智能投顧行業更加快速增長。

三、智能投顧在國內的發展現狀

我國居民家庭財富穩步增長，中產階級日益擴大，財富管理市場空間巨大，但投資渠道稀缺，經過一輪P2P市場的洗禮，互聯網理財開始廣泛被接受並且流行，同時大眾的風險意識也有所提高，年輕一代對互聯網財富管理更加認同。在這個背景下，2014年底，智能投顧概念開始引入我國，隨後大量的科技創業企業開始出現，2015年下半年以後傳統金融機構也大力佈局智能投顧方向。

國內智能投顧的發展雖然跟隨美國，但由於用戶特徵、金融市場發展程度、稅收體制以及監管差異等因素（表2），也存在一定程度的區別。從參與主體和進入時間的角度來看，國內的智能投顧公司可以分為獨立創新公司、互聯網強者佈局和傳統金融機構佈局三類（表3）。如果按照用戶定位、投資標的和平台形式又可以分為四大類別，包括2C創新平台、資產配置建議平台、主動投資建議平台以及綜合理財平台。

2C創新平台

相對於美國有1600多支ETF（淨資產2.1萬億美元），國內ETF僅130多支（淨資產4729億人民幣），而且主要是傳統的指數型ETF，其他的債券型ETF和商品型ETF等較少，難以有效分散風險，同時，國內股票市場波動劇烈，指數型ETF穩定性較差，也不適合於構建被動資產組合。另一方面，在人民幣貶值的預期下，國民有很強的海外資產配置需求，因此，目前國內很多智能投顧平台都選擇以海外資產作為投資標的。這些創新平台直接對標美國的Betterment和Wealthfront，如彌財、財鯨、投米RA和藍海智投等公司，它們提供海外ETF或美股的自動配置和動態調整服務，但受到獲客成本高昂和外匯管制等因素的較大製約。

資產配置建議平台

這一模式通過全市場各類型產品數據的實時抓取，統計各類型金融產品的收益率數據、風險指標等，對市場上的各類型金融產品進行篩选和排序，結合用戶的風險評測指標，幫助用戶選取最為適合的金融產品組合。典型案例是財魚管家。

主動投資建議平台

這類平台利用大數據，實時分析有價值的新聞信息和交易數據，分析數據之間的關聯性，結合用戶的自選股，為股民提供最有價值的交易策略。典型案例是同花順iFinD和百度股市通。

綜合理財平台

這類平台將智能投顧功能很好地整合到公司原有運營的體系，通過對接內部以及外部投資標的，既能更好地服務原有體系的客戶，還可以吸引新增投資者。這些綜合理財平台不僅能達到更好地服務投資者的目標，還可以推動自身理財產品的銷售，達到多重效果。其特點在於綜合理財平臺本身就擁有很好的客戶資源，廣泛的銷售渠道，以及覆蓋面廣的資產標的等優勢，其智能投顧平台在客戶獲取和用戶體驗等方面就較其他平台更具有競爭力。典型案例有平安一賬通、京東智投、招商銀行摩羯智投等。

四、國內智能投顧可能的發展趨勢

結合國內的市場情況來看，在接下來一個階段，我國智能投顧行業的發展將呈現以下特徵：

1、智能投顧的核心是模型和算法，它們需要長時間序列的數據進行學習和修正，也需要較長的時間週期經由市場檢驗，而這些條件在國內市場短時間難以滿足，另一方面，在人民幣貶值的大背景下，國內投資者俱有很強的海外資產配資需求，因此，擁有海外資管經驗的優秀團隊可能在海外資產配置的細分領域獲得階段性機會。但是，在國內市場缺乏對沖標的、外匯管制趨緊的市場環境下，大部分獨立創新型2C智能投顧生存堪憂。

2、從投資者角度來看，一方面，國內股票市場散戶佔比較高，他們更傾向於以市場風向為主導，關注市場短期波動，依賴於追漲殺跌的短期策略，更傾向於個股的簡單化操作，較少採取分散投資組合投資，另一方面，智能投顧提供的預期收益率與隱含剛性兌付的P2P等資產相比並無明顯優勢，用戶教育還有很長的路要走。但是，擁有強大的用戶運營能力和用戶行為數據分析能力，能夠幫助用戶管理、分析理財賬戶並提供資產配置建議的智能投顧，類似財魚管家等，更容易獲得用戶的認可。

3、對大多數獨立創新型2C智能投顧，其最可行的模式是為傳統機構以及獨立第三方財務顧問提供智能投顧解決方案，從直接2C調整到以2B為主的模式，這樣，其盈利模式不再直接面向客戶，將極大降低它們的營銷成本，讓它們在激烈的競爭中存活下來。另一方面，對於傳統金融機構而言，通過與智能投顧平台合作實現對自身服務種類的補充，是階段性實現雙方利益最大化的有效路徑。

4、近期來看，智能投顧在高淨值客戶財富管理市場，更多扮演著工具的角色。智能投顧將後台功能簡化、財富管理數字化、資產建議智能化，幫助財務顧問更好、更有效地服務其客戶。對於之前缺乏理財顧問服務的長尾市場而言，智能投顧更大程度滿足P2P市場洗禮出來的客戶對被動投資的需求，對於現有財富管理市場起到更好的補充作用。

5、將來中國智能投顧格局會與美國行業格局相仿，佔據客戶資源和渠道資源，具有成本、規模優勢的綜合性平台將佔有較大的市場份額。在基金銷售端佔據優勢以及擁有龐大客戶資源的互聯網系京東、同花順等具有較大潛力，而擁有廣泛的零售客戶、龐大的投顧團隊、眾多的線下網點以及強有力的基金銷售渠道的券商系、銀行系傳統金融機構也會在智能投顧領域具備強勢地位。

轉貼自：煉數成金

大數據輿情情感分析，如何提取情感並使用什麼樣的工具？（貼情感標籤）

by 崔維福

情感分析是學術領域研究多年的課題，用google學術搜索可以找到很多paper，基本的方法上有基於詞典規則的方法、語言文法的方法，此外還有分類器以及近幾年比較火的深度學習的方法(稍後有詳細介紹)。

各類paper是有一定的借鑒意義的，不過這主要是學術界在單個問題上的細化，要真正從研究領域落地到大數據的處理還有很多工作要做。

一、工程上的處理流程

工程上的處理流程具體包括以下幾個方面：

1、情感分析任務的界定

在進行情感分析任務的界定時，要弄清楚工程的需求到底是什麼；要分析文本的哪個層面上的情感，比如篇章、段落、句子、短語、詞等粒度；是不是要分析所有的文本還是分析其中的部分文本；准許的錯誤誤差是在個什麼範圍內等。

2、情感分析標準的製定

在實際的企業應用中往往要根據行業的特點來製定一些情感分析的標準，甚至要從客戶的立場中去建立標準。根據國雙實際接觸客戶的經驗，在行業上建立標准後,還需要再具體跟客戶做一些適度調整。

3、語料數據加工、詞典加工

有了上一步的工作，接下來進行加工語料或者字典的總結。這一步中不同的方法要做的工作不同，基本上是鋪人力的工作，難點是讓各個語料加工人員能協調一致，執行統一的標準(通常會在這個過程中還會反作用到第二步情感分析標準的製定，因為看到實際數據後會發現標準總會有一些模糊地帶)

4、根據數據特徵、規模等選擇合適的方法，並評測方法的優劣

工程中的方法並不是單一的方法，想用一個方法或者模型來解決各類數據源上的問題是不可能的。想要做出好的效果一定是採用分而治之的思想，比如，能用規則精準過的就不需要用分類器。

當應用在實際產品時，最好能結合產品的垂直特點，充分利用垂直行業的特性，比如在金融行業、汽車行業，它們一定有自己的行話，這些行話具有非常明顯的規則或者特徵。

二、情感分析方法及工具

情感分析對象的粒度最小是詞彙，但是表達一個情感的最基本的單位則是句子，詞彙雖然能描述情感的基本信息，但是單一的詞彙缺少對象，缺少關聯程度，並且不同的詞彙組合在一起所得到的情感程度不同甚至情感傾向都相反。所以以句子為最基本的情感分析粒度是較為合理的。篇章或者段落的情感也可以通過句子的情感來計算。

現階段關於情感分析方法主要有兩類：

（一）、基於詞典的方法:

基於詞典的方法主要通過制定一系列的情感詞典和規則，對文本進行拆句、分析及匹配詞典（一般有詞性分析，句法依存分析），計算情感值，最後通過情感值來作為文本的情感傾向判斷的依據。

做法：

基於詞典的情感分析大致步驟如下：

對大於句子力度的文本進行拆解句子操作，以句子為最小分析單元；
分析句子中出現的詞語並按照情感詞典匹配；
處理否定邏輯及轉折邏輯；
計算整句情感詞得分（根據詞語不同，極性不同，程度不同等因素進行加權求和）；
根據情感得分輸出句子情感傾向性。

如果是對篇章或者段落級別的情感分析任務，按照具體的情況，可以以對每個句子進行單一情感分析並融合的形式進行，也可以先抽取情感主題句後進行句子情感分析，得到最終情感分析結果。

參考及工具：

1. 常見英文情感詞庫：GI（The General Inquirer）、sentiWordNet等；

2. 常見中文情感詞庫：知網、台灣大學的情感極性詞典；

3. 幾種情感詞典構建方法：基於bootstrapping方法的Predicting the semantic orientation of adjectives及Determining the sentiment of opinions兩種最為經典的詞典構建方法。

（二）、基於機器學習的方法:

情感詞典準確率高，但存在召回率比較低的情況。對於不同的領域，構建情感詞典的難度是不一樣的，精準構建成本較高。另外一種解決情感分析的思路是使用機器學習的方法，將情感分析作為一個有監督的分類問題。對於情感極性的判斷，將目標情感分為三類：正、中、負。對訓練文本進行人工標註，然後進行有監督的機器學習過程，並對測試數據用模型來預測結果。

處理過程：

基於機器學習的情感分析思路是將情感分析作為一個分類問題來處理，具體的流程如下：

1、文本預處理

文本的預處理過程是使用機器學習作用於文本分類的基礎操作。由於文本是非結構化數據及其特殊性，計算機並不能直接理解，所以需要一系列的預處理操作後，轉換為計算機可以處理的結構化數據。在實際分析中，文本更為複雜，書寫規範也更為隨意，且很有可能摻雜部分噪聲數據。整體上來說，文本預處理模塊包括去噪、特徵提取、文本結構化表示等。

特徵抽取：中文最小語素是字，但是往往詞語才具有更明確的語義信息，但是隨著分詞，可能出現詞語關係丟失的情況。n-元文法正好解決了這個問題，它也是傳統機器學習分類任務中最常用的方法。

文本向量化：對抽取出來的特徵，向量化是一個很重要的過程，是實現由人可以理解的文本轉換為計算機可以處理數據的重要一步。這一步最常用到的就是詞袋模型（bag-of-words ）以及最近新出的連續分佈詞向量模型（word Embedding）。詞袋模型長度為整個詞表的長度，詞語對應維度置為詞頻，文檔的表示往往比較稀疏且維度較高。Embedding的表示方式，能夠有效的解決數據稀疏且降維到固定維度，更好的表示語義信息。對於文檔表示，詞袋模型可以直接疊加，而Embedding的方法可以使用深度學習的方法，通過pooling得到最終表示。

特徵選擇：在機器學習分類算法的使用過程中，特徵好壞直接影響機器的準確率及召回率。選擇有利於分類的特徵，可以有效的減少訓練開支及防止模型過擬合，尤其是數據量較大的情況下，這一部分工作的重要性更加明顯。其選擇方法為，將所有的訓練語料輸入，通過一定的方法，選擇最有效的特徵，主要的方法有卡方，信息熵，dp深層感知器等等。

目前也有一些方法，從比句子粒度更細的層次去識別情感，如基於方面的情感分析（Aspect based Sentiment Analysis），他們從產品的評價屬性等更細粒度的方面對評價主體進行情感傾向性分析。

2、分類算法選擇

文本轉換為機器可處理的結構後，接下來便要選擇進行機器學習的分類算法。目前，使用率比較高的是深度學習（CNN，RNN）和支持向量機（SVM）。深度學習的方法，運算量大，準確率有一定的提高，所以都在做這方面的嘗試。而支持向量機則是比較傳統的方法，其準確率及數據處理能力也比較出色，很多人都在用它來做分類任務。

參考及工具：

1. svm分類libsvm

2. python 機器學習工具scikit-learn

3. 深度學習框架：Tensorflow、Theano

本文選自國雙商業市場在知乎的回答。

轉貼自： 36大數據

交易中的大數據歸誰所有？

摘要：大數據交易，大數據商品化，必然會涉及到一系列法律問題，如大數據所有權、隱私權、版權等，其中所有權問題最為模糊，至今無明確法律法規予以清晰規定。交易的所謂大數據的所有權究竟歸誰？

閱讀全文...

丹尼爾·納德勒：我用一款軟件逼瘋了華爾街

摘要：自2012年1月24日起，來自對沖基金的電話就不斷響起，紛紛要找丹尼爾·納德勒（Daniel Nadler）。就在那一天，這位年年28歲的哈佛大學經濟學博士在彭博社（Bloomberg）上與人合著了一篇文章，文中介紹瞭如何通過美元的走強來預測標普500指數每週的走低情況。

閱讀全文...

Finance

Python For Finance: Algorithmic Trading

摩根大通報告12個亮點總結：金融領域的機器學習工具有哪些？

投資，快與慢（下）：數據科學家投資指南

快與慢（上）：AI應用於投資領域的現狀與未來

摘要： Python 是一門更注重可讀性和效率的語言，尤其是相較於Java，PHP 以及C++ 這樣的語言，它的這兩個優勢讓其在開發者中大受歡迎。

起底P2P羊毛黨：起源、攻擊力與風險係數

高盛將資產100萬美元的“窮人”全部扔給機器人投顧

你所不知道的索羅斯：趨勢跟踪，如何在三十年間穿越牛熊

摘要：索羅斯，全世界最成功的宏觀對沖基金經理，92年狙擊英鎊，一戰成名，被譽為“擊垮英格蘭銀行的人”。一生充滿了傳奇色彩，引來無數人研究其投資風格及理論。

5800台礦機一天電費6720元

智能投顧的發展現狀和未來發展趨勢