摘要: 部署Hadoop時,存儲擴展可能很困難且成本高昂,因為存儲和計算位於同一硬件節點上。通過使用S3兼容存儲軟件並使用S3連接器而不是HDFS來實現存儲層,可以獨立地分離存儲,計算和擴展存儲。這提供了更大的靈活性和成本效益,但提出了性能如何受到影響的問題。

摘要: GBDT和xgboost在競賽和工業界使用都非常頻繁,能有效的應用到分類、回歸、排序問題,雖然使用起來不難,但是要能完整的理解還是有一點麻煩的。本文嘗試一步一步梳理GB、GBDT、xgboost,它們之間有非常緊密的聯繫,GBDT是以決策樹(CART)為基學習器的GB算法,xgboost擴展和改進了GDBT,xgboost算法更快,準確率也相對高一些。

摘要: 近日,有越來越多的學者正在探討機器學習(和深度學習)的侷限性,並試圖爲人工智能的未來探路,紐約大學教授 Gary Marcus 就對深度學習展開了系統性的批判。此前,圖靈獎獲得者,UCLA 教授 Judea Pearl 題爲《Theoretical Impediments to Machine Learning with Seven Sparks from the Causal Revolution》的論文中,作者就已探討了當前機器學習存在的理論侷限性,並給出了面向解決這些問題,來自因果推理的七個啓發。Pearl 教授在 NIPS 2017 系列活動中對本文進行了討論,隨後,他也對一些人們關心的問題進行了解答。

摘要: 近日南洋理工大學研究者發佈了一篇描述卷積網絡數學原理的論文,該論文從數學的角度闡述整個卷積網絡的運算與傳播過程。該論文對理解卷積網絡的數學本質非常有幫助,有助於讀者「徒手」(不使用卷積API)實現卷積網絡。

摘要: 在今年的 EMNLP 2017 上,臺灣大學黃意堯與加州聖塔芭芭拉大學 (UCSB)William Wang 教授有一篇合作論文被錄用。黃意堯撰寫了關於這篇論文的研究歷程,以供學習與參考。我們做了不改動原意的編輯與修改,將繁體字轉換爲簡體,並將一些臺灣常用表述轉換爲大陸的通用說法。