摘要: In this second article on adversarial validation we get to the meat of the matter: what we can do when train and test sets differ. Will we be able to make a better validation set?

摘要: Many data science competitions suffer from a test set being markedly different from a training set (a violation of the “identically distributed” assumption). It is then difficult to make a representative validation set. We propose a method for selecting training examples most similar to test examples and using them as a validation set. The core of this idea is training a probabilistic classifier to distinguish train/test examples.

摘要: 我們在處理資料時,為了萃取資料的重要資訊常常會使用主成份分析,不過有時候卻難以解釋主成分分析的結果與成因。此篇教導了主成份分析的視覺化方法,可以有效地幫助我們了解並給予主成份分析背後的意義

摘要: R語言翻轉教室,是作者參考社群多次開辦R教學的心得,撰寫出來的一份「自學教材」、 「自學教材」、「自學教材」。 有興趣的版友可以到官網上去安裝課程與進行教材。這份教材也具有挑戰性,沒有程式基 礎的版友做完一次約12 ~ 18小時。有經驗的版友大約是6 ~12小時,並不輕鬆。

摘要: 神經網絡是一種數學模型,是存在於計算機的神經系統,由大量的神經元相連接並進行計算,在外界信息的基礎上,改變內部的結構,常用來對輸入和輸出間複雜的關係進行建模。......

摘要: 從基礎理論入手,詳細講解了爬蟲內容,分為六個部分:我們的目的是什麼;內容從何而來;了解網絡請求;一些常見的限制方式;嘗試解決問題的思路;效率問題的取捨。......

摘要: 在離人工智能越來越近的今天,研究界和工業界對神經網絡和深度學習的興趣也越來越濃,期待也越來越高。我們在深度學習與計算機視覺專欄中看過計算機通過卷積神經網絡學會了識別圖片的內容——模仿人類的看,而工業界大量的應用也證明了神經網絡能讓計算機學會聽(比如百度的語音識別),於是大量的精力開始投向NLP領域,讓計算機學會寫也一定是非常有意思的事情,試想一下,如果計算機通過讀韓寒和小四的小說,就能寫出有一樣的調調的文字,這是多帶勁的一件事啊。.......

熱門標籤雲

每月文章