Google 數據集(Dataset)搜尋引擎,上線了。

TO 編按:Dataset(數據集)到底是什麼?

據《百度百科》解釋 又稱為數據集、數據集合或資料集合,是一種由數據資料組成的集合。Dataset 通常以表格形式出現。每一列代表一個特定變量,每一行都對應某一成員資料集的問題。

 

它列出的價值觀為每個變量,如身高和體重的一個物體或價值的隨機數。

每個數值稱為數據資料。對應行數,該資料集的數據可能包括一個或多個成員。

在發布這個消息的博客裡,團隊大概表達了這樣的意思:

現在啊,許多領域的科學家,每天呼吸的不是空氣,是數據集。

沒有數據集,他們就活不下去。

不過,數據集分散在世界的各個角落,口口相傳是最常用的傳播途徑。

Google 想讓搜索數據集,能像在 Google Scholar 上搜索論文那樣容易。

如此,便有了 Google Dataset Search。

貓喜歡什麼口味的冰淇淋?

這樣一來,不論是哪裡發布的數據集,Google 一下就出來了。

連使用方法都有,你又少了一個不好好訓練網絡的理由。

所以,一起來試一下吧。在下是按衣食住行四類,分別搜索的。

·衣·

穿著的部分,搜的是 pants:

然後,就出現了墨西哥、秘魯、哥倫比亞,各個國家關於褲子的數據集。

比如,從棉褲的視角,可看墨西哥的經濟狀況。

·食·

吃的東西,搜了 ice cream:

最吸引人的,當然不是各國的冰淇淋生產力。

貓在哪個年紀,喜歡哪種口味的冰淇淋,果然有 (ㄇㄟˊ) 些 (ㄕㄚˊ) 研究價值。

·住·

就看北京房價吧,搜索 beijing house price:

第一條結果來自 Kaggle,是鏈家 2011 到 2017 年的數據。

這數據集的殺傷力,應該還是很大的。有興趣的大家,可以自行觀察。

傳送門:https://www.kaggle.com/ruiqurm/lianjia

·行·

感覺出行服務、共享單車,也不會有什麼驚喜。

就搜了個 horse:

當然,搜出香港賽馬的數據,也並不驚喜。

第二條,是關注馬體健康狀況的疝氣數據。

曾經有項研究,用疝氣預測馬的死亡概率。

數據集裡,也有大千世界,各位不妨自己去搜一搜。

數據集搜索,不是一天建成的

為了搭好這個搜索工具, Google 團隊給提供數據集的人們,準備了一份充滿關懷的指南。

這樣一來,大家對貢獻的數據集,就能有個統一的描述方式:

·誰創建了數據集?
·什麼時候發布的?
·數據怎樣收集的?
·使用方法是什麼?
……

訊息一項一項填好,搜索工具才能更友好。

描述的時候,只要依照 http:// Schema.org  的標準詞彙表,就可以了。

Google 把訊息收集起來之後,就會去分析,一個數據集的不同版本,可能在哪些地方。

除此之外,還要看看有哪些論文 (或者其他出版物) ,提到過這個數據集。Google 團隊說,這一版已經支持多種語言。更多語言的支持也已經在路上了。

比如,想要自我打擊的話,現在可以直接搜索「房價」。

普通 Google 搜索,也能搜數據表格

Google 在數據集上做過的事情,遠不止 Dataset Search 這個工具這麼簡單。

除此之外,團隊也為人類最常用的 Google 搜索,加入了表格數據搜索的能力。

就像這樣,已經可以搜索出 Google 基金會 (Google Foundation) 2014 的總開支。

不過 Google 說,現在的這些努力結果,還是不夠好。

他們希望,未來不論是科研領域、政府部門、新聞機構,還是任何各行各業,都有源源不斷的數據,能從 Google 的平台上搜索出來。

Dataset Search 傳送門:
https://toolbox.google.com/datasetsearch

 

轉貼自: BuzzOrange


留下你的回應

以訪客張貼回應

0
  • 找不到回應

每月文章