用谷歌新釋出的 Dataset Search 搜 Linus，結果……-知識星球

(點選上方公號，快速關註我們)

來源：開源中國社群

www.oschina.net/news/99717/what-s-google-dataset-search?origin=zhzd

前天，谷歌釋出了一款重磅產品 Google Dataset Search，谷歌表示其宗旨是“Making it easier to discover datasets”，讓使用者更容易找到想要的資料集。

當下，許多學科的科學家和越來越多的寫手需要與資料打交道，網上有成千上萬的資料儲存庫，可以訪問數百萬個資料集，同時世界各個國家與地區政府也在網上公佈他們的資料。谷歌表示，Dataset Search 的初衷正是為了能夠讓人們更加輕鬆地訪問這些資料。

此次釋出的 Dataset Search 其實也是 Google 將資料集更進一步納入產品中的一系列舉措之一，上個月我們報導過 Google 該系列舉措的另一項，也就是 Google 與 30 位頂級資料記者合作，希望找到以表格形式改進資訊呈現的方法，最終在通力合作之下，他們確定了在搜尋傳回結果中直接直觀顯示資料表格的方法，使使用者更容易找到他們想要的資訊。

Google 介紹，Dataset Search 的工作方式與 Google Scholar 類似，首先需要資料集提供者使用 schema.org 標準來描述其資料集，當使用者在 Dataset Search 上搜索時，它將在任何託管位置查詢相應資料集，包括釋出者的網站、數字圖書館與作者的個人網頁等。

關於如何將資料集錄入 Dataset Search，Google 解釋，“基於描述資料集資訊的開放標準 schema.org，我們為資料集提供商制定了指南，以 Google（和其它搜尋引擎）可以更好地理解頁面內容的方式描述其資料。這些指南包括有關資料集的重要資訊：資料集建立者、釋出時間、資料收集方式、使用資料的條款等。然後我們收集並連結此資訊，分析其中同一資料集的不同版本可能在哪裡，並找到可能描述或討論資料集的出版物。”

搜了一下 “Linus Torvalds”，發現還真有結果，而且傳回的是讓人哭笑不得的內容：

搜尋結果是一個來自 data.world 的資料集，“Linus Torvalds Rants”是“Linus Torvalds 發飆”的意思，嗯，這很 Linus。

興奮地點進去（嗯？為什麼我要興奮），果然發現了寶藏：

原來這個資料集收集了 Linus 從 2012 年到 2015 年間在郵件串列上發過的飆。這裡順便提一下今年 6 月份 Linus 也發了一次大飆：有時候標準就是一坨屎。

按照指示，把該“Linus 發飆合集”在工作區開啟後是下邊這樣的，大概感受一下：

試了一下，資料集中的條目確實可以訪問到原始郵件，佩服 Linus 的高產，也為 Dataset Search 點贊，真的太方便了。如果哪天想以 Linus 的發怒為基線來寫一個 Linux 內核的發展歷程，那這樣的搜尋神器就幫大忙了。

Google 在國內素有“穀人希”（谷歌，人類的希望）的美譽，此次釋出的 Dataset Search 又造福了人類。

【關於投稿】

如果大家有原創好文投稿，請直接給公號傳送留言。

① 留言格式：
【投稿】+《文章標題》+ 文章連結

② 示例：
【投稿】《不要自稱是程式員，我十多年的 IT 職場總結》：http://blog.jobbole.com/94148/

③ 最後請附上您的個人簡介哈~

看完本文有收穫？請轉發分享給更多人

關註「資料分析與開發」，提升資料技能

用谷歌新釋出的 Dataset Search 搜 Linus，結果……

相關推薦

熱門標籤

熱門文章

分享創造快樂