(點選上方公號,快速關註我們)
來源:開源中國社群
www.oschina.net/news/99717/what-s-google-dataset-search?origin=zhzd
前天,谷歌釋出了一款重磅產品 Google Dataset Search,谷歌表示其宗旨是“Making it easier to discover datasets”,讓使用者更容易找到想要的資料集。
當下,許多學科的科學家和越來越多的寫手需要與資料打交道,網上有成千上萬的資料儲存庫,可以訪問數百萬個資料集,同時世界各個國家與地區政府也在網上公佈他們的資料。谷歌表示,Dataset Search 的初衷正是為了能夠讓人們更加輕鬆地訪問這些資料。
此次釋出的 Dataset Search 其實也是 Google 將資料集更進一步納入產品中的一系列舉措之一,上個月我們報導過 Google 該系列舉措的另一項,也就是 Google 與 30 位頂級資料記者合作,希望找到以表格形式改進資訊呈現的方法,最終在通力合作之下,他們確定了在搜尋傳回結果中直接直觀顯示資料表格的方法,使使用者更容易找到他們想要的資訊。
Google 介紹,Dataset Search 的工作方式與 Google Scholar 類似,首先需要資料集提供者使用 schema.org 標準來描述其資料集,當使用者在 Dataset Search 上搜索時,它將在任何託管位置查詢相應資料集,包括釋出者的網站、數字圖書館與作者的個人網頁等。
關於如何將資料集錄入 Dataset Search,Google 解釋,“基於描述資料集資訊的開放標準 schema.org,我們為資料集提供商制定了指南,以 Google(和其它搜尋引擎)可以更好地理解頁面內容的方式描述其資料。這些指南包括有關資料集的重要資訊:資料集建立者、釋出時間、資料收集方式、使用資料的條款等。然後我們收集並連結此資訊,分析其中同一資料集的不同版本可能在哪裡,並找到可能描述或討論資料集的出版物。”
搜了一下 “Linus Torvalds”,發現還真有結果,而且傳回的是讓人哭笑不得的內容:
搜尋結果是一個來自 data.world 的資料集,“Linus Torvalds Rants”是“Linus Torvalds 發飆”的意思,嗯,這很 Linus。
興奮地點進去(嗯?為什麼我要興奮),果然發現了寶藏:
原來這個資料集收集了 Linus 從 2012 年到 2015 年間在郵件串列上發過的飆。這裡順便提一下今年 6 月份 Linus 也發了一次大飆:有時候標準就是一坨屎。
按照指示,把該“Linus 發飆合集”在工作區開啟後是下邊這樣的,大概感受一下:
試了一下,資料集中的條目確實可以訪問到原始郵件,佩服 Linus 的高產,也為 Dataset Search 點贊,真的太方便了。如果哪天想以 Linus 的發怒為基線來寫一個 Linux 內核的發展歷程,那這樣的搜尋神器就幫大忙了。
Google 在國內素有“穀人希”(谷歌,人類的希望)的美譽,此次釋出的 Dataset Search 又造福了人類。
【關於投稿】
如果大家有原創好文投稿,請直接給公號傳送留言。
① 留言格式:
【投稿】+《 文章標題》+ 文章連結
② 示例:
【投稿】《不要自稱是程式員,我十多年的 IT 職場總結》:http://blog.jobbole.com/94148/
③ 最後請附上您的個人簡介哈~
看完本文有收穫?請轉發分享給更多人
關註「資料分析與開發」,提升資料技能