烹饪数据食谱:原料从何而来
两千万的数据集见证了数据科学的进步
译者:郭曦 (Cassie Guo)
我近来最心水的谷歌搜索产品的新成员是Dataset Search(数据集搜索)。是的,你没听错,你可以像搜索图片一样搜索数据集了!
你可以像搜索图片一样搜索数据集了!
Dataset Search带来了对大众数据素养的启示
如果没有人使用,同类的谷歌搜索引擎例如谷歌图片或谷歌学术不会持续地运营,所以他们的多样性也反映了人们究竟在互联网上寻找什么。图片、视频以及新闻不足为奇。但是数据集呢?要知道关于数据的工作不只是给那三个住在偏僻的小冰屋的与世隔绝的教授来做的。现有的数据量很大,并且在不停地增长。
这是何意?并没有什么意图。Dataset Search 的确实跟谷歌图片或谷歌学术一样,只是用于数据集上。目前有超过2千万的数据集已经编入索引正待使用,这个索引正在快速的增长。
今天你手中掌握的两千万数据集,明天将会更多。
既然你已经知道了它的存在,可以点击此处尝试使用,或者继续以下的讨论:Dataset Search是如何运作的,以及它对数据科学专业以及整个人类的意义。
一场捷速数据分析学的革命
在数据科学中,数据分析学是最依赖于闪现的灵感的那一部分。与统计和机器学习不同的是,分析学最高尚的美德是速度。(为了安全起见,专业的分析师不会在验证新数据前轻易下结论。)
快捷的数据可访问性给予分析学更强大的能力。
当你可以更容易地搜索数据集时你会得到什么?更迅捷的分析!Dataset Search代表着对所有专业分析师和数据科学家的空前绝后的提速。(但是请记得:如果你正处于要把灵感付诸于行动的危险地带中,要记得使用统计学的方法更认真地进行检验。)
别兜圈子了,到底是什么意思呢
如果你生长的世界里数据集是稀有,珍贵,并且被教授或者数据提供者如数家珍的 — 如同我们大多数一样 — 你可能有一些潜意识的偏见:你认为不管是谁给你的数据,他/她就应该对数据的质量负责(可能他/她持有一两个博士学位)。如果你是在学校或者科学界分析过数据,你可能有这样的印象:在数据来到你面前之前,它们好像经过了精心的按摩 (被处理的非常妥帖)。
真实的数据科学是一个丛林世界,而并非一个由教授来维护的圣地。
先把这个偏见搁在一边来斟酌一下另外这个:门外汉对数据不健康的偶像式崇拜。任何一个把数据这个词拼成大写的D可能会认为所有的被包装起来的结构化形式的数据都是真实有用的。但是,这并不是什么魔法。不要相信任何你读到的,也不要相信每一个数据集。点击这里来了解数据的本质以及对数据的崇拜。
如果你所生活的世界里大部分给你数据的人是名人并且/或者你被教导来崇拜数据和科学,那么你糟糕了。你猜到了什么?一个数据集可能是一个结构化的垃圾。有可能是损坏的数据。有可能是编造的数据。有可能这个数据是六千万个零。也有可能什么都不是。正如同写下的文字一样!
“如果是写到书里的,那一定是真实的……”
“如果是写在书里的,那一定是真的……”这样想对吗?错。更糟的是:“如果是写到网上的,那一定是真的……” 我喜欢你刚才作出的表情。很好,你会怀疑。你应该持怀疑的态度。那么, “如果是写到一个数据集里的,那一定是真的……” 这样对吗?
这个世界里有很多电子垃圾,因为任何人都可以随心所欲地书写。不要轻易相信这些信息。相反,你要花时间想一下它们的来源。更赞的是,这个习惯也会保证你在数据世界里的安全。
当你形成了更容易相信数据而非写下的文字的习性,请小心
当你形成了更容易相信数据而非写下的文字的习性,请小心。你可能对于这个习惯全然不知。不要把数据当成很神圣的东西。重新设定你平时浏览网页的习惯,就是你平时在用的谷歌图片或者平时的网页。你知道当你认真地在谷歌搜索,谷歌不拥有也不会编辑那些喵星人图片,以及盲眼毒药的秘方 (你知道那些盲眼毒药不起作用,对吧?)那些信息的质量参差不齐,需要你的火眼金睛来识别真假。你早已知道互联网上那些牛鬼蛇神,因为你已经是一个老司机了。大多数是这样。甚至我们当中最聪明的人时不时也会点一下“神奇的窍门”或者其他的奇闻轶事。
如果你用老司机的智慧来使用谷歌Dataset Search,你不会碰到陷阱。
像对待任何一种互联网搜索一样对待Dataset Search。这个工具会帮你筛选信息,但是自己还是要审视一下被拖拽进来的喵星人图片的质量。
但是,如果让我在一个庞大的喵星人图片集与三个精挑细选的喵星人图片之间选择,我肯定选前者。(我可能会两个都选因为我比较贪心……你也可以 — — 搜索工具不要求你的专一性)
互联网的一大部分都是垃圾信息
不是所有网上的信息都对你有好处。即便如此,谷歌尽力筛除垃圾信息并优选有用的信息。是的,人们会把无用的数据集放在网上来吸引你的注意,我们会进行排序,并尽量提供给你有用的信息。如同平常的搜索一样。但是你不能期待一切都是尽善尽美。
想让你的数据集被搜索到,要做的只是把schema.org上的诠释数据(metadata)放在每一个描述数据集的页面上。
要做的只是把schema.org上的诠释数据(metadata)放在每一个描述数据集的页面上。任和人都可以这么做,如同任何人可以写博客文章一样。它可能是垃圾数据 (可能这篇博客文章也是一样的……汗)所以要认真地思索它的来源。
如果你想使用天然无害的有机数据,你需要变的聪明。不要相信你所读到的。
schema.org是怎么回事?
schema.org起源于2011年一个联盟:谷歌,必应,Yandex, 微软和雅虎。他们厌烦于对抓取的网页内容进行猜测,所以他们决定创建一个供应商使用的共享的词汇表,来帮他们表达网页的内容。这个词汇表内嵌在HTML里来说明哪些字符是表明事件,地址,配方,诸如此类。它是一个用来表达不同类型的信息的一个架构 (正如其名)。当你选择把schema.org加入你的网页并告诉它有一个数据集,那个数据集就有了在谷歌数据搜索中出现的资格。
数据的供应者用schema.org来告诉我们他们的页面上有一个数据集,并用诠释数据来描述它们。
这不是谷歌特有的魔法,这是一个每个人都可以贡献的开放社区的标准。很多公司已经在后来长期使用这个。谷歌特殊的那部分是给你用Dataset Search来寻找这些数据的能力。我们让数据供应者来用schema.org告诉我们他们的页面上有一个数据集,并用一些元数据来描述它们。 Dataset Search跟普通的搜索一样,但是搜索结果仅限于那些声明有数据集的的页面。简单易用。
如何参与共享数据的活动
当数据几乎全部来自几个大型的负责精心的索引数据的供应商(例如政府和大学),小型的玩家缺乏一个可以共享的地方。
想象一下这个情景:一组高中女生在做一个课外的机器人项目。他们收集了很多数据,这些数据可能对其他有同样爱好的人有用。他们愿意共享这些数据(他们真是太好了)。他们在他们高中的网站上发了一个链接。他们的数据正好是你做原型所需要的。现在怎么办?
如果他们的数据集不能搜索到,你就永远不会找到。如果他们的数据被一个珍藏者收集(例如政府)来给予许可,他们会告诉你先排队 — — 并且他们可能永远不能到前排。那些使用稀有的资源来精挑细选的供应商只能把时间和精力花在有限的几个来源上。结果呢?你永远也不知道你错失了什么。
这就是为何我觉得整个数据集搜索的模式这么酷炫。分享数据(不需要一个让你迷失方向的中间人)表明了人们可以发现并提供优质的资源,即便他们有很小众的品味……或者是隐蔽的高中网站。
如果你想参与分享供搜索的数据的活动:
- 你要有数据
- 你需要通过schema.org来表明你的数据 (你可以自己来做,也可以放在类似Zenodo的存储库里。)
另一个惊喜
我希望你没有对这个事实感到惊讶:能同时满足两个条件的数据因领域而异。 政府是最先索引数据集的机构,所以他们收集的那些数据集值得你的狂热地关注,但是花费昂贵的专有数据却十分罕见。然而,每天都有很多新的数据集,搜索免费和付费的数据都是一样简单的 (有点像在谷歌图片搜索中的含有水印的专有图片)究竟该走哪条路以及要不要付费都是取决于你自己。
人类的远大前景
像Dataset Search一类的拥有广大的用户群是一个人类在数据科学以及数据素养方面进步的象征。我们作为一个物种在进步,并且延伸了我们表达自己的感受以及我们用信息来交流的方式。
数据分析学成为了大众的游戏
我们曾经感慨于打开一个网页的能力,然后感慨于打开50个页面的能力 — 每一个页面都是一个数据点 — 我们用肉眼来看这些模式。 现在我们渴望更多。我们想要可以用编程工具 (例如python或R) 来总结以及塑造的数据集。 掌握数据造诣的社区已经有可观的人数;我们当中已经有足够的人有理解数据的技能,并且我们不再满意于充满图片的文字网页 (就是你正在看的的这种,哈哈)
数据素养的进化
为了能够消化像你现在读到的信息来源,你需要一定的素养。你的大脑要能够理解文字。这是一个你以为理所当然的技能。假设几乎没有人有这样的技能,那么这篇文章也不存在。谷歌也可能不会存在。
Dataset Search代表了正兴起的大众化数据素养的浪潮
同样地,Dataset Search代表了正兴起的大众化数据素养的浪潮。这个趋势的发展就如同爬到山顶然后大喊 “数据工作不再是一个专有的技能了!”这个不再是几个抄写员在砂岩上篆刻象形文字 (哦,等一下,这跟写作是同一个意思。)
网上的数据集给予了同样遵循互联网规则的自我表达方式的新型载体。
Dataset Search帮你精益求精
Dataset Search已经是一个普及的交流方式 — 一个可以让我们顺畅交流的,以及每天都在被研习的新型语言。对于我们这些从小学习数据(语言)的人来说,用我们的语言来找到搜索结果是一个极大的解放。
我对Dataset Search的感觉很直接:总算来了!
一些技术细节来供你消遣:
在此处试用 bit.ly/dataset_search.