データサイエンス界にあなたのデータを提供する方法！

データサイエンスは発展しました。これら2000万のデータセットが証拠です。

Cassie Kozyrkov

15 min readFeb 27, 2020

コツィル・キャシー (Cassie Kozyrkov)の英文記事より（和訳 Baby-degu）

（えーっと、間違った「データ」の検索ツールです）*
**訳注 *:写真はスタートレックに登場するデータという名前のアンドロイドです。**

私のお気に入りの1つは、最近Google検索ファミリーに追加されたデータセット検索です。はい。読んで字の如くです。画像を検索できるのと全く同じように、データセットを検索できます。

画像を検索できるのと全く同じように、データセットを検索できるようになりました!

データセット検索からわかる、一般のデータリテラシー

Google ImagesやGoogle ScholarのようなGoogleの分野別検索エンジンは、もし誰も使っていなければ長続きしていなかったでしょう。ですので、インターネット上で皆が探す傾向のある、ちょっとした何かが、これらの分野からわかります。画像、ビデオ、ニュースにほとんど驚きはありません。しかしデータセットはどうでしょうか？データセットは、遠く離れたイグルー*にいる3人の隔絶された教授達だけのものではない、というのがヒントです。(訳注*:イグルー = 氷で作った住居)

データセットは大きく、…さらに大きくなっていっています。

得るものはなんでしょうか？いくつもあります。これは本当にGoogle ImagesやGoogle Scholarの検索と同じですが、データセットのためのものです。現在、2,000万（！）を超えるデータセットがインデックスされており利用可能です…またインデックスの数は急激に増加しています。

今日では、2,000万のデータセットがすぐに使用できます。明日にはさらに増えているでしょう。

データセットの存在を知ったので、あなたは、ここで試してみるか、データセット検索がどのように働き、データサイエンスを職業とする人々や一般の人々にとって、どのような意味があるのかという議論に参加することが出来ます。

私が行った、最も最近のデータセット検索セッションからのスクリーンショットです。私が大学院時代に戻ったとすると、こういったデータにアクセスするには、どこに頼めばいいか、という手がかりを得るために、ずうずうしく這いまわっていたことでしょう。（文字通り手に入れるために、しなければならないことでした。他の研究室に何とかして出してもらうよう依頼する、大抵は無駄になる長いメールを書きます。この新しい方法は何と簡単なのだろうかと、涙ぐむ時間を私にください。）

アナリティクスを加速する革命

アナリティクスは、データサイエンスの一部であり、全ての場面で、すぐにインスピレーションを得ることができます。統計や機械学習とは異なり、アナリティクスにおいて最も重視すべきはスピードです。（安全を保つために、優れたアナリストには、新しいデータを吟味する前に、結論へ飛躍することへの防衛反応が形成されています。)

データへの高速アクセスにより、アナリティクスの能力がより強力になります。

データセットが見つけやすいと、何がよいか知っていますか？それはより高速なアナリティクスです！データセット検索は、プロのアナリストやデータサイエンティストにとって、信じられないほどの速度向上をもたらします。（ただし、インスピレーションを真剣に受け止めてしまう危険がある場合は、統計的アプローチで、より慎重にフォローアップすることを忘れないでください。）

はいはい。でも本当は裏があるんでしょう？

もしあなたが、データセットが希少で貴重であり、教授やデータプロバイダーによって多くがキュレーションされている世界で育った場合ー私たちの多くがそうだったように!ー無意識にこのようなバイアスに陥りかけているかもしれません：「データを提供している人はだれでもその品質について責任を負っている」（そしておそらくPhDがついており、どこかに念入りにしまい込まれている）。もし主に学習や科学の文脈でデータセットを扱っている場合は、あなたが受け取る前に、愛情深くマッサージされているという印象をいだいているかもしれません。

現実のデータサイエンスは密林で、教授達にキュレーションされた神聖な空間ではありません。

そのバイアスをしばらくの間脇に置き、別のものを考えてみましょう：素人のデータ崇拝の毒性について…大文字の「D」で”data”を発音する傾向がある人は誰でも、構造化、パッケージ化されたすべての情報が有用で真実であると想定しがちです。ちょっと待って、それは魔法でもなんでもないんです。読んだことすべてを信じないでください。また、すべてのデータセットも信じないでください。データの性質やデータ崇拝の詳細については、こちらをご覧ください。

データを提供してくれるほとんどの人の評判が良いという環境で過ごしてきたり、データや科学を崇拝するように教えられていたりすると、ひどくショックを受けることでしょう。想像してみましょう！データセットは、構造化されたゴミの束になる可能性もあります。壊れる可能性だってありますし、捏造だってできます。60億のゼロになる可能性も。とにかくどんな物にもなりえます。書かれた言葉のように！

「本に書かれているなら、それは正しいに違いない…」

書かれた言葉について言えば：「本に書かれているなら、それは正しいに違いない…」正しいですか？違います！さらにひどい場合：「オンラインに書かれているなら、それは正しいに違いない…」あなたの引きつった顔が見えるようで、私はそれが大好きなのです。いいね。あなたは懐疑的でしょう。そうであるべきです。今度は「データセットに書かれているなら、それは正しいに違いない…」というのはどうでしょうか？

誰でも好きなものを書くことができるので、そこにはたくさんのジャンク（ごみデータ）があります。それを信用するより、あなたは良いやり方を知っています。代わりにそのソースについて考える時間をとります。良くできました。というのは、その習慣はデータの領域で、あなたの安全を確保してくれるでしょうから。

書かれた言葉よりもデータを信頼する習慣がある場合、注意してください。

書かれた言葉よりもデータを信頼する習慣がある場合は注意してください。気付かないうちにその習慣が身についているかもしれません。データを大文字Dで発音する何か神聖なものとして扱ってはいけません。Google画像検索やウェブ全体の検索でいつも使っている、ウェブでの抜け目ない習慣へ方向転換しましょう。あなたは、これらの猫の写真や、うまく要求すると提供される、透明人間になれる薬のレシピを、Googleが持っていたり、編集したりしないことを知っています。(これらの透明になれる薬は効かないことは知っていますよね？)品質はさまざまであり、読むものすべてを信じる前に、そのソースについて批判的に考えるかどうかはあなた次第です。ウェブ上にはあらゆる種類の情報があり、あまりに多くの情報に騙されているのです。まあ、ほとんどの場合は。最も優秀な人でさえ、時折は奇妙なトリック広告*や、風変わりなニュース記事をクリックしています。
訳注 *:One Wired Trick

いつもの抜け目ない、懐疑的なインターネット検索をデータセット検索に適用すれば問題ありません。

データセット検索の結果を他のインターネット検索結果と同様に扱いましょう。このツールは、干し草の山をふるいにかけるのには役立ちますが、猫を引きずり込んでいる物の性質を念のため確認するかは、あなた次第です。

だけどちょっと待って。品質の異なる検索可能で膨大な猫の画像の宝庫と、美しくキュレートされた3枚の猫の画像の小さなアルバムのどちらかを選択できるとしたら、私はいつでも前者を選ぶでしょう。（まあ、私は欲張りだから実際には両方を選択します…そしてあなたもそうすることができます。検索ツールについて言えば、選択を一つに制限するものは何もありません。）

インターネットは主にスパムでできています

存在するものすべてが、あなたにとって良いわけではありません。とはいえ、Googleはスパムと戦い、正当な結果に優先順位をつけるために最善を尽くしています。ええもちろん、人々はあなたの注意をひくために、そこにスパムのデータセットを置くでしょう。そしてもちろん、私達は代わりに、本当に良いものを提供しようとそれをランク付けします。通常の検索と全く同じです。しかし、これらが完璧であることを期待すべきではありません。

あなたのデータセットを検索可能にするには、schema.orgのメタデータを、データセットを説明する各Webページに追加するだけです。

あなたのデータセットを検索可能にするには、schema.orgのメタデータを、データセットを説明する各Webページに追加するだけです。誰でもブログ投稿を書くことができるように、誰でもそれを行うことができます。ゴミになる可能性もあります（このブログ投稿は…多分）ので、ソースについて批判的に考えてください。

無料の範囲でデータを消費しようとしている場合は、自分自身に対する洞察を維持する必要があります。あなたが読んだすべてを信じないでください。

schema.orgとは何か？どのように機能するのか？

schema.orgのアイデアは、Google、Bing、Yandex、Microsoft、Yahooなどのお決まりの団体によって牽引されたコンソーシアムにより2011年に誕生しました。彼らは、スクレイプされたWebページのコンテンツを推測するのにうんざりしていたため、何が何であるかをプロバイダーが語るために使用できる共通の語彙を作成することにしました。この語彙はHTMLに埋め込まれ、イベント、アドレス、レシピなどを説明するビットを示します。さまざまなタイプの情報を記述する小さなスキーマです（したがってこの名前です！）。schema.orgをページに追加して、ページにデータセットがあることを伝えると、そのデータセットがデータセット検索結果に表示されるようになります。

データの提供者はschema.orgを使用して、ページにデータセットがあることを通知し、それに関するメタデータを記述します。

これは、Google固有の魔法ではありません。それは誰でも貢献できるオープンなコミュニティ標準です。多くの企業が何年もの間、舞台裏で使用しています。Google固有のビットは、データセット検索でこれらのデータセットを検索するための新しい機能です。データの提供者はschema.orgを使用して、ページにデータセットがあることを通知し、それに関するメタデータを説明します。データセット検索は通常の検索によく似ていますが、結果は、データセットがあると主張するページに限定されます。シンプルで便利ですね。

データの共有に参加する方法

データが、それぞれを慎重にキュレーションする責任を負う少数の大規模な提供者（政府や大学など）から独占的に提供されていたとき、より小規模なプレーヤーは彼らのデータを共有する手段を欠いていました。

以下のようなシナリオを想像してください：女子高生のグループが課外ロボットプロジェクトに取り組んでいます。彼女たちは、同様の趣味を持つ人々に役立つかもしれない大量のデータを収集しています。彼女たちはそれを喜んで共有します（なんて素晴らしいことでしょう）。彼女らは高校のウェブサイトにデータへのリンクを置いています。そのデータは、あなたのプロトタイプ作成を支援するために必要なものです。今のこの方法をどう思いますか？

データセットが検索可能でない場合、それを見つけることはできません。データをアクセスできるようにするためにキュレーター（政府など）がホストしなければならない場合は、順番待ちするように指示されます…そしておそらく、列の先頭になることは決してないでしょう。厳重なキュレーションに乏しいリソースを費やすプロバイダーは、限られた優先ソースのセットにしか時間と注意を持てないでしょう。そうなると結果は？逃してしまったものを、あなたが知ることは決してないでしょう。

だからこそ、このデータセット検索パラダイム全体はとてもすばらしいと思います。データを共有することで（あなたを迷子にしてしまう仲介者なしで）、ニッチな趣味を持っている場合でも、人々は優れたリソースを見つけたり提供したりすることができます。…高校のWebサイトが不明瞭な場合でも。

検索可能なデータの共有に参加するには：

データが必要です。
schema.orgを介してデータが持っていることを示す必要があります。（自分で行うこともできますし、Zenodoのようなリポジトリに配置することもできます。）

その他の問題

これらの両方の条件を満たそうとする傾向が分野ごとに異なることは驚くことではありません。政府は最初にデータセットのインデックスを作成したため、彼らが収集する傾向のあるデータセットの種類（天気データなど）は有力な候補ですが、収集するのに費用がかかる独自のデータはほとんど入手できません。とはいえ、毎日より多くのデータが追加されており、検索は無料データと有料データへの扉が提供されています。（Google Imagesの透かし入りの独自の画像に少し似ています。）どちらの扉を通るか、支払う料金に値するかどうかを選択するのはあなた次第です。

人類のためのより大きなビジョン

データセット検索などの大規模なユーザーベースは、データサイエンスとデータリテラシーに関する人類の進化の象徴です。私たちは種として成長し、感覚を展開する方法と情報と通信する方法を拡張しています。

データアナリティクスはすべての人のゲームになりつつあります。

インターネット上で一つのページを開く機能に、その後はブラウザで、ごちゃごちゃの50個のタブ(データポイントごとに1つ)を開いて閲覧できる機能に、私たちは感銘を受けたものでした。今、私たちはもっと多くを求めています。仕事用に構築されたコードツール（PythonやRなど）を使用して、すばやく作成および要約できるデータセットが必要です。現在データに精通したコミュ二ティはクリティカルマスを持っています。データを理解するのに十分なスキルがあり、写真入りの記事のページに満足していません。（あなたが今見つめているものです。はは。）

リテラシーの進化

データセット検索は、データリテラシーの民主化の潮流を表しています。

同様に、データセット検索は、データリテラシーの民主化の潮流を表しています。この開発全体は、山の頂上まで登り、「データを扱うことはもはや完全にニッチなスキルではありません！」と叫ぶための方法です。もはや象形文字を粘土タブレットに刻む数人の筆記者に限定されなくなりました。開発全体は、山の頂上まで登り、「データを扱うことはもはや完全にニッチなスキルではありません！」と叫んでいます。（ああ、待って、同じ考えがここに書かれていた。）

オンラインデータセットは、インターネットの残りの部分と同じルールに従う自己表現の新しい手段を提供します。
データセット検索は、おしゃべりの中から宝石を見つけるのに役立ちます。

データセットは広く普及したコミュニケーション形式になりつつあります。私たちの多くが流暢に話し、さらに多くの人たちが毎日勉強している美しく新しい言語なのです。私達のような幼少の頃からデータを話し続けてきた人たちにとって、自分たちの言語で検索結果を得ることができ、とても安心です。

そういうわけで、データセット検索に対する私の気持ちを言葉にするのは簡単です：ついに！

より楽しむための技術的な詳細：

Google AI ブログ投稿
Web Conference 2019 ペーパー

bit.ly/dataset_searchで試してください。