なぜデータサイエンスが重要なのか (Sequoia Capital)

f:id:foundx_caster:20191126041930p:plain

データに基づく会社日本語訳)の構築に関する私たちのシリーズの最初の記事では、データインフォームドな会社を作るために最も重要な材料をお伝えしました:インパクトおよびデータインフォームドな文化を構築することに専心することです。今回の2回目となる記事では、データサイエンスが重要な理由にフォーカスし、プロダクト構築の文脈におけるデータサイエンスの未来について議論します。

一体データサイエンスとは正確には何なのでしょうか? データサイエンスとはデータを用いてナレッジやインサイトを抽出する、真理を追究する科学的な領域です。データサイエンスは最も急成長を遂げている分野の一つであり、すでにあらゆる業界や研究分野においてとてつもない価値をもたらしています。しかしながらデータサイエンスはまだ黎明期にあり、あらゆる成長中の分野とも同様に、その定義に境界線を設けたくなることがあります。何がデータサイエンスで何がそれに含まれないのかを分類化したり、データドリブンではなくデータインフォームドであるべき理由を議論したりするよりも、この領域が自然と進化できるだけの余裕を残しておくことが最も重要だと私たちは考えます。

なぜデータサイエンスは重要なのか?

テック企業を始めて、よいプロダクトを作り、手ごたえを得ることは以前よりも容易になりました。接続性の改良やクラウドストレージおよびコンピューティングのコスト低下、ターゲットオーディエンスにリーチするための流通プラットフォームへのアクセスの良好さのためです。その結果、プロダクトが月に1億人のアクティブユーザーにリーチするために要する時間は劇的に短かくなり、今日でも短縮し続けています。例えば、iTunesが月間1億人のアクティブユーザーにリーチするには2003年の時点で約100カ月かかり、ポケモンGOではさらに多くの日数がかかっていました。以下の図では、電話をはじめとした良い例をさらにいくつか示しています。

f:id:foundx_caster:20191126042101p:plain開発されたプロダクトの増加、ネット接続デバイスの購入の増加、ネットで費やされる時間の増加。これらが組み合わされ、ユーザーインタラクションデータの量が跳ね上がりました。優れたプロダクトの開発を助けるためにこのようなデータをマイニングしてキーインサイトを導くことに対し、非常に大きな関心が起こってきました。今では会社の競争力は、様々な異なるソースにまたがるばらばらの巨大なデータセットにいかにうまくアナリティクスを応用し、プロダクトイノベーションを推進できるかによって測定されます。ゆえにデータサイエンティストへの需要は高く、プロダクトが成功するかどうかは頭の良いデータサイエンティストのチームにかかっています。

このようなインサイトのためのデータマイニングに対して高まる関心は、プロダクトチームが4つの具体的なアウトカム(成果)にフォーカスしてデータを利用することを導いてきました。

  1. ビジネスの健全性を評価する:プロダクト分析の主要なアウトカムの一つは、プロダクトまたはビジネスの健全性を評価することです。ゴール(目標)と指標によりプロダクトの成功を定義したら、次のステップは目標達成への正しい道筋にちゃんと乗っていることを確認するために指標をモニターすることです。戦術的には、アナリストは外れ値の特定、メトリクスの変化を促進する要素の理解、ダッシュボード・レポート・視覚化等の構築に取り組みます。
  2. 正しいプロダクトおよび機能を世に送り出す:アナリティクスのもう一つ非常に重要な役割は、正しいプロダクトおよび機能が開発されるよう徹底することです。多くの会社はいくつもの実験を行い、これらの実験の結果を評価したのちにプロダクトをリリースします。通常はデータサイエンティストが実験の設計、事象に関するデータインフォームドな仮説の特定、プロダクトチームがデータインサイトを通じて常にプロダクトを最適化していくことを導くことを助けます。
  3. アウトカムを予測しプロダクションシステムに力を与える:データサイエンティストのもう一つの役割はプロトタイプ・モデルを構築し、AI・MLを用いてプロダクションシステムの力を増すことです。このようなデータサイエンティストは将来予想されることやトレンドを予測するために事象に関する機械学習モデルをトレーニングします。
  4. プロダクトのロードマップと戦略を設定する:ユーザージャーニーと事象をより深堀りして分析すると、最終的にプロダクトのロードマップおよび戦略の設定へと至る、実行可能なインサイトが導かれます。データドリブンなロードマップおよび戦略は、世界クラスのプロダクトアナリティクスチームの最も重要なアウトプットの一つです。

これらの4つのアウトカムにより、業界には2種類の異なるデータサイエンティストの存在が導かれました — プロダクトアナリストとアルゴリズム開発者です。

データサイエンティストは何をするのか?

データサイエンティストという肩書は複数の役割を内包し、それらは会社や業界により大きく異なります。それを前提とした上で、一般的に言ってデータサイエンティストには2つの主な領域があります:

  1. プロダクトアナリスト。その役割は、プロダクトまたは戦略において変化を訴えるデータインフォームドなストーリーを届けることです。例:我々のSMS通知デリバリーシステムはインドで機能していない。ゆえに、我々はインドでのSMS通知の改善に注力する必要があり、それは再び成長の火を点けることに役立つ。
  2. アルゴリズム開発者。その役割は、データドリブンな機能をプロダクトに入れ込むことです(例:レコメンデーションや検索結果の最適化)。例:インドネシアでの不正案件が増加した。インドネシアでの最近の不正の傾向に着目した新モデルを開発する。

プロダクトアナリストは、目標の設定およびプロダクトロードマップ・戦略について知らせることに注力します。プロダクトの健全性を評価・理解し、プロダクトの意思決定(概ねは実験により)を提供することで、プロダクトの改善を助けます。プロダクトアナリストによる一般的な成果物はプロダクトチームへのレポートで、そこには定量化可能な課題、特定されたチャンス、データに基づいた推奨事項やソリューションが含まれます。

アルゴリズム開発者の主な仕事は具体的な最終目標を追求するプロダクトのパフォーマンス改善のためにデータを活用することで、通常はアウトカム予測やプロダクションシステムの構築です。アルゴリズム開発者は通常機械学習その他の複雑なアルゴリズム技術を用い、大量のデータからのインプットに基づいた予測を行います。一般的に、アルゴリズム開発者は提案されたソリューションをプロトタイプ化し、エンジニアリングチームと共に密に連携しながら、プロダクションに実装します。アルゴリズム開発者による成果物はプロトタイプ化されたコードおよびエンジニアリングチームに提供される資料です。

これらの両方のタイプのデータサイエンティストに分析的な見通しや数量的スキル、優先順位をつける能力が要求されますが、両方の役割を果たせる人が見つかることは稀です。アルゴリズム開発者には機械学習や人工知能等のより洗練された技術知識が要求され、またエンジニアに近いレベルのソフトウェアエンジニアリングスキルも必要となります。プロダクトアナリストは主に問題解決者であり、自身のビジネスやプロダクト、様々な関係者と効果的にコミュニケーションを取る能力に基づき差別化された人たちです。

アルゴリズム開発者を求めるのは一部の組織である一方、プロダクトアナリストはプロダクトや競合その他の戦略的課題を乗り越えることを助けることができるため、ある程度のユーザーベースを持つすべての会社がそのメリットを享受できます。このブログ記事シリーズの後の方で、プロダクトアナリストが最大限貢献できるための採用・トレーニング・コーチング・管理に関するアドバイスをさらに提供します。

さて、会社はアルゴリズム開発者を採用してよりデータドリブンになるべきでしょうか、あるいはプロダクトアナリストを採用してよりデータインフォームドになるべきでしょうか? 意思決定に必要なシグナルがデータのみの場合、アウトカムは純粋にデータドリブンなものとなります。対照的に、データインフォームドな意思決定では、データは強力なインプットとなりますが唯一のインプットではありません。一般的に言って、プロダクトアナリストはデータインフォームドで、アルゴリズム開発者はデータドリブンです。

データサイエンスの進化

こんな世界を想像してみてください。あなたに関することをすべて知っている機械があり、あなたが言葉で要求しなくてもあなたのために買い物をしてくれるような世界。その機械はあなたの食べ物の好みも知っていて、料理もしてくれます。あなたの選択肢をわかっていてあなたに代わって意思決定し、あなたのために何がよいことかを知っていて、あなたの人生を計画してくれます。この世界は未来のずっと先にあり、私たちの人生の大部分に入り込むためには人工知能が必要となります。この夢に向かって前進するためには、私たちはさらにデータドリブンにならなくてはいけません。

完璧な世界ならば、つまり完璧な情報や、あなたのシステムを動かすすべてのものやそれらの間の相互作用に対する完全な理解が備わったような完璧な世界であれば、二つのアプローチはやがて一つに収束することでしょう。完璧なモデルを構築するには、研究対象の事象が完全に理解されていなければなりません。データと事象の間の関係は完璧なモデル(および関連するリッチフィーチャーセット)で説明できます。このレベルの完璧さへと進化し、またその経過で進歩を遂げるためには、世界はデータインフォームドな意思決定に関して進歩し続けなければなりません。すなわち、私たちは私たちの意思決定を、容易には完全に定量化できない他の主観的な方法で拡張し続けなければなりません。オブジェクト間の関係への理解を深め始めるにつれ、ますます多くのプロセスが自動化され、未来はデータインフォームドよりもよりデータドリブンになるでしょう。しかし、データインフォームドな意思決定は次の数十年間でも極めて重要なものとなり続け、データドリブンな意思決定はデータインフォームドな人々による進歩によってのみ改善するでしょう。

データインフォームドな意思決定とデータドリブンな意思決定の違いを理解するには、事例を提示することが最もわかりやすいと思われます。

  • 目標設定。良い目標は測ることができ、数値化できるものです。目標の特定とトラッキング(進捗確認)ができることはますますデータドリブンとなってきます。例えば、Facebookのアクティブユーザーのトラッキングは完全に自動化されるかもしれません。しかし、アクティブユーザーや収益に関して正しい四半期毎・年間目標設定を行うことは部分的にしか自動化されず、データインフォームドなままであり続けるでしょう。
  • ロードマップと戦略の定義。ロードマップ・戦略の設定は定量的ではないため、データインフォームドなアプローチが必要となります。例えば、データを用いて、SMS通知にフォーカスして一日当たりのアクティブ利用を増やすためのロードマップを作ることができます。よいロードマップは妥当な目標、これらの目標を推進する要素、プロダクトチームが有する手段、そして取ることができるすべての行動指針を考慮します。これらの多くは定性的であるため、ロードマップ構築および戦略定義のプロセスは主にデータインフォームドとなります。
  • アウトカム予測。アウトカムの予測はほとんどデータドリブンです。例えば、ユーザーにストーリーを見せるか否かを決めるには、複数の要素を理解することが必要となります。それらの要素には、ユーザーがクリックしたりそのストーリーを読んだりする確率が含まれます。企業はこの具体的なアウトカムを予測するために通常モデルを開発し、常にイテレーションを重ねていきます。
  • プロダクションシステムへのパワーリング。PayPalのような会社が取引において不正行為を特定するには、すべての取引について手動で行えば法外なコストがかかります。その結果、プロダクションシステムのパワーリングをほとんど機械学習に委ね、取引が不正である確率の計算について自動化を図っています。確率の評価に続く意思決定の多くもまた自動化されています。しかし、確率評価の確実さが低い領域では、意思決定はデータインフォームドかもしれません。

まとめ

  • データを通じたプロダクト改善とマネタイズは、近年では競合に対するアドバンテージとなりました。よく整理された強いデータ組織は強力な差別化ポイントです。
  • データサイエンティストは様々な会社でプロダクトに関する主要な意思決定を推進しており、意思決定を向上する次世代アルゴリズムを構築しています。
  • 世界はより一層データドリブンになり続けるでしょうが、データインフォームドな意思決定はこれからも妥当であり続けるでしょう。

この記事は Sequoia Capital のデータサイエンスチームによる成果です。Chandra Narayanan、Hem Wadhar、Ahry Jeon がこの記事を執筆しました。データサイエンスに関するシリーズ全体はこちらからご覧ください。ご質問やコメントその他のフィードバックは、data-science@sequoiacap.comまでメールでお寄せください。

 

記事情報

この記事は原著者の許可を得て翻訳・公開するものです。
原文: Why Data Science Matters (2019)

 

関連記事

FoundX Review はスタートアップに関する情報やノウハウを届けるメディアです

運営元