優れたデータに基づく企業(日本語訳)を確立するためには、影響力に注力する世界クラスのチーム(日本語訳)を作るだけでなく、データの価値を真に理解するすばらしい土壌を創出しなければいけません。私たちは「Why Data Science Matters(日本語訳)」で、データサイエンスの重要性と企業が製品構築に役立てるためにますますデータ利用に重きを置くようになった理由について話しました。この記事では、時間の経過とともに製品がいかに進化するか、またそれに伴い、データインフラ、チーム、組織がいかに進化するかについて、詳しく見ていきたいと思います。
製品の数が増え、インターネットに接続するデバイスの売り上げが伸び、オンラインで費やされる時間は長くなるほど、ユーザーによって生み出されるデータ量は劇的に増加します。それと同時に、さらなるA/Bテストと実験の好循環は、結果的にプロダクトのイテレーションを加速させることになり、リリースをも加速させ、製品を成長させます。そのため、そのデータから洞察を得ようとする社内の需要は高まっています。
事業の競争力をますます突き動かすようになってきたのは、大量で無秩序なデータセットに分析をいかにうまく応用するか、さらに、そのような分析で得た洞察からいかにイノベーションを生むかという点です。結果として、データから事業価値を引き出す組織の構築がかつてないほど重要になってきています。
データの有効活用に必要となるのはデータ分析組織です。この組織は、データから導き出されるすべての結果に責任を持つものでなければなりません。これには主に3つの目的があります——
- 事業の健全性の評価。主要な製品の指標をモニタリングします。それらの指標の変化を突き動かしているものを把握し、周辺的なものを特定します。ダッシュボード、レポート、視覚化を確立し、分析します。
- 適切な製品の出荷。 実験を設計・評価します。利用者をセグメンテーションし、その行動モデルを構築します。人工知能と機械学習を用いてプロダクションシステムを強化します。
- ロードマップと戦略の策定。利用者の行動を深く掘り下げ、分析します。行動に移すことのできる洞察を導き出し、現象を予想します。
データ分析組織の構造
これらの結果を手にするには、適切なインフラが必要です。下記の図表を使って、その構造をご案内します。
この過程の第一歩は、利用者と製品のすべてのやりとりを記録することです。サードパーティーに由来するあらゆるデータに加えて、アプリやウェブ上のすべてのクリック、軌跡、開く・閉じる動き、ログイン(加えてすべてのメタデータ)を記録します。一般的にはこのようなデータの規模は、利用者数および利用者の継続的利用が増加するにつれて、急激に拡大します。
このようなデータで意義深く活用されているものはほとんどありませんが、記録(ロギング)はこの過程においては重要な一歩です。企業は概して、最終的に必要になるであろうデータがどのようなものなのかがわかっていないため、一番簡単なのはすべてを記録することです。その後、例えば不正利用検知やライブ動画に役立てるために、記録されたデータのうち、特定の種類のものはリアルタイムでストリーミングをする必要が出てきます。
この未加工データは、第三者の提供者とその他の取引体系に由来するデータとともに、その後、変換され、集計され、(抽出 extract、変換 transform、ロード load、あるいはETLとして知られている過程を経由して)ウェアハウスへのロードが行われます。ロードハウスは、データをより構造化した(通常はSQLを使用する)形式で保存します。一部の大手企業は、すべての取り込みデータを未加工のままデータレイク(全データを保存する集中型のレポジトリ)に保存することを決めています。彼らはそこから最新の論理を用いてダウンロード・データストアをリハイドレートすることができます。
多くの中堅・大手企業は複数のデータウェアハウスとデータレイクを持っています。データセットの統合なしにはデータの直接的な分析は手に負えません。結果的に、これらのデータセットは、特定の利用事例(例えば、広告主の成長データ)を目的とするもう一つのETL過程を経ます。そこから出力されたものは分析データベースに蓄積されます。そのデータベースを利用して、さらに掘り下げた分析を行い、レポートと視覚化を構築し、AI および機械学習(AI/ML)のモデルを確立します。 これらの分析から得た洞察が役立ち、ロードマップと戦略が生まれます。一方、視覚化とレポートが製品進化の監視に役立ち、AI/MLモデルが自動化と予測を促進します。
さらに、製品開発に向けた実験と学習の取り組み(あらゆるデータに基づく製品構築をするときの要です)では、製品は追跡された利用者の行動に基づいて構築・調整されます。製品実験(例えばA/Bテスト)の大規模なセットが、その重要指標への影響に応じて、実施され、評価され、実装されます。このような実験においては、機能フラグは利用者を分割し、確実に利用者集団ごとに異なる処理がなされるようにします。
データスタックが標準化されきたので、複数のデータ関連の専門職が登場してきました。データアナリスト、データエンジニア、データインフラエンジニア、データアーキテクト、データサイエンティストなどです。クリエーター、末端消費者、データ製品にはスタックのセグメント全体に渡って様々なものがあります(下記の表参照)。
データ分析組織の進化
データ分析組織は、製品の拡大とともに進化する必要があります。例えば、ペタバイト規模のデータを専門とするデータエンジニアの雇用は、おそらくアーリーステージにおいては重要ではありませんが、製品の利用者が増加すれば重要になるかもしれません。データ分析チームへの資金提供は、ほぼ中期的な需要によって方針を決めるべきである一方、インフラに関しては長期的需要に即して構築するべきです。
様々な製品および機能の全体の利用者数を計算するような活動は、初期においては計り知れない価値をもたらすかもしれません。しかし時間の経過とともに、データ分析チームはこれよりもはるかに広い視野に立って活動する必要があります。私たちは、特定の開発段階の主要な任務を基盤として、責任がどのように定義されているかを、下記に大まかに示します。
ほとんどの組織は、データ分析チームを頼りにして、数値を扱ったり、ダッシュボードを設定したりしています。継続的に実験を行い、製品を改良している組織はわずかで、目標とロードマップを導くために、依然としてデータ情報型の分析を強化している組織はさらに希です。
最初に組織が数を扱う場合、中核的技能として必要となるのは、技術的遂行に秀でていることです。KPIを安定して生成するインフラの設定、時間をかけてそのような数を追跡するためのデータストアの作成、基本的なレポートの構築には、優れた専門的能力が必要です。ほとんどの企業で、製品開発チームが最初のデータ分析チームと事実上、重複していることがよくあります。彼らは指標を定義し、製品利用の増加に伴い、その指標を中心にしてデータの計算と蓄積を行なっています。
会社と製品が進化するにつけ、ダッシュボードの設定とレポート作成は極めて重要になります。データエンジニアリングが製品開発エンジニアリングとは独立した中核的役割になり、また、ETLおよびレポート機能を強化することに特化してインフラを整えるのはこの段階です。この時点で、より深い製品開発のマインドセットを持つことが、データ分析チームに付け加えられるさらなる重要なスキルセットになります。KPIの監視と組織内の他の人々へのレポートの提供に加え、指標のばらつきの根本要因を特定するための臨時の分析を行うことが、データ分析チームの中心的な責任になります。
製品体験を向上するための実験が(統計上の有意性の観点から)可能になり、かつ、重要になるほど製品が成長したなら、統計技能はデータアナリストとエンジニアリングの両方のチームにとって重要になります。データアナリストに関しては、実験がうまく設計され、結果の解釈が統計学的に正しいものであることが必須条件になります。期間の終わりには、実験の枠組みを向上させるために、利用者の追跡(同一の利用者が関連する複数の実験に入らないようにします)などの検討や、結果の解釈をすばやく行うことを可能とするその他の統計的な機能の吟味が必要になります。これについては将来的に投稿する予定です。
最後になりましたが、データサイエンスチームの最も重要な役割は、目標、ロードマップ、戦略の設定の支援です。適切な目標の設定には、事業の目的全体をよく理解することが必要です。ロードマップの設定には、問題と機会を特定し、洞察を結果に結びつけることのできる予備解析を行う能力が必要です。とりわけ、どのような現象であっても、その背景にある原因と変化を起こすための手段を把握し、そうした洞察を考えられうる一連の行動に結びつけることが大事です。優れた専門知識や答えを得ようとする分析的発想がなくては、これをうまくこなすことはできません。
さらに、製品開発チームの戦略の設定には、すべての関連する現象(いわゆる「点、ドット」)を把握し、点同士がどのように関係しているのかを特定および理解し、最も意義深い戦略を推奨するための優れた能力が必要です。最後に、シニアリーダーシップたちと効果的かつ明瞭に意思疎通をすることは、データに基づく方法論の先々の実装に向けて、目標、ロードマップ、戦略を設定する上で重要です。
まとめ
- 製品周期のそれぞれの段階で適切なデータ分析の逸材を雇用することに加え、データインフラを慎重に理解することが、データ分析組織の成功に貢献します。
- データ分析組織は、次の3つの結果に責任があります。すなわち、事業の健全性の監視、正しい製品の発売、製品の目標・ロードマップ・戦略の設定です。
- データ分析組織の役割は、時間の経過とともに、数値の計算から最終的なロードマップおよび製品戦略の設定まで、価値を生み出すスタックを進化させるものでなければいけません。
この記事は、Sequoia CapitalのData Scienceチームの手によるものです。Chandra Narayanan、Hem Wadhar、Ahry Jeonがこの投稿記事を書きました。こちらでデータサイエンスシリーズの全容をご確認ください。ご質問やご意見、その他、ご感想はdata-science@sequoiacap.comまでメールにてご連絡ください。
記事情報
この記事は原著者の許可を得て翻訳・公開するものです。
原文: How a Data Organization Evolves (2019)
関連記事