データネットワーク効果の空約束 (a16z, Martin Casado and Peter Lauten) - FoundX Review

データはこれまで長い間、企業に競争優位性をもたらす壕（moat）として崇められてきました。そして、そのような話は近年のAIスタートアップ・ブームによってますます誇張されています。ネットワーク効果も同様に、ビジネスを構築する際の防衛力として推進されてきました。当然の結果として、私たちはこの2つが合体した言葉、すなわち「データネットワーク効果」も繰り返し耳にしています (ええ、私たち自身もそれらについて詳細に話してきましたとも)。

ですが、(私たちが焦点を置く分野である) 企業向けスタートアップの場合、そもそもデータネットワーク効果が実際にあると示すような証拠があるのかどうか、今では私たちも疑問に思っています。その上、データにおける「規模の効果」というもっと単純なものさえ、多くの企業にとって防御戦略としての効果が乏しいのではないかとうすうす感じています。これは単なる学術的な疑問ではなく、創業者が時間と資源をどの領域に投資するのかについて重要な意味をもっています。あなたのスタートアップが収集しているデータが丈夫な壕に等しいと思い込んでいるのであれば、あなたのビジネスにおける実際の防御力を長期的に増加させるような他の領域 (垂直統合、市場参入の掌握、販売後の顧客管理、魅力的なブランドなど) への投資が不足しているかもしれません。

データを魔法の壕のように扱うと、創業者の注意が誤った方に向かい、成功のために本当に必要なものから遠ざかる可能性がある

言い換えれば、データを魔法の壕のように扱うと、創業者の注意が誤った方に向かい、成功のために本当に必要なものから遠ざかる可能性があります。では、データネットワーク効果は存在するのでしょうか? 従来型のネットワーク効果と違い、「規模の効果」はどのように作用すると考えられるのでしょうか? そして、「そういった効果を得なければならない」というでたらめを克服したとして……スタートアップがより丈夫なデータの壕を築くにはどうすればいいのでしょう? あるいは少なくとも、そのスタートアップの採る戦略において最も良い形でデータが作用する領域を把握するにはどうすればいいのでしょうか?

データ + ネットワーク効果 ≠ データネットワーク効果

広義において、「ネットワーク」とはあるネットワーク内にユーザー / 顧客 / エンドポイントなどのシステムが構造的に配置されているときに効果を表します。私たちの現状では、そういったネットワークがネットワーク構造をサポートする技術や製品やサービスを中心として築かれることがよくあります。そのネットワーク構造がエンゲージメント機能 (例えばソーシャルネットワーク) を中心として構築されているか、それともプロトコル (例えばイーサネット、Eメール、仮想通貨) を中心としているのかを問いません。

ネットワークに加わるノードの数が増える、あるいは既存ノード同士でのエンゲージメントが増加するにつれて、参加者がそのネットワークに参加することの価値が高まるとき、そこにネットワーク効果が生じています。電話で一方的にしか通話できないことや、世界中でたったの5人にしか電話をかけられないことを想像してみましょう。電話システムはそのネットワークに参加するユーザーが増えるにつれて価値が高まりました。その他の誰もが知っていて、より現代的なネットワーク効果の例にはソーシャルネットワーク、オンラインマーケットプレイス、仮想通貨ネットワークが含まれるかもしれません。

通常、ネットワーク効果のあるシステムは、定義されたインターフェイスまたはプロトコルを通じたノード同士の直接交流という性質を持っています。ネットワークの参加には何らかの基準を満たすことが必要となります。それにより、全てのノードで直接交流が増加するとともに、それらの交流が有するスティッキネスもいっそう増します。しかし、データネットワーク効果について流布している話について言えば、それと同じくらいスティッキネスが高くて直接的な交流が展開しているところ (ましてやプロトコルやインターフェイスによるノード同士の機械的な相互依存が展開しているところ) を私たちはあまり目にしていません。

通常、単なるデータ量の増加に本来的に付随するネットワーク効果は存在しません。

大半のデータネットワーク効果は実際には規模の効果

結局のところ、データによる防衛に関する議論の大半は実際には「規模の効果」ということになります。これはノード同士の直接交流が存在しないもっと緩い定義のネットワーク効果について当てはまる動きです。例えば、Netflixのレコメンデーションエンジンは、あなたの気に入っている『X』という映画を視聴した人の大半に『Y』という番組も見る傾向がある場合に、あなたが『Y』という番組を楽しめる可能性が高そうだと予測できます。たとえそれらのユーザーがお互いに直接交流をしていなかったとしてもです。データが多ければ多いほど、レコメンデーションの質も良くなることを意味し、つまり顧客が増えることになり、そしてデータがさらに増え……これが有名な「フライホイール（車輪モデル）」です。

それにも関わらず、私たちの見解では、規模の効果と同じく、データが十分に強固な壕になることはめったにありません。固定型先行投資の経済的意味が時間と共に規模によってますます有利になり得る「規模の経済」とは異なり、データの規模の効果の場合は正反対の動きが展開することもよくあります。つまり、学習データに特異データを追加するためのコストが実際には上昇する一方、増加分のデータの価値は下がるかもしれません!

顧客サポートへの問い合わせに対応するため、チャットボットを使用する企業を例に挙げます。下記のグラフからわかるとおり、顧客サポートの書き起こしから初期コーパスを作成すると、単純な問い合わせ (「私の小包はどこですか? 」) に対する答えを入手する可能性が高くなります。しかし、問い合わせの圧倒的多数ははるかに乱雑なもので、その多くはたった一度しか尋ねられることはありません (「私が玄関の階段で到着を待ち続けている例のものはどこですか?」) 。そのため、この限定的なケースにおいて、有益な問い合わせを収集することは時間が経つにつれて難しくなっています。また、このケースでは、質問の40%を収集して以降にさらなるデータを集めるメリットが実は全くありません!

f:id:bfore:20190513191456p:plain — 上記のグラフはEloquent LabsのArun Chaganty氏による研究から引用したもの (許可を得て掲載) で、顧客サポート分野のチャットボットに寄せられた質問に関するものです。この中で、Chaganty氏はデータの分布に対する取り組みの20%はユースケースの約20%しかカバーしない傾向にあることを発見しています。その点に加えて、このデータ曲線では限界値が先細っているだけでなく、データの取り込みと整備にかかる費用もますます増加しています。また、その分布は40%という目標の範囲の漸近線に近づいており、その文脈に応じたあらゆる会話を自動化することがどれだけ困難かを実証している点もわかります。

もちろん、データの規模の効果がそこを超えると減退するようなポイントはドメインに応じて変わります。しかし、これが起きる正確なタイミングにはかかわりなく、その最終的な結末は同じになることも多いです。つまり、競争相手をリードするための能力がデータの規模によって (促進されるのではなく) 鈍化するという結末です。学習データが増大し、競争相手が追い上げてくるにつれて、防御力となる壕はより強固になるのではなく、崩壊していきます。

学習データが増大するにつれて、データの壕は強固になるのではなく、崩壊していく

ここでの論点はデータが防御力となる壕として役立つかどうか、断定することではありません。私たちの主張は、防御力がデータ自体に内在するものではないという点にあります。そして目標とするドメインにおけるデータ管理プロセスのライフサイクルを理解しない限り、防御力は保証されません。以下で述べる枠組みが役立つかもしれません。

データ管理プロセスを理解するための実践的な枠組み

最小限の実用可能なコーパス

ネットワーク効果について話す際、そのネットワークを全てのノードにとって役立たせるため (そして会社の経済状態を競争的なものにするため) に、十分な数の早期ノードを獲得することに関するブートストラップ問題またはコールドスタート問題 (口語では「卵が先か、鶏が先か」の問題と呼ばれる) の克服に主眼を置く人が大半です。ブートストラップ問題はほとんどのネットワーク効果が関わるビジネスにおいて解決するのが難しい問題です。たくさんノードを惹きつけるために、そのネットワークをすぐに稼働可能な状態にしなければならないときはなおさらです。

ですが、このことはデータの規模の効果を有する多くの企業向けビジネスにとって必ずしも真ではありません。私たちが「最低限の実行可能な学習データ」だと考えるものを自力で用意することこそ、訓練を始めるのに十分なことです。またそれはスタートアップのデータ管理プロセス全体における最初の変曲点です。この初期コーパスはさまざまな供給元から得られます。つまり、「ウェブをクロールするなどして、利用可能データの収集を自動化する」、「早期ユーザーに対して何らかの報酬と引き換えにそのデータを渡してもらう」、「転移学習によって他のドメインのデータを転用する」、さらには「データを合成する (この場合、プログラム的に訓練データを作成可能)」といったことです。

データ管理プロセスの早期に最低限の実行可能な学習データに着手すると、必要な投資が比較的低くなります。また、丈夫な壕にならないことは明らかです。

データ獲得コスト

任意の学習データについて、次なるデータの入手に関しては時間ととも収集の費用が高くなる傾向があります。学習データに新たなシグナルをもたらすユニークなデータは時間が経つにつれ、ノイズの中から発見するのがより難しく、確保するのにさらなる労力が必要となり、きちんと分類するにもさらに長い時間がかかるかもしれません。いわゆる「データネットワーク効果」に頼った多くのドメインにおいて、これは真実です。

他方、従来のネットワーク効果の場合、ユーザー獲得コストは徐々に下がります。そのネットワークに参加する価値が上がるためです。しかも、従来のネットワーク効果ではより内在的なバイラリティが付随するという傾向もあります。この場合、ノードにはネットワークを自分たちの手で成長させる動機が与えられているため、増殖してそのネットワークの価値をさらに高めていきます。これらの性質のどちらもデータ効果には当てはまりません。つまり、データのコストは上昇するということです。

データ価値の増分

データを収集するにつれて、そのデータを学習データに追加する価値が減っていく傾向もあります。なぜでしょう? たとえ新しい無作為のデータ群を収集するコストが最後に獲得したデータ群と同じだったとしても、獲得した新しいデータの一部はすでに既存の学習データ内で重複していることを考慮すると、それが生み出す価値は少なくなります。そしてこれは時間が経つにつれて悪化するばかりです。つまり、新しいデータのメリットは減っていきます。

私たちが見てきたスタートアップの大半では、早い時期に新しく得たデータは顧客ベース全体に適用されています。しかし、ある時点 (例えば、上記のグラフ例で見られる漸近線など) を超えると、収集された新しいデータは特別なユースケースの「ロングテール」に存在する小さなサブセットにしか適用されなくなります。そのため、データの規模の効果による壕はどれもデータセットが拡張されるにつれてその価値が低くなっていきます。

データ鮮度

次の論点は明確に思えるかもしれませんが、いくら強調しても足りないものです。すなわち、多くの実世界のユースケースにおいて、データは時間が経つにつれて鮮度が下がっていき……やがてもはや関係がなくなるということです。街は変わり、気温は変わり、人々の意識が変わり、といった具合です。

それだけでなく、多くのデータ系スタートアップが当初専有していた見識もまた徐々に弱体化します。データの価値がそれを収集する人々の増加につれて低下するためです。あなたの予測における優位性は競争相手が同じドメインであなたを追いかけるうちに崩れていきます。そして、既存の学習データの鮮度を長いあいだ保つためだけに必要とされる仕事の量も規模によって増加します (競争相手をリードするために必要な仕事の量は言うまでもありません)。

この意味で、データとはコモディティのようなものです。

データが防御力であるのは一体全体いつのことで、これを成し遂げるためにあなたができることは何なのでしょうか?

ここでは「データなど無意味だ」と主張したいわけでは決してありません! しかし、データに必要なのは周到な考慮であって、「私たちはデータを大量に持っている」という前提から「だから私たちには長期的な防御力がある」という結論へと飛躍することではありません。データの壕がデータ収集だけでは長続きしない (もしくは自動的に生じない) ことは明らかなので、データ管理プロセスと直接関係する戦略について熟考することで、あなたがデータによる優位性に対抗すること (そして、もっと意識的かつ積極的にそれに後れをとらないこと) を可能にします。漸近線や収穫逓減の点があなたの会社を突如襲った際に不意打ちを食らうよりも、そのための計画を練っておく方がはるかに良いでしょう。

データ効果に必要なのは周到な考慮であって、「私たちはデータを大量に持っている」という前提から「したがって、私たちには長期的な防御力がある」という結論に飛躍することではない

既存企業に対抗するために初期コーパスを自力で用意する

先ほど説明したとおり、データのブートストラップは一部のドメインではそれほど難しくありません。ところが、創業者は実際にはこれをうまく利用することでデータを有する既存企業と正面からぶつかることができるにもかかわらず、それを適切に適用することができません。最低限の実行可能な学習データを自力で用意したあと、適切なデータセットの構築で幸先の良いスタートを切ったスタートアップはそのノウハウを使うことにより、既存の競争相手がそのデータの解釈方法を把握するよりも前に、その相手を加速して追い抜くことができます。

合成データの生成は、巨大なデータの流れを備えている既存企業に追いつくためのもう一つのアプローチです。私たちは企業向けオートメーションの分野で、システムを訓練するための合成データを作成したスタートアップを知っています。結果的に、わずかなエンジニアがいるだけのそのチームは最低限の実行可能な学習データを自前で用意することができました。そのチームは、数十年間かけて世界規模で収集した既存の学習データに依存していた巨大な既存企業2社を最終的に破りました。どちらの企業も目前の問題には適応できませんでした。

そのデータの分布を知る

その学習データの分布をはっきりと理解していれば、あなたのデータ戦略が特徴づけられますし、アプリケーション分野によっては実際に生み出せる防御力の程度にも貢献します。

データの分布、そしてそれに付随する価値はドメインによって大きく異なります。そのため、分布の形を詳しく理解すること、そしてそれを収集するための適切な戦略を立てることが決定的に重要です。獲得が難しい重要なデータのファット・テールはあるでしょうか? そうである場合、学習データのスケールをロングテールに変える計画はどんなものでしょうか？そのドメインでは正確性がどのくらい重要でしょう? どのくらいのエラー率まで許容されるでしょうか? 同僚へのEメールの中で機械学習が誤ったオートコンプリートを予測したとしてもそれは世界の終わりではありません。ところが、自動運転カーの分野で物体の分類が不正確だとまさに文字通り、生死に関わる問題となりかねません。詳しく調べないと、データの分布に対する誤解は検知することが実に難しいかもしれません。例えば、時系列データ全体で重みが正しく適用されていない場合です (例として、「破滅的な忘却」を参照)。

私たちが先に述べた課題 (多くのドメインにおける学習の大半が例外的なユースケースのロングテールになっているというもの) は、あなたが先行者であれば優位性にもなり得ます。これはそういった学習が製品や販売プロセスに組み込まれているエンタープライズ企業の場合、特に当てはまります。一部の投資家は規模拡大と利益における困難しか見ないため、複雑な市場を歯を食いしばりながら進んでいくことに魅力を感じません。しかし、複雑な市場に進出する方法を見つけると、そのこと自体が防御力のある痕跡のようなものを作り出せると私たちは考えています。

データが自分の製品をどのくらい向上させるかを理解する

一部のドメインでは、保有データの増加が製品の劇的な向上という結果をもたらします。あまりに劇的なため、時間経過に伴う諸経費の増加やデータがもつ価値の減少を克服できるほどです。例えば、正確性が85%のがん検診がある場合、正確性が80%のものよりも使われる可能性ははるかに高くなります。その利用がさらなるデータを提供してくれるでしょう。そのことが今度は正確性を向上させるかもしれません。

私たちはこのような効果の多くが実際に展開するところを経験してはいません。ですが、強固な壕を築く土台となることが明らかな製品において、データの優位性が勝者総取り方式の優位性を生み出した可能性のある例がわずかに存在します。

もちろん、データが製品にどれくらい貢献するのかを理解することは常に単純なわけではありません。アルゴリズムの選択やその他の製品機能の調整がデータ量の増加のみより、はるかに大きな影響を及ぼすこともよくあります。

質と量のあいだのトレードオフを比較検討する

学習データを成長させる上で特に扱いにくいトレードオフとは、質と量のバランスのとり方です。なぜトレードオフが存在するのでしょうか? 規模に対する解析があまりに多いと、結果として幅広いユースケースにわたるそこそこの推定が得られる一方で、どのユースケースでも素晴らしい推定は得られません。規模に対する解析があまりに少ないと、結果として狭い問題を解くのに向いた学習データが得られる一方、顧客が望むユースケース全体に対しては期待外れの結果をもたらします。

実際面では、これはつまり、狭いユースケースに向けて豊富なデータを分類することにさらなる労力を集中させるのか、もしくはそれよりもはるかに多数のユースケースにとって役立つデータに対して間口をさらに広げるのか、ということを意味します。当然、あらゆる学習データにおいては深さと広さの両方が決定的に重要な性質です。しかし、バランスをどちらか一方に崩れてしまうことは業績に深刻な影響を及ぼしかねません。競争上の優位性を維持することに関して言えば、あなた自身のドメインにおいて質と量のトレードオフでトップの座をキープすることにより、データの壕に追加される増加分データの価値を最大化できるようになるでしょう。

独自データソースを確保する

私たちがこの記事全体を通して投げかけている (そして、私たちが創業者に自問して欲しいと思っている) 疑問とは、データの規模の効果は実際にはどこに存在しているのか、そしてそれはどのくらい持続するのか、ということです。それは「企業が独自データから得られる実用的な防御力など存在しない」という意味ではありません。その市場を何十年間も独占している産業 (例えば製薬) や反例が多く存在することは明らかです。また、産業構造上の理由で、独自データセットを利用できる場合 (例えばEquifax、LexisNexis, Experianなど) はなおさらです。

独自データの蓄積は供給元が少ないときや、その供給元が2社以上の販売業者に対してデータを提供することに消極的なとき (政府系購入者など) 、最も強力になる防御戦略です。セキュリティー要件とコンプライアンス基準のハードルがかつてないほど上がっているため、機密データを利用するための販売業者向け精査を乗り切ること自体が競争相手に対する壕となり得ます。

たとえ公共データセットの巨大なプールについて、その収集、整備、標準化にかかる初期費用全てを引き受けるにしても、新興の競争相手が再び一から作成しなければならなくなる規模の効果を生み出せます。そもそもデータを発見し、理解し、整備するために専門のノウハウが不可欠となるケースではなおさらです。自らが信頼できるデータ管理者であることを証明するスタートアップは顧客の信頼を勝ちとることができます。そして、その顧客は機密性のいっそう高いデータをそのスタートアップだけと共有するようになって、壕が築かれます。

データの壕を衰退させる……

データは多くのソフトウェア企業の製品戦略にとって基礎的なもので、それを防御力に貢献させられる方法も存在します。ですが、魔法の杖のようにそれに依存してはいけません。データネットワーク効果にまつわる話の大半が実際には規模の効果に関するものです。そして私たちがこの記事で概要を説明したとおり、正しく計画されていなければ、それらが時には反対の影響を与えることもあります。ですが、自分のもとにデータネットワーク効果があると思い込む (おそらくありません)、あるいはデータの規模の効果が永久に続くと決めてかかる (ほぼ確実にありません) ことは決してしないでください。

そうではなく、私たちはスタートアップが防御力についてもっと総合的に考えることを推奨します。より素晴らしい長期的な防御力は「差別化された技術を採用すること」、「ドメインを理解し、その理解を産業全体で垂直化するときに自分の製品に反映すること」、「市場参入競争を掌握すること」、「世界レベルのチームを構築するために人材獲得戦争に勝利すること」から生まれる可能性の方が高くなります。市場で身を守り、勝利する際には、こういった取り組みの方がデータ単独よりもはるかに多くの効果をもたらしてくれることでしょう。

著者紹介 (本記事投稿時の情報)

Martin Casado

Martin Casado は Andreessen Horowitz のジェネラルパートナーです。彼は以前、2012年に VMWare に買収された Nicira の共同創業者で CTO でした。VMWare で、Martin はNetworking and Secruity Business のVPならびにGMでした。

Peter Lauten

記事情報

この記事は原著者の許可を得て翻訳・公開するものです。
原文: The Empty Promise of Data Moats (2019)