データサイエンティストの採用方法 (Sequoia Capital)

f:id:foundx_caster:20200519001841p:plain
これまで私たちは、データに基づく企業の根幹日本語訳)、世界クラスのチームの構築方法日本語訳)、データ分析組織の発展と特徴日本語訳)、データサイエンスの重要性日本語訳)、データサイエンティストの役割日本語訳)について話しました。今回は採用について話します。データサイエンティストの種類にはどのようなものがあるのでしょうか。データサイエンティストにはどのような技能があるのでしょうか。彼らに面接で何を尋ねるべきでしょうか。

データ分析組織

データやデータの標準化がもたらす価値が高まり、複数のデータ関連の専門職が登場してきています。データアナリスト、データエンジニア、データインフラエンジニア、データアーキテクト、データサイエンティストなどです。クリエーター、エンドユーザー、データ製品にはスタックのセグメントで様々なものがあります(下記の表参照)。データ分析組織を評価するためには、これらの役割をそれぞれ採用しなければいけない時機、スキルセット、必要な役割のそれぞれの割合、役割同士での相互関係のあり方、これらすべてを慎重に検討することが重要です。この文書では、データサイエンスの領域に焦点をあてます。

f:id:foundx_caster:20200519002140p:plain
データサイエンティストの領域内だけでも、様々な種類が登場してきました。

  1. 製品ジェネラリスト 直面する様々な製品の問題に取り組んで、一般的な問題の解決にあたる
  2. 初期製品アナリスト 新規製品のプロダクトマーケットフィット(PMF)を判断する
  3. グロースアナリスト 指標を動かす
  4. コアマーケットプレイスアナリスト プラットフォームの健全な流動性を確保する
  5. エコシステムアナリスト 競合の可能性や戦略機会を特定する
  6. 機械学習アナリスト 製品を強化するアルゴリズムの健全な展開を確保する

初期のデータサイエンティストと製品開発ジェネラリストの技能は異なります。データサイエンスの採用にあたっては、万能な取り組みは存在しません。データ分析組織の規模と成熟度、製品開発チームの必要性、データサイエンティストが解決することになる関連の問題については慎重になる必要があります。データ分析組織は製品の成長に伴って進化すべきであり、そのため、時間の経過とともに必要になることが変化します。例えば、ペタバイト規模のデータを専門とするデータエンジニアの採用は、アーリーステージではおそらく重要ではありませんが、製品の需要が高まれば需要になる可能性があります。

必要な技能

データサイエンティストには新卒(学士、修士、経営学修士、博士)も熟練の専門家(製品、技術、コンサルタント)もいます。彼らにはそれぞれの技能があり、多種多様な問題の解決には、それらがバランスよく揃っていることが重要です。一般的に、そのような人々が提供する技能には3つの種類があります。科学的な厳格さ、コンサルティングのマインドセット、次に挙げる様々な次元に応用できる優れたプログラミングです。

  1. 問題の体系化。データサイエンティストには、問題を体系化し、構造化する能力が必要です。これには、一般的には、問題解決に向けた科学的取り組みだけでなく、コンサルティングのマインドセットも必要です。
  2. 技術的な能力。プログラミング技能と科学的技能は、どちらもデータ抽出のために必要です。
  3. 分析能力。分析の技能は、データセットの抽出と処理、表や図表などになったデータからの価値の抽出に必要です。コンサルティングのマインドセットと問題解決に向けた科学的取り組みはデータから意味を読み取るために必要です。
  4. 統合。データサイエンティストは、結果を読み取り、明確化し、統合しなければいけません。コンサルティングのマインドセットは、単純化と統合に非常に有益です。
  5. インパクト。語りによって重大な決断を左右することは、インパクトを創出するうえで重要です。データを活用して働きかけをする能力にはコンサルティングのマインドセットが必要になります。

経験豊富な専門家と新卒者のどちらを採用するかは、組織の成熟度とチームが望むバランスで決まります。上層部が厚くなりすぎても(熟練者が多すぎる)、底層部が厚くなりすぎても(新卒者が多すぎる)賢明ではありません。

採用

データサイエンスに関する採用を考える場合に、データ分野の全体が比較的に新しいものであることを知っておくことが大事です。職歴の初期段階で、あるいは、皆さんと一緒に働き始めた時に、既にデータサイエンスに関するすべての技能を身につけている人を見つけられることは非常に稀です。優れたデータサイエンティストは、組織と一緒に成長します。企業の成長とともに技能を身につけ、幅広い経験を身につけるか、卓越した専門家になります。

よい採用過程は、必要な技能を評価する目的で行うべきです。ジェネラリストに関しては、面接の内容に分析事例を2つ、プログラミングを1つ、応用解析を1つ、科学的・数量的面接を1つ、入れるべきです。

  1. 分析事例を2つ — これが最も重要な面接内容であり、これで失敗した候補者は雇うべきではありません。ですから、この技能を試す面接を2回行うことは有益でしょう。
  • 問題の体系化 — 問題を体系化して事業の問題を解決する方法を理解できますか?
  • 意思疎通と明確さ — 創造的で明確かつ明瞭な思考過程を持っていますか?
  • 分析能力の素地 — 問題を分析できますか?
  • 製品開発の発想 — 製品に対して改善案を提案することができますか?
  • 製品開発の成功と健全性 — 製品開発の成功を定義し、問題を特定するために製品の健全性を分析することができますか?

2. プログラミング — コーディング技能をテストするのに役立ちます。ここでの候補者への指示はこうあるべきです—— コーディング技能が低いために、データ抽出に時間の80%、分析に20%を使っていますか?最低基準はこうあるべきです—— 80%を超える時間を分析に使い、データ取得に使うのは20%未満であること。

  • 単純データの取得 — データ取得のために簡単なプログラムを書くことができますか?
  • 複合データの取得 — 別々のデータセットを結合させて複合データセットを取得することができますか?

3. 応用分析 — エンド・トゥ・エンドの実際の問題を解決できるかどうかを把握するのに役立ちます。問題の体系化、データの取得と処理、統合を実行しなければいけません。

  • 問題の体系化 — 問題の体系化によって事業の問題を解決する方法を理解できますか?
  • データ取得 — データ取得のために簡単なクエリを書くことができますか?
  • 処理 — 事業の問題に基づいてデータを処理することができますか?
  • 統合 — 結果の簡素化・明確化ができますか?

4. 科学的・数量的能力— 候補者の科学的・数量的能力を把握するのに役立ちます。

  • 数量的 — 特に数学に関して、基本的な数量的能力がありますか?
  • 統計 — 優れた技能があり、統計に基づく妥当な決断を下すことができますか?
  • 科学的 — 複合データを分析するための科学的技能がありますか?これについては、試験する必要はありません。履歴書で探ることができます。

さらに特別な面接を必要とする役割もあります。

機械学習(ML)アナリスト — ジェネラリストの面接とMLアナリストの面接との最大の相違点は、MLアナリストに関しては、技術的・科学的能力にかなり優れている必要があるということです。さらに、質問はMLアナリスト用に用意する必要があります。

  • 分析事例 — ジェネラリストの同項と同じ
  • ML分析事例 — ジェネラリストの同項と同じ。ただし、質問は出力側の根本原因解析の実行に特化したものでなくてはいけません。
  • 科学的・数量的能力 — ジェネラリストの同項と同じ。ただし、MLの概念と統計にかなり詳しいことが条件です。
  • プログラミング — ジェネラリストの同項と同じ。ただし、プログラミングに関してかなり高い基準を満たしていることが条件です。

経験者 — 経験者は、ロードマップおよび製品を用いた戦略を動かし、リーダーシップを顕示することができなければいけません。

  • 2つの分析事例 — ジェネラリストの項目と同じ
  • プログラミング — ジェネラリストの項目と同じ
  • 応用解析 — ジェネラリストの項目と同じ
  • リーダーシップと戦略 — 候補者は、データを用いて戦略を動かし、インパクトを発揮することができますか?

マーケットプレイスアナリスト— ジェネラリストの面接とマーケットプレイスアナリストの面接との最大の相違点は、マーケットプレイスアナリストに関しては、経済学と大局的思考にかなり優れている必要があるということです。分析事例の面接は、具体的な市場関連の質問を加えるべきです。

エコシステムアナリスト — エコシステムアナリストは、市場傾向を分析し、製品リーダーに対して自社製品の市況全般に関する教育をすることによって、事業および製品の戦略を動かす力添えをします。この役割に関する面接は次のような構成でなければいけません。

  • 分析事例 — ジェネラリストの項目と同じ
  • 科学的・数量的能力 — ジェネラリストの項目と同じ
  • リーダーシップと戦略 — 候補者は、データを用いて戦略を動かし、インパクトを発揮することができますか?
  • プレゼンテーション — 候補者は、製品に関する事業例を確立し、説明する必要があります。彼らの評価は、問題の体系化、統合、インパクトを見て判断されるべきです。

採用に関するさらなる検討事項 —

組織の確立

  • 集中型対分散型 — 分析を1箇所で行うべきか、分散させるべきかについての問いは、会社が成長する中で、常に優先事項として念頭にあります。集中型とは、全ての分析が1つのチームによって行われることで、分散型とは、分析をチームに分散させることです。一般的には、両方に利点があります。この問いへの答えは、規模、成熟度、成長の可能性、リーダーシップの徹底によって決まります。理想を言えば、組織構造は、その両方の組み合わせであるべきです。インパクトを最大限に活用し、社風を向上させるような組み合わせが望ましいです。
  • 規模 — 極端なアーリーステージでは、社内の人員が極端に少なく、集中型と分散型の選択の問題は関係がありません。会社の成長が始まると、社員が社内全体で複数の問題に取り組み、問題を見抜き、知識を共有し、分析を拡大することができるため、集中化させた方がいいでしょう。分析チームが(例えば)10人以上に増えた場合は、集中型と分散型の組み合わせモデルを採用すべきです。そのモデルでは、分析チームは製品開発チームの中に入りつつ、さらに大きな1つの分析組織の一部でもあります。チームがさらに(例えば)50人以上にまで大きくなった場合は、まず(例えば)3人のリーダーに分散する方がいいでしょう。彼らは、事業部門を詳しく調べ、同一の分析インフラを共有します。集中型分析サービスは、採用、社員のチームへの割り振り、経験の蓄積、学習と開発(訓練、コーチング、指導)、業績評価、強力な機能的アイデンティティの確立の力添えをするでしょう。
  • 成熟度 — 組織構造が集中型か分散型かの検討に最も重要となるのがチームの規模である一方、組織の成熟度も非常に重要なもう一つの基準です。主に人員および組織の成熟度が理由で、分析が本来あるべき最大のインパクトを発揮していない場合は、さらに長期間、集中型にとどまる方が賢明でしょう。
  • リーダーシップの徹底 — 規模と成熟度が進んだとしても、チームに相応しいリーダーシップがなければ成長は難しいでしょう。チームのリーダーの人数が十分に揃うまでは集中型にとどまることをお勧めします。
  • データサイエンティストの割合 — 組織を成長させるためには、他の役割に対するデータサイエンティストの比率を慎重に判断する必要があります。製品開発責任者一人当たりのデータサイエンティストの人数はどのくらい必要でしょうか。データインフラではどうでしょうか。最もレバレッジの利く問題に取り組むデータサイエンティストの人数については、最小限に抑えることを目指すべきです。結果として、データ分析組織の拡大に役立つデータエンジニアやデータインフラ関連の人員を増やすことに投資する必要があります。
  • 経歴の蓄積 — データサイエンティストにとって、経歴を積む機会は非常に重要です。リーダーシップには、管理者としてと個人の貢献者としての両方の経歴の向上に関する枠組みがあるべきです。私たちは将来的にさらなる手引きを投稿する予定です。
  • 「データサイエンティスト」を職業の肩書きにしましょう。この肩書きはかなり乱用されていますが、「データサイエンティスト」というのはこの役割(とその他の役割)の事実上の肩書きであり、多くの有能な候補者は、他の肩書きを使った問い合わせには反応しないでしょう。
  • 採用が必要だと思う時機よりも早く採用しましょう。会社にデータサイエンティストが必要な場合、採用についてはその時点で既に半年から1年分、遅れをとっている傾向にあります。激戦市場で人材を探し、候補者を面接し、新入社員を強化する過程で、人材探しから始まり、彼らが生産的なデータサイエンティストに成長するまでには何ヶ月もかかります。
  • 入門程度のデータサイエンティストの集中強化プログラムに力を入れましょう。特別に優秀な研究者を入門程度のデータサイエンティストとして教育する代行業者や集中強化プログラムは数多く存在します。それらのプログラムは、手つかずの才能の優れた供給源になり得ますが、彼らが生産的になるためには成熟したリーダーシップ、指導、堅固なチーム構造が必要になります。

その他の採用に関する検討事項

  • 肩書きを文字通りに受け止めないようにしましょう。データサイエンティストの肩書きは広く使用され、頻繁に誤用されています。候補者の資格を評価するために特に決定的な役割を果たすのは、技能を基盤とする面接、リファレンスチェック、過去の経験の入念な調査です。
  • 数値分析の経験は領域を超越します。優秀なデータサイエンティストは、それぞれの異なる領域で自分の技能と才能を応用することができるはずです。基本的に、優れたデータサイエンティストは、真実の探求者兼問題解決者です。複雑な問題を第一原理にまで分解します。これは他の産業や学術界から取り入れることのできる技能です。
  • 学術博士は過大評価されています。多くのデータサイエンティストが定量科学の上級学位を持っており、研究経験がありますが、これはほとんどの場合において、必要な資格ではありません。問題解決の発想を持つ候補者は、業界の経験のみを基にして、力強い技術的・数量的ツールキットを開発することができます。
  • 戦略的思考は過小評価されています。多くの優れた技術的発想の持ち主は、有望なデータサイエンティストではありません。なぜなら、彼らは実施すべき最も有益な分析を判断できないからです。 その代わりに、最も興味深いか、技術的に困難な分析を選びます。分析の結果を行動と結びつけることができるか、また学術的な悪癖がないかを試験することは、面接の過程で極めて重要です。
  • 具体的な技術の知識を条件にしないようにしましょう。この領域は生まれたばかりです。技術は比較的短期間のうちに激変します。優秀な新入社員なら誰でも、RからPythonへ、そしてPythonから10年後の最先端技術へと技能を応用する能力が必要です。

神話

  • データサイエンティストはデータにしか興味がない。データサイエンティストがその潜在能力を存分に発揮できない主な理由の一つは、彼らが、株主のためのデータサービスの団体のように扱われていることです。このことで、彼らが発揮できるインパクトは確実に制限されるでしょう。データサイエンティストの価値を最大限に活かすために、彼らを製品開発チームに入れ、大きな決断を下す際に、彼らがその決定に参加するようにしましょう。さらに製品開発過程の全体を通して、彼らを従事させましょう。
  • すべてのデータサイエンティストは機械学習(ML)を行なっている。アルゴリズムの開発者がMLを専門としている一方、製品アナリストは概して問題解決者であり、洞察の発見のための道具としてMLを活用してる可能性があります。さらに、設計や配送の実験を支援するデータサイエンティストは、統計に関わる経歴を積んでいますが、必ずしもMLに関して経験があるわけではありません。
  • データに基づくアプローチは、常にデータ駆動型のものに優っている。必要な取り組みの種類は、解決しようとしている問題の種類に全面的に左右されます。目標やロードマップ、製品戦略を動かしたいなら、データ情報型の取り組みが鍵となります。しかし、製品開発システムを強化したいなら、データ駆動型の取り組みが必要です。
  • データサイエンティストは、誠実さを犠牲にしてプロダクトマネージャーを満足させる必要がある。データサイエンティストは真実の探求者であることで、万人が誠実である状態を維持することにより、製品に最高の支援をします。彼らには問題を指摘するだけの力が必要です。それがプロダクトマネージャーが必ずしも耳にしたくないことを彼らに告げるということになったとしてもです。優れたプロダクトマネージャーは、データサイエンティストがもたらす抑制と均衡に感謝するでしょう。

まとめ

  • 科学的厳格さ、コンサルタントのマインドセット、問題の体系化を応用し、プログラミングの強み、技術・分析能力、統合、影響を実現することは、データサイエンスを扱う組織が成功するための条件です。
  • 分析事例、応用分析、プログラミング、数量的問題体系化技能は、面接を通して評価する必要があります。

この記事は、Sequoia CapitalのData Scienceチームの手によるものです。Chandra NarayananHem Wadhar、Ahry Jeonがこの投稿記事を書きました。こちらでデータサイエンスシリーズの全容をご確認ください。ご質問やご意見、その他、ご感想はまでメールにてご連絡ください。

 

記事情報

この記事は原著者の許可を得て翻訳・公開するものです。
原文: Hiring a Data Scientist (2019)

 

関連記事

FoundX Review はスタートアップに関する情報やノウハウを届けるメディアです

運営元