stMind

about Arsenal, Arsene Wenger, Tech, Computer vision and Machine learning

Lean Analyticsのまとめ(1)

Lean Analytics: Use Data to Build a Better Startup Faster

Lean Analytics: Use Data to Build a Better Startup Faster

Lean Analyticsを読んでいます。すべて読んでからまとめるつもりだったけれど、分量が思いの外多く、
程よい所でまとめをしていかないと理解度が低くなりそうだと思ったので、まずは1章についてまとめておきます。
一応、この後も随時まとめをしていく予定。

はじめに

  • Lean Analyticsという名前からも分かるように、Lean Startupの拡張版という位置づけ
  • Lean Startupのコアコンセプトの一つBuild - Measure - Learnのサイクルの中で、Lean AnalyticsはMeasureステージにフォーカスしている
  • Lean Analyticsはあなたのイノベーションを定量化して、より現実に近づけるようにする方法

Part1. Stop lying to yourself

ここで述べられるのは、成功するためになぜdataが必要なのか、いくつかの基本的な解析の概念に関する説明。
さらに過剰にdata-drivenであることの危険性と、人生において何をすべきかについても。

成功するために、なぜdataが必要なのか
  • We are all liars.
  • 少しの嘘は波瀾万丈のスタートアップを経営していくのに不可欠
  • しかし、嘘を過剰に信じてしまうと、生き残ることは出来ない⇒そこでデータが役に立つ
  • Leanで解析的な思考とは正しい問いを発すること、変化を生み出すキーとなるMetricにフォーカスすることである
良いMetricの条件
  • 比較可能である(comparable)
  • 理解可能である(understandable)
  • 比もしくは割合(ratio or rate)

良いMetricはあなたの振る舞いを変化させる。これが最も重要な基準である。
また、振る舞いを変えたいならば、Metricは変化させたい振る舞いに結びついてないといけない。
(関係ないことを計測しても時間の無駄である)

Metricsの種類
  • Qualitative vs Quantitative
    • 定量的なMetricは理解しやすく、計測も容易。スポーツのスコアや映画のランキングなど。しかし、定量的なMetricだけでは事業を始めるのに十分ではない。ユーザのところに行って、問題は何か、定量的な答えを得ることは出来ないので、定性的な観測が必要。
  • Vanity vs Real
    • データがあってもそれに基づいて行動が変わらないならば、VanityなMetric。例えば、トータルのサインアップ数はVanity Metric。数値は時間経過とともに右肩上がりになるのは自明で、そのデータからはユーザについて何も分からない。一度サインアップして、永遠に使ってないかもしれない。アクティブユーザの割合は、あなたのプロダクトに対する没頭度合いを教えてくれる。もし良い方向にプロダクトを変えているならば、数値は向上するはずで、つまりこの数値を観測することで、実験と学習を繰り返すことが出来るのでReal Metricである。
  • Exploratory vs Reporting
    • Rumsfeldによると、情報は4種類に分類できる。
      • 知っていることを知っていること(facts, 事実)
      • 知らないことを知っていること(questions, 質問)
      • 知っていることを知らないこと(intuition, 直感)
      • 知らないことを知らないこと(exploration, 探索)
    • スタートアップにとって重要なのは"知らないことを知らないこと"。これを探索、発見することがマーケットを破壊する手助けとなる。
  • Leading vs Lagging
    • Leading Metricsは未来を予測するのに使われる。一方のLagging Metricsは、問題の存在を指し示す。
  • Correlated vs Causal
    • 二つのMetricsの間の関連を見つけるのは良いこと。関連性は、何が起きるかを予測する手助けとなる。しかし、原因を見つけることは、それを変えることが出来ることを意味する。また、因果関係はたいてい単純な1対1の関連ではない。夏季の交通事故においては、アルコール消費を考慮しないといけないし、未熟なドライバー数や、昼間の時間が増えること、夏季休暇であること、なども考慮する必要がある。
テストする

テストはLean Analyticsの中心。テストとは、通常次のような方法で二つの事柄を比較すること。

  • セグメンテーション
  • コホート分析
  • A/Bテスト
人生において何をするべきか

得意で(What we do well)、かつ自分のやりたいことでもあり(What we want to do)、お金を生み出すことが出来るもの(What we can be paid to)。この3つが重なる事柄にフォーカスすると良い。

Data-DrivenとData-Informed

機械はデータに基づいて制約下での最適値(local maximum)を求める事はできるが、新しい仮説を作ることは出来ない。
人間が発想し、機械がそれを検証する。(Humans do inspiration, machines do validation)

集めたデータを調査するときによくある10個の落とし穴。

  1. Assuming the data is clean
    • データが既にcleanと仮定してしまう。
  2. Not normalizing
    • 正規化をしない。
  3. Excluding outliers
    • 例えば、一日千回以上も使用してくれるのが熱狂的ユーザかボットであるとしたら、外れ値として除外してしまうのは間違い。
  4. Including outliers
    • とはいえ、定性的な観点からは興味深いけれども(予期していないことに気づく)、一般のモデル化には適していない。
  5. Ignoring seasonality
    • 季節性を無視してしまう。
  6. Ignoring size when reporting growth
    • 始めた当初は、あなたの父親のサインアップがユーザ数を2倍にしているかも。
  7. Data vomit
    • 何のデータを見ているのかわからなければ、dashboardは有用ではない。
  8. Metrics that cry wolf
    • 素早く修正するために、問題があれば警告するようにしている場合、sensitiveにしすぎると結局無視するようになってしまう。
  9. The 'Not Collected Here' syndrome
  10. Focusing on noise
    • 何もないところにパターンを見つけようとするので、vanity metricsを除外し、大きな視点でみるようにすると良い。