SKEL参加レポート

aiCafe

ai Cafeとは、協会理事による、それぞれ個別にテーマを設けた勉強会です。
AIA理事による、それぞれ個別にテーマを設けた勉強会です。テーマに対する発表と参加者による活発な意見交換が特徴です。

Archives

2017.11.24 SKELセミナー参加レポート

報告者 : 太田恵理子(キリン株式会社キリン食生活文化研究所)
日時　： 2017年11月16日（木）19：00（開場18：30）～ 21：00
会場　：場所 : MAXRAY 東京支店、中目黒
講師　：椎塚久雄（SKEL）
テーマ：真実を見抜く分析力
　　　〜この世界にある対極の概念をいかにして乗り越えるか〜

今回のテーマは日々私が仕事で体験していることに密接に関係しているので、大変興味深く参加させていただきました。「分析力」をはじめとして関連する諸事項について分かりやすいプレゼンから多くを得ました。特に。案内のパンフレットにあったように、多くのビッグデータは非構造化データであることの意味が大変よく分かりました。ここでは、簡単に当日のセミナーのハイライトを報告させていただきます。

プロローグ

「この絵が表しているのは何でしょう？」ボージョレ・ヌーボー解禁の日、椎塚先生の問いはここから始まった。答えは、親は遊びを「量・時間」で考え、子供は「質」を重視する。そこに対立（対局の概念）があるというものです。今回のセミナーの内容を象徴している１枚のパワポからスタートしたのが印象に残ります。

１．統計学の分野は大きく分けると３つある

多くの人が苦手としている統計学は、それを大きく分類すると、「記述統計学」、「推測統計学」、「多変量解析」の３つがある。これらの違いを理解することが重要である。これは大事なことで、分析を考える上では必須の理解事項になる（エピローグに関連事項を記載）。

２．構造化データと非構造化データ

データには構造化データと非構造化データがあるが、世の中にはエクセルのスプレッドシートに容易に展開できるような構造化データよりも、テキストや画像・動画のように構造化されていないデータのほうが多い。ビッグデータとして騒がれているデータの大半は非構造化データである。非構造化データを分析するためには、構造化されたデータに変換する必要がある。そのことによって問題解決を目指すのがデータ分析である。

３．定量分析では、「何を解決したいのか」を明確に

定量分析には３つの段階と６つのステップがある。

１）問題認識

踏み出すきっかけは純粋な好奇心である。分析を行うかどうかは勘や直感が決めることが多い。最も重要なのは、「問題は何か」そして「問題解決がなぜ必要かつ重要か」をきちんと理解することである。
特に、分析結果の利害関係者を明らかにし、その関心や期待を評価・コントロールすることが求められる。つまり、「どんな決定がされそうか」、そのためには「どんな問いが必要とされているか」を明確にすることである。

特に、分析結果の利害関係者を明らかにし、その関心や期待を評価・コントロールすることが求められる。つまり、「どんな決定がされそうか」、そのためには「どんな問いが必要とされているか」を明確にすることである。

２）過去の知見のレビュー

その問題に関するこれまでの構造化と概念化をレビューすることで、問題認識ステップの大幅な修正の必要に気づくことが多い。

３）モデル化（変数選択）

ここからは問題解決のステップである。問題解決のステップは定量分析を得意とする専門家（市場調査会社やコンサルタント、大学教授など）に任せることもできる。モデルとは「漫画のようなもの」。現実世界の特徴を意図的に際立たせたものである。そのためには、変数を取捨選択する必要がある。つまり予測・説明しようとしている「従属変数」と、それに影響を与える「独立変数」を仮定するところから始まる。この「モデル化」がないと研究論文（学問）にはならないので、博士論文を書こうとしている人にとってもっとも重要なプロセスとも言えるだろう。椎塚先生はこの部分をかなり強調し、「研究の進め方や論文の書き方が分からない人が多く、それは教える側にも問題がある」と言っていた。

４）データ収集（計測）

ステップ１で選択した変数に数字を当てはめるプロセスである。かつては収集されたデータの大半が数値で示される構造化データであった。ところが、２０世紀後半からはテキスト分析にはじまり、音声データや動画データなど、そのままでは数値化できないような、非構造化データが大量に収集され、分析の対象とされるようになった。つまりビッグデータの時代に突入したのである。データサイエンティストは、非構造化データをいかに数値化して分析できる形に処理するかに精通していなければいけなくなった。そして処理されて構造化されたデータを次のステップに進めるのである。

５）データ分析

データに潜んでいる変数間の関係（パターン）をみつけるのが、データ分析である。ここで議題が、「サンプリング」に移った。標本データで観察された関係が母集団においても成り立つかどうかの推定が重要とされるからだ。正規分布がなぜ重要なのか、それをなぜ「確率密度関数」と呼ぶのかなど。しかし「力づく」のビッグデータ時代となり、サンプリング（部分計測）から全体計測に移行したことで、部分から全体を推定することに意味があるのかが問われるようになった。また、因果関係（理由）がわからなくても、相関関係（結果）がわかればよいではないか、という風潮も出てきている。ICT の発達による情報処理能力増大とコスト低減が全体計測とその分析を可能にしたことは言うまでもない。全て揃っているわけではないこと、因果関係がわからないため意思決定の理由を明確に説明できないこと、そして分析者の展望なしには役に立つ結果がでないことによるものだ。リトルデータにも宝の山が眠っていることを忘れてはいけない。

６）分析結果を伝え実行に移す

問題とその裏に潜むストーリー、モデル、使われたデータ、分析で使用した変数間の関係について説明する。変数間の関係が見えたら、ビジネス課題に関連付けて意味を解釈し、問題解決のための指針を述べることも必要だ。意思決定に使われて初めて分析は意味を持つのである。それに成功したのがナイチンゲールで、失敗したのがメンデル。ナイチンゲールは分析結果の表現方法など、プレゼンテーションも素晴らしかった。

４．量的研究の限界と質的研究方法論

分散を求めることによって、一つ一つのデータの個性を無視してしまう。そのため、表層的で本質に迫れないことも多い。一方、現実世界の観察だけでは個別的で狭いものになりがちである。そこで、質的な視点から出発して、「意味」や「理論」を発見する第３の道である「質的研究方法論」が登場する。そしてシステム思考とデザイン思考を融合することが求められているのだ。

次回につづく…

エピローグ
＜報告者より＞

今回のセミナーは、「デザイン思考のその先へ」から一旦離れ、何のために分析を行うのか、という極めて本質的なテーマを深掘りするものでした。先生のお話を聞きながら、私自身の経験―中学時代の統計クラブでヒストグラムをひたすら書き、大学時代は二段無作為抽出の対象者リストに載ったお宅への訪問調査を実施し、入社してからは購買データの多変量解析からの購買モデル構築や、東日本大震災前後のセンチメントの変化をTwitter に投稿されたテキストからパターン化できないかと探索したことなど―が、走馬灯のように巡りました。直近の問題意識は、ビール画像からおいしい（状態の良い）ビールかどうかを判定するエンジン構築ですが、「問題は何か」そして「問題解決がなぜ必要かつ重要か」をきちんと理解するとともに、問題に関連する利害関係者を明らかにし、その関心や期待を評価・コントロールする必要があるとの示唆は、核心を突くものでした。しっかり考えます。

さて、今回のセミナーでは以下のような対立が提示されたのではないでしょうか。

第一の対立：構造化データと非構造化データ
第二の対立：サンプリングと全体計測
第三の対立：ビッグデータとリトルデータ
第四の対立：計測できるもの（量的研究）とできないもの（質的研究）
第五の対立：システム思考とデザイン思考

これらの対立を乗り越えて、真実を見抜く分析力を身につけたいですね。システム思考とデザイン思考の融合についてさらに深い議論ができることを期待します。

なお、SKEL セミナーの東京支店（中目黒）での開催は今回が最後です。このお店での二次会も最後かな。次回は12 月21 日、新宿で開催予定です。

Archives一覧へ...