東京大学グローバル消費インテリジェンス寄附講座(GCI 2020 Summer)に参加した

4/29から始まった東大松尾研主宰のGCIデータサイエンス講座に参加し先日の最終課題提出をもって全ての講義が終わりました。現在は最終課題の審査中で9月初旬に修了通知が伝えられるみたいです。修了通知や優秀生の発表はまだですが簡単にGCIの振り返りをしていきます。

東京大学グローバル消費インテリジェンス寄附講座(GCI 2020 Summer)とは

自分なりにこの講座の目的をまとめると、データサイエンスの講義ではあるがただ文法やscikit-learnを用いた機械学習がわかるだけでなく、それをビジネスへの応用できる人材を育てることであったように思います。実際、プロのデータサイエンティストの方の特別講座があり最終課題では与えられたデータから事業の提案を行いました。

講座とGCIの詳細はHPへのアクセスを。

消費インテリジェンスとは、データの分析を通して消費者を総合的に理解する能力のことです。グローバル消費インテリジェンス寄附講座では、世界規模で高い消費インテリジェンスを発揮してビジネスを動かすことができる CMO (Chief Marketing Officer) を育成します。グローバルな消費に関するデータが急速に増えている中で、データ分析を通して消費者・生活者を理解する能力が国や企業としても必要とされています。この問題意識から、東京大学に世界最先端のプラットフォームを創設して、人材育成および学問分野の確立を加速化しようという狙いです。

gci.t.u-tokyo.ac.jp

参加の動機

講座を知ったのは以下のツイートを見たのがきっかけでした。僕は大学で統計学を専攻していてPythonの使い方も必要最低限は理解していたのですが、東大松尾研の方々や参加学生と横のつながりを深められるのではないかと思い参加を決意しました。

【全国の学生さんへ】東大松尾研のGCIデータサイエンス講座が受講者募集です！完全オンラインですので、時間に縛られず学習できます。毎週の宿題・コンペ・最終課題とハードな内容ですが、可能性を大きく広げるチャンスです！ぜひご応募＆拡散を🙇‍♀️https://t.co/P4RxZ4cMLc
— yu sasaki (@yuuSasaki) 2020年4月6日

講義の振り返り

講義は以下のカリキュラムに沿って行われました。Pythonについては今まで雰囲気で学んできたので、初めて網羅的に勉強でき良い復習の時間となりました。week7の教師なし学習ではマーケットバスケット分析とアソシエーションルールについて触れられておりよりマーケティングに特化した講義となっていました。

講義資料はHPからダウンロードできるので興味がある方は是非。

f:id:nori0724:20200820135006p:plain

weblab.t.u-tokyo.ac.jp

コンペの振り返り

講座では3回のデータコンペが開催されました。

第1回：Titanic
第2回：Home Credit Default Risk
第3回：オリジナルデータによる時系列予測

第1, 2回はKaggleのデータを用いたコンペだったのでnotebookが大いに参考になりましたが、第3回はオリジナルデータだったのでかなりハードでした。M5のような需要予測でデータ量が多くGoogle Colabがよくクラッシュしていました...

コンぺの結果は13位→13位→2位でした。(ハイレベルでした..........)

www.kaggle.com

特別講座の振り返り

現場で活躍されているデータサイエンティストの方の特別講座は3回行われました。

株式会社リュウズオフィス代表取締役小沼竜太さん
ゲーム×データサイエンス
株式会社ブレインパッドリードデータサイエンティスト内池もえさん
機械学習を「社会実装」するということ
株式会社アパレルウェブ　代表取締役CEO　千金楽健司さん
アパレル×データサイエンス

小沼さんの講座では、データからわかる定量的なことだけでなく一ユーザーとしてゲームをプレイした時の感覚や期待など定性的なことも大切だということが印象的でした。内池さんの講座は、機械学習の社会実装を阻む罠があまりにも多すぎて面白かったです。スライドも共有していただいたのですが、来年以降データサイエンティストになってからもその都度見直したい・覚えておきたい内容でした。千金楽さんの講座はアパレル×データサイエンスで、大学時代アパレル販売員として実際にアルバイトしていた僕にとって非常に興味のある内容でした。アパレルのデータサイエンティストには右脳が必要だという話をされていて、以前ZOZOの方記事を思い出しました。個人的にアパレルは興味のある領域なので今後もアパレル×データサイエンスのトレンドは追っていきたいです。

speakerdeck.com

advanced.massmedian.co.jp

最終課題振り返り

最終課題はKaggleのHome Credit Default Riskのデータを用いて事業提案をするというものでした。コンペでは目的変数は債務不履行になるかどうかを予測するものでしたが、最終課題では何を目的変数にしても良いとのことでした。

以下は参加者の中で既に最終課題を共有してくれた方々のスライドです。データの着眼点、分析、事業提案、プレゼン資料何もかも凄すぎて言葉を失いました(すごい...)

speakerdeck.com

僕の事業提案の方針はというと、

年齢・性別に債務不履行になる確率の算出

→融資利用者数と債務不履行になる確率をもとに分析ターゲット層の決定

→ロジスティック回帰・オッズ比を用いて債務不履行の要因を算出

→事業提案〜

という流れでまとめました。

自分なりの工夫はLightgbmを用いるのではなくロジスティック回帰を用いたことです。Lightgbmでも変数重要度は算出できるのですが、それが目的変数にどのような影響があるのか説明するのが難しいかったので(勉強不足)、今回はロジスティック回帰を採用しました。ロジスティック回帰ではオッズ比が算出されるため「A群に対してB群は債務不履行になる確率が〇〇倍になる〜」という直感的な解釈ができます。連続値に対して「C変数が1単位上がると債務不履行になるリスクが〇〇倍になる〜」という議論もできるのですが、ビジネスの場面ではある程度集団ごとに対してどのような傾向があるか知りたいという仮定から、連続値はクラスタリングしてロジスティック回帰にかけました。またロジスティック回帰を採用した理由として、僕は統計出身なのでp値を算出しどの変数までが有意なのかを適切に議論したいという思いもありました。最終課題は途中までは頑張ったのですがスライド作成はサボったので非公表とします...。これで優秀賞を逃しても仕方ないです。

この最終課題での学びはビジネス応用のためのデータサイエンスの難しさです。チズチズくん(@chizu_potato)のツイートに同意です。

GCIで初めてビジネスとデータサイエンスを結びつけたけど案外難しかった

0.0001でも精度を上げることだけ考えるのとは話が違うしよりわかりやすく実現可能なプランとかになってくるとね
— チズチズ (@chizu_potato) 2020年8月20日

データコンペで他人より1%でも精度の高いモデルを作ることは難しくもおもしろいのですが、その1%の改善でビジネス的にどんな価値があるのかを考えることは忘れてはいけないと気づかされました。

また、データコンペではあらかじめ目的変数が与えられているのですが、事業提案では目的変数は自由(その時の課題次第)だと思います。データから課題を見つけ、データサイエンスとして解ける問題に落とし込む力の無さは痛感しました。データサイエンスに詳しくない人への分析結果の伝え方とスライドの作り方も含め学びと反省の多い最終課題となりました。