BEENOSのデータサイエンスインターンに参加してきました!
こんにちは、Masanoriです。
7/1~13までの2週間、BEENOSでデータサイエンスインターンに参加してきたのでそのまとめを書きます。(アウトプットが遅くなったのは下書きに1ヶ月以上眠っていたためです、、笑)
BEENOSとは
メインの事業領域は越境ECで、以下のようなミッションを掲げている企業です。
BEENOSのBEEは「ミツバチ」NOSは「巣」。持続的な共存共栄の象徴であるミツバチのように、世界中の起業家や 企業、そしてモノや情報をつなぎ、インターネットの力でボーダレスに日本と世界を繋ぐ「プラットフォーム」を創造し、世界の可能性を拡げていく事をミッションにしています。
詳しくは以下のサイトをご覧ください。
参加したきっかけ
BEENOSを初めて知ったのは4月に京都で行われたエンジニアキャリアセミナーでした。そのイベントで、「BEENOSには『バットを振る!』という基本精神があり、リスクをとったチャレンジ自体を賞賛する文化がある」と聞き、自分も自らチャンスを掴みに行こうと考えました。
また、BEENOSにはデータサイエンティストが1人(新卒1年目)しかいないため、インターン生も一社員として裁量権を持って業務ができることもきっかけでした。
やったこと
インターンの課題は「過去の購買履歴から自社ECにおける定着ユーザー(半年で2回以上利用)の特徴の可視化と予測」でした。2週間なので上記の課題しかできませんでしたが、理想は以下のような流れでした。
①定着ユーザーの予測(定着確率の算出)
②定着ユーザーの特徴の可視化
③定着ユーザーの利用金額の予測(回帰)
④利用金額の期待値算出(①確率×③金額)
⑤マーケティング予算の推定
またチャンスがあれば、予算分配の最適化までこなしたいです。
用いた手法と結果
予測に用いた手法は統計モデルと機械学習モデルの2つを試しました。
統計モデルは僕の研究のベースになっているGB/NBDモデルです。これはRFM分析をベースにしたもので、購買間隔と離脱に確率分布を当てはめて顧客の購買行動をモデリングするものです。数学的な話はFader(2005)をご覧ください。機械学習モデルはXGBoostを用いました。
結果の詳細はここでは述べませんが、XBoostはまずまずの予測精度でした。統計モデルの方はあまり精度が出ずまだまだ改良が必要だと感じました。現在は阿部(2011)を読みながら階層ベイズを用いたモデリングに取り組んでいます。
最終日には最終プレゼンを行いました。CEO、COO、人事の方や新卒の方など多くの方の前で発表しました。モデルの仮定やXGBoostの変数重要度、可視化の結果に対しては議論が白熱し、発表と質疑応答を含めると1時間ほどかかりました。僕の分析結果からすぐマーケの施策が打たれたようで、スピード感には驚きでした。
感想
使いたいデータの全てが使えた
これってデータサイエンス系のインターンでとても大切ですよね。顧客の購買データや属性データ(ID等はハッシュ化したもの)、どのデバイスから利用したかなど過去数年分を使いたいだけ使ってモデルを構築することができました。2週間で全てのデータを完全に可視化することは不可能でしたが、豊富なデータ量は最高な環境だったと思います。
BEENOSの人がいい
これは1on1イベントの時から感じていましたが、親身になってくれる人、情熱的な多かったように思います。また、新卒が10人なので、毎日お昼にはラウンジに集まりみんなでご飯を食べたり、終業後にはもくもく会をするなど規模感や居心地が丁度いい感じでした。それだけでなく、ポーカーをしたり、インターン最終日には新卒の方の家で朝まで飲みつつゲームしながらインターンの振り返りをするなど本当に最高なインターンとなりました。
インターン最終日からの月例会の懇親会からの新卒の人の家でオールして、酔った勢いで本音で語って、ほんまにエモい2週間のインターンだった。
— Masanori🇮🇳 (@Masanori_724) July 12, 2019
以上がBEENOSでのインターンのまとめでした。
企業の意思決定に関われるデータサイエンティストって最高ですね!
最後まで読んで頂きありがとうございました。