こんばんは、かえるるる(@kaeru_nantoka)です。 今日は、「 Sports Analyst Meetup #2 (#spoana)」に参加してきました。 こちらのイベントに参加(聴講)するにあたって、目標を1つ自分に課しました。その観点に沿って聞いてメモしたものの中から抜粋して、そのまとめを綴っていこうと思います。
目次
・どんなイベントなの?
・どんな課題感で望んだの?
・各発表について
・まとめ
1 どんなイベント?
スポーツデータを題材に 実務 / 研究 / 趣味 で分析をしている方々による発表 ・ LT を聞ける会。 #2 では、実務(プロチームの戦略立案に役立てるための分析)でスポーツデータにを分析している方 2名のロングトークとLT 10本という大満足の内容だった。
https://spoana.connpass.com/event/126625/
2 どんな課題感で望んだの?
「自分が LT をすることを想定して、どのようにデータを用意し、どのような流れでまとめているかを生の LT を聞くことで知る」
ことを目標に、相棒の iPad Pro 9.7 インチにメモを書きなぐりました。
このような課題を自分に課した経緯としては次の通りです。
自分のアウトプットの機会の1つとして、せっかく(機械学習)エンジニアをやっているわけなので、LT をやってみたいという兼ねてからの願望があった。
-> やってみよう。・・・そもそもデータがない。
-> データを集めよう。・・・そもそもデータってどうやって(方法・観点・サンプル数)集めるんだっけ???
-> \(o^)/
ということで他の方の生の発表を聞いてみたいと思いました。
以上の目標を達成するために、観点を、
( i ) 概要・手法
( i i ) データ取得方法
( i i i ) データ数
( i v ) 期間
( v ) 感想
に分けて、メモしていきました。。メモが追いつかなかったものなどは - (ハイフン)にしています。
その中から一部抜粋して、ご紹介します。
3 各発表について
LT #1 戦略シミュレーション分析 (バドミントン)
( i ) ショットをハイリスク・ローリスクに分け、各ショットから得られる得点の期待値を数式として、またそのショットの組み合わせを戦略として定義し、その条件下でシミュレーション。その結果からどの戦略が優位であるかを示した。
( i i ) なし
( i i i ) なし
( i v ) なし
( v ) データがなくてもここまでの発表ができるのか。と自分の視野の狭さを痛感。 問題設定とアプローチは、学部自体にやったゲーム理論や効用最大化問題に近いと感じた。 競技の特性、プラスの効用とマイナスの効用をどう定義するかなど難しさはあるがぜひ挑戦してみたいと思った。
LT #2 大相撲優勝決定巴戦に見る不合理な分布 (相撲)
( i ) 相撲の優勝決定戦という、実力が拮抗 (両者の勝率が 0.5 と仮定)している時の理論値と標本値の比較、適合度の検定(カイ自乗検定)を行い、実力・・拮抗してるんじゃなかったっけ...? (=八○長の存在)を数的根拠を以って示唆した。
( i i ) -
( i i i ) 142
( i v ) 1958年 (今の巴戦のルールが確立した年) ~ 2014年
( v ) 理系の出身の方なら当たり前の手法なのかもしれないが、個人的に理論分布と標本分布の差異を数的に示す手法は私の目標の観点から、とても参考になった。サンプル数も142と自力でアノテーションできる数だなと思った。
LT #3 高校セーリング部のための「データ活用ツール」制作秘話 (セーリング)
( i ) 高校ヨット部をデータ分析の力で強くしよう。しかし、航路、船の傾きなど気象条件やルール上の制約からデータ集めるのが大変 -> どうするか という内容。
( i i ) スマホで集める。
競技の特性上、センサーやコンパス、防水性など多機能かつ高性能な分析デバイスが必要 -> スマホでよくね?
( i i i ) 大変
( i v ) 大変
( v ) やりたい分析対象はあるのに、変動パラメータが多すぎてデータを集めるのに苦戦していた発表者の方。自分の欲しいデータを効率的に集めるためのスマホアプリの紹介もされててすごかったです。一方スマホをデータ収集ツールとして使えばいいじゃないという観点にはハッとさせられた。以前 u++ さんが、iPhone のヘルスケアツールから歩行データなどを xml で取り出せるみたいな記事を書かれていたが、気づいていないだけでそういった魅力的な生データはその辺りに落ちているのかもしれない。
LT #5 富士山登山競争を定量的に評価する (登山)
( i ) 富士山登山競争という競技のつらさを構成する要素を数式で定義。そして、安静時やフルマラソン完走時、高尾山登山時のつらさも同じ式で表して定量的に評価した。
( i i ) 富士山登山競争の過去競争タイムデータから、区間ごとの距離・高低差・平均タイム を運動の消費カロリー(METS)に換算して使用
( i i i ) 1レース分?
( i v ) 1レース分?
( v ) フェルミ推定を彷彿とさせる手法だった。オチも用意されておりプレゼンって感じだった。
LT #7 ボール保持力・奪取力マップから見るロシアW杯2018 (サッカー)
( i ) ボール保持力・奪取力を可視化、国や選手の特性をうまくプロットしていた。
( i i ) Statsbomb 社がオープン化しているデータセット (.json)
Competition : FIFA World Cup 2018
Event : "Pass", "Dribble", "Miscontroll", "Duel"
Location : PosX, PosY
Output : Success, Failure
( i i i ) -
( i v ) FIFA World Cup 2018
( v ) ゲームの視聴者として経験的に把握していた、国や選手の特性を実際の試合データをプロットすることで可視化できており凄かった。(語彙)
4 まとめ
本日 spoana に参加してきた。
「LTをやってみたい。だが何をどんな観点で発表すればいいのか、そもそもデータってどうやって収集するのかわからない」という自分の中にある課題に対し、「その手がかりになる情報を生の発表の中から持ち帰る」という目標を課した。
結果、ぼんやりと聞くより多くの情報をインプットできた(気がする。)し、 自分が LT をするまでに何をすべきか道すじがクリアになった(気がする。)
ぜひ、自分も LT をして良質なアウトプットをする習慣をつけたい。
以上です。ありがとうございました。