【にわかデータ分析講座】サッカー観戦、映像で見るか？データで視るか？

　Ｊリーグ 2017シーズン　開幕まであと少し...

　開幕までのプレシーズンというと、移籍動向や風物詩的なイベントを楽しみつつ、リーグ開幕までワクワクドキドキをその胸の内に温めながら過ごす．．．

　皆さん、そんな日々を送っていることと思います。

　明日18日土曜日には、プレシーズン恒例ゼロックス杯が開催。

www.jleague.jp

　と、こちらも恒例になりつつあるＪリーグマスコット総選挙。

www.jleague.jp

　私はというと、先週11日土曜日に日立柏サッカー場にて、第22回ちばぎんカップを現地観戦してきました。

　新加入選手の初お目見え、今季のスタイルやデキを占う上でもこのプレシーズンマッチはポジティブな楽しみの多いゲーム。

【ウォーミングアップのメニューに変わりはなさそう】ラリベイ、やばカッコええな！！ pic.twitter.com/D6qy2qXk0g
— Nobuhiro Kankura (@kan_nov) February 11, 2017

　また、今回は昨年11月にコロンビアで起きた飛行機事故で亡くなった、ブラジル１部シャペコエンセの選手、元柏のクレーベル、そして元千葉ケンペス両選手への追悼という思いも秘めての試合でもありました。

【ケンペス、あなたを忘れない】柏のスタッフさん(ブラジル人コーチ？)が足を止めて写真を撮られていました。きっと、ブラジルの地にも届くことでしょう。 pic.twitter.com/rfYgYAXYik
— Nobuhiro Kankura (@kan_nov) February 11, 2017

　さて、午後１時にキックオフした試合ですが...

　新生おらがジェフ千葉はというと、フアン・エスナイデル監督が志向するハイプレス＆ハイラインをのっけから展開。前半の前半は柏を圧倒して相手陣内に選手もボールも釘付けにするハーフコートマッチへ引きずり込むことに成功。

　が、高いインテンシティが求められるスタイルが長続きするわけもなく、ハイプレスの強度低下と柏さんが慣れてきたこともあり、前半の後半以降、残り60分余りはほぼ柏に殴られ続ける試合に...

　千葉はアタッキング時に最終ラインをハーフウェーラインに設定。そんな千葉のハイラインの裏を突くべく、柏のアタッカー陣が広大なスペースへボールを引き出すべくランをしまくって築かれたオフサイドの山。。

【オフサイドに嵌める駆け引き】それは、恋の駆け引きにも似て……(全然似てない pic.twitter.com/VkwgOfcAJU
— Nobuhiro Kankura (@kan_nov) February 12, 2017

　最終的にはオフサイド数、千葉 0 - 8 柏というスタッツに（スコアは0-2）。ここまで極端なゲームもなかなか無いよなぁ、と。

　これまで「オフサイド」というスタッツに着目したことなかったので、本エントリでオフサイドの多寡が勝敗、または試合展開やその他の指標に何らか影響を与えるか、についてつらつらと分析すっかなーと思っていたのですが...

　翻って、サッカーデータを「分析する」ということそのものについて、ちょっと思う所を書いてみようと思い、テーマを変更。。

　本業では、マーケティング領域の分析をしている私が思うサッカーデータの分析とは、なんぞや...について綴ってみます。

（ここでいうサッカーデータとは、webや書籍などにある誰でも入手可能なサッカーに関するオープンデータを指します。専門的な選手のバイタルデータや、詳細なトラッキングデータなどは含みません。見たこともないし...）

　今日(こんにち)、サッカーに限らず、ビジネスシーンや世間一般あらゆる領域で「データ分析」が流行りつつあるかと思います。

　サッカーの場合、「分析」と言うと古くから「映像分析」の事を指す場合が多いかなと思います。

　サッカーをやる現場においてもそうですし、見る側においては、とりわけブログやTwitterなどでも映像クリップや画面キャプチャでもって、システム、戦術について解説を加えているコンテンツをよく目にすることと思います。

　ただ、Ｊリーグも2015シーズンより、選手の走行距離・スプリント回数など、「トラッキングデータ」と呼ばれるこれまでにないスタッツの収集を開始。

　そうした増え続けるデータを、ファン・サポーターが楽しめる「コンテンツ」にできないか、、とＪリーグの中の人たちは日夜腐心されています（たぶん）。

　例えば、下記のような「インフォグラフィクス」を作ってみたり。。

www.jleague.jp

（例として、ガンバ大阪とヴァンフォーレ甲府の昨シーズン・データのビジュアライズを添付。）

　こういったコンテンツは、データの「可視化／視覚化」でして、誰が見ても分かるということに主眼が置かれて作られているかと思います。

　元となるデータは、単なる数値の連なりでしかないですが、こうしてグラフや表など、データに埋もれた"姿"を読み取り易くするために加工をすることで、データを通じてサッカーを見てみる事、考えてみる事の敷居を下げる狙いがあろうかと。

　一方、「データ分析」は、可視化／視覚化などの読み解きやすさも踏まえつつ、何らかの「目的」を持ってなされるものと思っています。

　ビジネスシーンであれば、売上をあげる、販促の効果をあげる、再来店を促進することが目的。その目的を果たすために、強く影響している要因≒ドライバー（コントローラブルなもの）が何であるかを明らかにし、それを制御することで、最大効果を得る。

　サッカーであれば分析の目的は、チームの勝利。あるいは、観客動員数を増やすこと、グッズの売上をあげる、サポーターの満足度を高める、などなど。。

　そうした目的に向けての解を得る作業が本来の「データ分析」の在り方と思います。

　ちょーっとカタイ話になってしまいましたが、私は単なるデータ・オタクのサポーター。私がこのブログを通じてデータ分析やその可視化をしている"目的"は、週末の試合や海の向こうで行われる試合、日本代表の負けられない戦い、あるいはサッカーにまつわるあんなことやこんなこと。。それらに埋もれている、まだ気づいていない「楽しさ」を掘り当てることにあります。

　多くは、ジェフ千葉のこと。または日本代表。大きな国際大会があれば、その参加国について。何も考えずに試合を見るのも楽しいけれど、「コレに注目してみるともっと楽しい」と思えるタネをひとつでも多く分析によって掘り当てる。そんな私なりのデータ分析における「ステップ」をちょっとご紹介したく思います。

　データを分析する、と掲げている以上、何よりもデータが無いことには始まりません。

　まずはデータを集めることから始めます。

　分析の前段階・準備に相当しますので、ステップ０とします。

（しかし、このデータ取得のステップが実は労力の大半を占める...）

　近年はテクノロジーの進化もあり、サッカーのようなプレーが連続して進むスポーツについても、細かくデータが取得できるようになってきています（一方、野球のようにワンプレーずつ止まるスポーツはデータの取得が容易）。

　私の場合、データはWebで集めることが多いです。

　いつもお世話になっているFootballLabさん始め、日本サッカー協会、Ｊリーグのオフィシャルサイトなど、あらゆるところでデータが取れます。

　さて、データを揃えたら、いざ分析に取り掛かるわけですが、、

　実作業はざっと以下のような順序で取り掛かることが多いかと。

①テーマ／目的をきめる　

②データ俯瞰する

③データを加工する

④データを可視化する

⑤考察する

　私は日々サッカーのことを考えてはいるものの、その全てについて分析的に考えているわけもなく...

　私の場合は、データに着目することから入って、「分析してみっか」、となることが多い。そういう意味で言えば、予め目的があることは少ないです（ほぼ思いつきで書いている...）。

　そうした意味では①と②のステップが反対になり、まずはデータを俯瞰してみる → 何か特徴、発見があれば、それをテーマ／目的とする、のような手順を踏むことが多いかもしれません。

　今回もオフサイドについて掘り下げることは決めてはいましたが、分析の道筋、どんなデータと組み合わせるかは、まずデータを俯瞰してみてから決めようと。

　なので、まずは「オフサイド数」についての「②データを俯瞰する」ことからはじめます。

（元データは昨シーズンの対ジェフ千葉戦のもの）

f:id:knovocelic:20170217154740p:plain

【図１】１試合あたりのオフサイド数毎の試合数ヒストグラム

　昨シーズンの対ジェフ千葉戦における相手のオフサイド数は上記のような分布になってます。

　軸目盛りがわかりにくいですが、横にオフサイド数、縦にそのオフサイド数であった試合数というとり方をしています。

　昨シーズンはおおよそ１試合あたりのオフサイド数は２～３くらい。最高でも６という試合が１試合あっただけ（第36節松本戦）。

　ただ、オフサイド数というシングルソースだけではオフサイドそのものしか説明できません。他の指標と併せてみて、オフサイドの意味付け、方向付けをしていきます。

　そうした意味付けの"アテ"を探るべく、例として下記のような散布図行列を出してみて、この指標とこの指標が関係ありそうだ、と目星を付けるわけです。今回で言えば、オフサイドとその他の指標との関連を見てみます。

f:id:knovocelic:20170216192019p:plain

【図２】ゲームスタッツの散布図行列　

　ご覧の通り、攻撃回数からオフサイド数含め、30mライン進入回数までのスタッツを縦横二次元のグラフ、散布図にて一括出力しました。青い丸印が１試合のそれらスタッツを表します。同じスタッツが交わるセル（左上から右下へ斜めに走っている）は同スタッツの分布（ヒストグラム）を示しています。

　ここで見るのは、オフサイドの行（または列）。どんなスタッツとどのような関連性がありそうかを見ます。

　が、オフサイドの行／列を一通り見てみたものの、どれもぐじゃ～っとした散布図だなぁ、と。。

　関連性がありそうな例としては、「30mライン進入」と「パス」、同じく「30mライン進入」と「クロス」の散布図ですかね。パス、またはクロスが多いと同様に30m進入数も多くなる．．．いわば相関関係がありそう、となるわけです。

　パスもクロスもゴールを奪うためのプロセスですから、ゴールに接近していることを示す「30mライン進入」というスタッツと連動しているのは普通に考えれば、まさにその通りかと。

　そうした目星が付けられれば、③のデータ加工のステップに進みます。

　30mライン進入とパス／クロスの「相関係数」を求めてみることで、パスとクロスのどちらがより30mライン進入との関係が強いか、、を見ることができます。

（ここでは、ピアソンの積率相関係数を採用。パスでは[.74]、クロスでは[.60]。ジェフはクロスに比べると、パスで崩されて進入を許す傾向が強い、とわかる）。

　相関係数の詳細な解説は他に譲ります。

　ちなみに、Excelがあれば関数などで簡単に算出できます。

rplus.wb-nahce.info

　オフサイドに話を戻しますと、データ俯瞰ではちょっと傾向が見えづらかったので、図１の分布を半ば強引に戦績別に分けて分布を出力してみます。

（直截的に勝ち負けと関係あるのか？に着目。）

　オフサイドの分析に関してはステップ③と④とを併せて下記図３のように「④データを可視化する」ことにしました。　

f:id:knovocelic:20170217140002p:plain

【図３】戦績別オフサイド数の箱ひげ図

　上記図は、箱からヒゲが伸びているように見えるから「箱ひげ図」と呼ばれるのですが、読み取り方の細かいことは他に譲ります。。

◆なるほど統計学園高等部 | 箱ひげ図

　さて、図３では何をやっているかというと、図１のヒストグラムと同じオフサイド数の元データを戦績別に分けます。分けた上で、戦績毎オフサイド数の散らばり具合を見るために箱ひげ図にて可視化したわけです。

　"☓"印が各戦績での平均値で、勝利時、引き分け時の箱の中の戦が中央値です（敗北時の中央値は箱の上辺と一致）。

　ヒゲの先、下限は最小値（これはいずれも０）、上限は最大値になります。箱の下辺が第１四分位（オフサイド数を下から数えて全体の25％に当たる数）、上辺が第３四分位（同75％に当たる数）という見方。

　こう見ると、負けた試合ほど傾向としてはオフサイドが多かった、つまり相手に裏を狙われる頻度が多かったのかもしれない、、と考察できます。

　最後のステップ、ここまでの分析・可視化からオフサイドについて「考察する」ためにもう少し踏み込んで、最後に下記の可視化を。

f:id:knovocelic:20170217150548p:plain

【図４】オフサイドと被攻撃指標との関係

　ここまで各ステップでその都度可視化や解説をあげてきましたが、本稿「オフサイド数の多寡はジェフにどんな影響が？」の解としては、上記図４をもって締めたいと思います。

　相手オフサイドの頻度としては、勝利時＜引き分け時＜敗北時の順で大きくなる傾向にあります。しかし、被攻撃における２指標、ここでは被30mライン進入成功率、及び被シュート到達率とはあまりネガティブな関連性は無さそうだ、と結論づけます。

　以前までの分析で、ジェフの負けパターンは相手を押し込みながら崩せず、カウンターに沈む、、というものが多いと述べました。

football-data-visualization.hatenablog.com

　そうしたシチュエーションであるならば、自ずとジェフ側の陣地後方にはスペースが広大にある（ジェフ側が相手を押し込んでいるから）、相手はカウンターを狙ってそのスペースめがけて走り込む、よってオフサイドが増える、、という考察はできそうだな、となるわけです。

　もちろん他の指標、他の分析アプローチによって異なる結論を導くことも可能でしょう。あくまで本エントリでの私の分析は一例に過ぎません（片手間のものですし...）。

　もうひとつ、データ分析に言える事としては、「予測」とは別物である、ということ。

　昨シーズン、データ分析に基づいたプレビューを執筆していましたが、いくつか原稿を書くうちに自分の中で分析と明日の試合の行方を占う≒予測／予想は、やはり別物だよな、と考えを整理できました。

football-data-visualization.hatenablog.com

　データはすべて過去の事象を表しています。

　そうした過去の事象に対して、目的／課題／仮説設定をし、データを俯瞰・加工・可視化をし、それらをいくつか組み合わせたり、計算や検定などを行った結果から、考察をするまでが分析。

　一方、予測は未来の事象を言い当てる（推測する）こと、ベクトルが逆なんです。

　当然、分析から得られた知見、過去から現在までの傾向を基に予測を行うことは正しいセオリーでしょう。殊にデータから予測に有効な指標を取り出し（または変換し）、予測モデルを構築、そして運用していく、というステップはスタンダードなやり方。

　分析することと、予測することは地続きでありながら後者に関しては、予測を導き出すモデルなり仕組みを「つくる」というステップが最重要であり、前者のそれと別種の能力なり適性が要ると思います。

　サッカーで言えば、toto という試合結果を「予想」して楽しむくじがあったり、予測が活躍する可能性は大いにあると思います。

　そのあたりもチャレンジしている先駆者がおられたりしますし、いずれは私も挑戦してみたいなと思ってみたり（まだスキルが圧倒的に足りない...）。

　今回はそこそこのボリュームをかけて、サッカーにおけるデータ分析について綴ってみました。データ分析はいざやってみると難しいこともなく、慣れれば誰でもできるもんです。

　今後は戦術や映像の分析に長けた方と、試合のデータ／スタッツを絡めてどんな発見や知見が得られ、それらを観る人々が楽しめるコンテンツにできそうかなど、意見交換や討論などをしてみたいと思っています。

　それまでは、たくさんサッカーの試合を観て自分の中での"事例"を溜めつつ、本業でもある分析スキルの向上に精進しなければと思うています。。

　では、また！！

サッカーをデータで視てみよう

サッカーに関するあらゆるデータを可視化してみるブログ

【にわかデータ分析講座】サッカー観戦、映像で見るか？データで視るか？