サッカーワールドカップ ブラジルとドイツの強さをあらわす二つのグラフ

サッカーワールドカップ ブラジルとドイツの強さをあらわす二つのグラフ

Pocket

先日、ワールドカップのデータベースを公開しましたが、わたしもこのデータをQlikViewに取り込んで、いろいろと分析してみました。
その中で二つほど面白いグラフができましたので、ぜひご覧ください。
サッカーファンの方にとっても、QlikViewなどのBIツールに興味のある方にとっても、面白いグラフではないかと思います。

詳細は後ほど説明しますので、まずは作成したグラフをご覧ください。
一つ目のグラフがこちらです。
analyze-worldcup-204これはワールドカップで非常に良い成績を残している「ブラジル、ドイツ」と、ワールドカップであまり良い成績の残せていない「その他の国」について、得失点差別に試合数の分布を図示したものです。

二つ目のグラフがこちらです。
analyze-worldcup-303これは「ブラジル、ドイツ」と、その他の強豪国(イタリア、アルゼンチンなど)について、得点と失点別に試合数の分布を図示したものです。QlikViewのグリッドチャートを使用して作成しています。

それでは、順番に解説していきます。


国ごとに基本的なデータを確認

グラフを作成する前に、まず国ごとの勝ち星や勝率などを計算してみました。
analyze-worldcup-101これを見ると、ブラジルとドイツの成績が非常に良いということが分かります。
この二ヶ国だけ、通算の勝ち星が70勝を超えていて、勝率も60%を超えています。
三位のイタリアが46勝、四位のアルゼンチンが44勝ですので、ブラジルとドイツだけが頭一つ抜け出していると言ってよいでしょう。
analyze-worldcup-102“成績が良い”にはいろいろな定義が考えられると思いますが、ここでは単純に勝ち星が多い国=成績の良い国と考えることにします。
ワールドカップは予選を含め、負けたチームから脱落していくため、勝ち星が多いチームが全般的に勝率もよく、優勝、準優勝などの回数も多くなります。

ではなぜ、この二ヶ国がこれほど勝てるのか分析していきます。まず、分かりやすくするために、国を勝ち星の数ごとに以下の三つに分類することにします。

  • ブラジル、ドイツ
    ブラジルとドイツです。
  • ブラジル、ドイツ以外の強豪国
    ブラジルとドイツ以外で通算10勝以上している国です。具体的には以下の19ヶ国です。
    イタリア、アルゼンチン、スペイン、フランス、オランダ、イングランド、ウルグアイ、ロシア連邦、セルビア、スウェーデン、ポーランド、ハンガリー、ポルトガル、ベルギー、メキシコ、オーストリア、チェコ、スイス、チリ
    ブラジル、ドイツとこれらの国で、すべての勝ち星の80%を占めるということもあり、これらの国を強豪国と位置付けることにしました。
  • その他の国
    上記以外の国(通算9勝未満の国)です。

グラフ1(得失点差別の分布)

ではまず、何点差で勝つ(または負ける)ことが多いのか、得失点差(得点 – 失点)別に試合数の分布を見てみましょう。

まず「その他の国」のグラフを見てみましょう。
analyze-worldcup-201横軸が得失点差です。「0」が引き分け(またはPK戦)、「-1」は一点差での負け、「1」は一点差での勝ちをあらわします。
「その他の国」では、「0」を基準にグラフが左に寄っていることが分かります。その分負けが多いということですね。
とくに一点差での負けが多く、一点差での勝ちが少ないようです。

つづいて「ブラジル、ドイツ以外の強豪国」のグラフを見てみましょう。
analyze-worldcup-202強豪国だけあって、先ほどよりもグラフが右に寄っています。一点差の負けよりも一点差の勝ちの方が多く、以下同様に二点差の負けよりも二点差の勝ちの方が多いです。
つまり、これらの強豪国は、”失点よりも得点の方が多いので、勝ち星が多い”と言えるかと思います。

それでは最後に「ブラジル、ドイツ」のグラフを見てみしょう。
analyze-worldcup-203ブラジルとドイツだけは、そもそもグラフの構造が根本的に違います。
「ブラジル、ドイツ」は「その他の国」のグラフを、ちょうど一点分、右にスライドさせた図になっています。

「その他の国」と「ブラジル、ドイツ」のグラフを並べて見てみると、そのことがよく分かります。
analyze-worldcup-204つまり、ブラジルとドイツは、”対戦相手よりも一点多くとるから勝つ”と言えます。

これは、当たり前といえば当たり前の話で、サッカーのルールが”相手よりも一点でも多くとった方が勝ち”というルールである以上、勝ち星の多いチームの結果を、あとから分析すれば、おのずとこういう結論になります。
しかし、ここまで綺麗なグラフになるとは思っていなかったので、わたし自身すこし驚きました。


グラフ2(得点、失点別の分布)

つづいて、”対戦相手よりも一点多くとるから勝つ”というのが本当なのか、得点と失点別に試合数の分布を見てみましょう。

今回は「ブラジル、ドイツ」のグラフから見てみましょう。
analyze-worldcup-301これはQlikViewのグリッドチャートというグラフで、円の大きさで値の量をあらわします。
今回であれば、横軸が得点、縦軸が失点、円の大きさが、その得失点での試合数をあらわします。
たとえば「ブラジル、ドイツ」は、0対1での負けが非常に少なく、1対0での勝ちが非常に多いということが分かります。

つづいて「その他の強豪国」のグラフを見てみましょう。
analyze-worldcup-302「ブラジル、ドイツ」とは明らかに構造が違いますね。

重ねてみたのが以下の図です。
analyze-worldcup-303「ブラジル、ドイツ」は全体的に失点が少なく、得点が多いというのはもちろんなのですが、特に注目すべき個所に枠線を付けてみました。
analyze-worldcup-304まず左下の赤枠を見てください。
ここを見ると、「ブラジル、ドイツ」は0対1で負けることが少なく、逆に1対0で勝つことが多いということが分かります。さらに、最低でも0対0の引き分けに持ち込んでいるということが分かります。

つぎに、右上の青枠を見てください。
ここは非常に差が顕著なところで、「ブラジル、ドイツ」は相手に2点とられても、3点以上取り返して勝つことが多いということが分かります。

まとめると、ブラジルとドイツは一点差ゲームに強く、最低でも0対0の引き分けに持ち込む。さらに相手に2点とられても3点以上取り返して勝つ、ということになります。


詳細なデータを集計表で確認

最後に、サッカーにおける得点や失点がどのような意味を持つのか、詳細なデータを集計表で確認してみましょう。

ではまず「ブラジル、ドイツ」などの分類を取り払って、すべての国の集計を見てみます。
analyze-worldcup-401これを見ると、サッカーにおける得点と勝敗には、以下のような関係がありそうです。
1点もとれなかった場合、高い確率で負ける。(勝率:3.61%)
1点とれたとしても、まだ負ける確率の方が高い。(勝率:30.89%)
2点とれた場合、高い確率で勝てる。(勝率:63.25%)
3点とれた場合、非常に高い確率で勝てる。(勝率:94.68%)

では「ブラジル、ドイツ」の集計を見てみましょう。まず得点から見てみます。
analyze-worldcup-4020点のところ(赤枠)を見ると、0点に抑えられた場合に、引き分けに持ち込む確率が非常に高いということが分かります。
0点に抑えられた場合も、半分は引き分けに持ち込んでいますね。

また、1点のところ(青枠)を見ると、1得点で勝つ確率(つまり1対0で勝つ確率)が非常に高いということが分かります。

こんどは失点を見てみます。
analyze-worldcup-4032点のところ(赤枠)を見てください。前述のとおり、2失点したときの結果がまったく違います。
全体の平均を見ると、普通は2失点すると2割程度しか勝てないようです。しかし、ブラジルとドイツは2失点しても5割以上勝っています。


最後に…

それでは最後に、ワールドカップにおいて強いチームはどのような試合をしているのか、データから分かったことをまとめてみます。
  • まず大前提として、失点を減らし、得点を増やすことが重要。
    その上でさらに以下のことが重要。
  • こう着した試合(なかなか点の入らない試合)では、失点を0点に抑える。
  • 点の取り合いになった場合は、2失点以内に抑えた上で、3得点する。
  • 3失点すると、どんなに強いチームでも負けるため、失点は2点以内に抑える。
サッカーファンの方にとっては当たり前、または感覚的に理解していることなのかもしれませんが、データを集計しグラフ化することで、より明確に理解できた部分があるのではないでしょうか。

わたしはあまりサッカーのことに詳しくないため、データを分析していく中で、あたらしい発見があり非常に面白かったです。
機会があれば、また別の分析もしてみたいと思います。
お疲れ様でした。


補足説明


QlikViewでの作成手順

QlikViewをお使いの方向けに、QlikViewでの作成手順を簡単にまとめておきます。

まず、使用するデータとロードスクリプトをダウンロードしてください。
analyze-worldcup.zip
QlikViewでドキュメントを新規に作成し、ダウンロードしたロードスクリプトを使用してデータを取り込んでください。
取り込むファイルのパスを相対パス(ファイル名のみ)で指定しているため、Excelファイルとおなじ場所にドキュメントを保存してください。

また、必須ではありませんが、「地域名」「国名」「強豪国」あたりの項目を、リストボックスとして追加しておくと、分析しやすくなると思います。


国ごとの成績
analyze-worldcup-101チャートの種類:ストレートテーブル

軸:国名

数式:以下の9項目。
試合数:Count(勝敗)
勝ち:Sum(勝利数)
敗け:Sum(敗北数)
分け:Sum(引き分け数)
勝率:Sum(勝利数) / Count(勝敗)
敗北率:Sum(敗北数) / Count(勝敗)
引き分け率:Sum(引き分け数) / Count(勝敗)
得点率:Avg(得点)
失点率:Avg(失点)
※試合数では、結果がある試合のみ数えるために「Count(勝敗)」としています。
ただし、今回使用するデータでは全試合に結果が入っているため、「Count(試合ID)」などとしても結果はおなじです。


得点別の勝敗
analyze-worldcup-401上の「国ごとの成績」とおなじ数式をいくつも使用します。「国ごとの成績」をコピーして作成すると簡単です。
チャートの種類:ストレートテーブル

軸:得点(3点)
※3点以上の値を「3点以上」にまとめた項目です。

数式:以下の8項目。
※「構成比」以外は「国ごとの成績」とおなじです。

回数:Count(勝敗)
構成比:Count(勝敗) [相対値表示]を有効
勝ち:Sum(勝利数)
敗け:Sum(敗北数)
分け:Sum(引き分け数)
勝率:Sum(勝利数) / Count(勝敗)
敗北率:Sum(敗北数) / Count(勝敗)
引き分け率:Sum(引き分け数) / Count(勝敗)


失点別の勝敗
上の「得点別の勝敗」とほぼおなじです。
「得点別の勝敗」をコピーした上で、軸を「失点(3点)」に変更してください。
軸:失点(3点)


グラフ1(得失点差別の試合数)
analyze-worldcup-204チャートの種類:棒グラフ

軸:以下の2項目。
強豪国
得失点差

下図を参考にトレリスチャートの設定をします。
analyze-worldcup-501
数式:以下の数式を設定します。
試合数:Count(勝敗) / Count(TOTAL<強豪国> 勝敗)

背景色を変更するために、数式の[背景色]に以下の数式を設定しています。
If(強豪国 = 'ブラジル、ドイツ', ARGB(255, 255, 217, 47), ARGB(255, 192, 192, 192))
analyze-worldcup-502

グラフ2(得点と失点別の試合数)
analyze-worldcup-303チャートの種類:グリッドチャート

軸:以下の3項目
得点(3点)
失点(3点)
強豪国

数式:以下の数式を設定します。
試合数:Count(勝敗) / Count(TOTAL<強豪国> 勝敗)

上の棒グラフと同様、[背景色]に数式を設定しています。
If(強豪国 = 'ブラジル、ドイツ', ARGB(255, 255, 217, 47), ARGB(128, 192, 192, 192))

[スタイル]や[目盛り線]などは必要に応じて変更してください。