「勢い」が存在するかを統計的に確認する(大相撲編)
はじめに
スポーツの世界においては「勢いがある」、「流れが来ている」等の表現がよくされると思うのですが、これらはオカルトではなく実際に存在するものなのでしょうか?この分野ではバスケのホットハンドの話が有名で、色々な方が研究されているのようなのですが、気になったので自分でも検証してみることにしました。
今回対象とするのは大相撲です。 もし勢いや流れというものが存在するのであれば、連勝中の力士はそうでない場合と比較して勝利する確率が上がり、連敗中の力士は敗北する確率が高くなると考えられます。今回は、過去の取組結果のデータを用いてこの仮説が正しいかどうかの検証を行います。
ちなみに大相撲についてはあまり詳しくないです。
データの取得
ヤフーの大相撲のサイトに、年・場所毎の勝敗表がありましたので、そちらから2014-2018年の5年分の各場所の幕内と十両の勝敗表をスクレイピングで取得しました。
取得後のデータはこんな感じです。
データの集計
取得したデータから、一定の連勝・連敗が発生する機会と、その機会における勝利・敗北数を集計します。 このとき、条件を揃えるために場所の結果が8勝7敗の力士のみを対象としています。また不戦勝・不戦敗は除外しています。
データの取得・集計を行ったコードは以下になります。 https://github.com/rmizuta3/sumo
集計結果
連勝についての集計結果は以下のようになりました。
1連勝中 | 2連勝中 | 3連勝中 | 4連勝中 | 5連勝中 | |
---|---|---|---|---|---|
機会数 | 2854 | 1340 | 580 | 217 | 81 |
勝利 | 1438 | 633 | 240 | 90 | 29 |
勝率 | 0.5039 | 0.4724 | 0.4138 | 0.4174 | 0.3580 |
ランダム時の勝率 | 0.5000 | 0.4615 | 0.4167 | 0.3636 | 0.3333 |
また、連敗についての集計結果は以下のようになりました。
1連敗中 | 2連敗中 | 3連敗中 | 4連敗中 | 5連敗中 | |
---|---|---|---|---|---|
機会数 | 2481 | 1001 | 354 | 107 | 25 |
敗北 | 1097 | 388 | 120 | 26 | 4 |
敗率 | 0.4422 | 0.3876 | 0.3390 | 0.2430 | 0.16 |
ランダム時の敗率 | 0.4286 | 0.3846 | 0.3333 | 0.2727 | 0.2000 |
ここで勝率は勝利数を機会数で割った数で、ランダム時の勝率は、勝敗の結果が完全にランダムで決まる場合の確率を示します。また8勝7敗の力士のみを対象としていますので、勝利の方が機会数が多くなっています。
ここは少し引っかかった点なのですが、1連勝中の時は1試合の結果が確定していることになるので、残り14試合では7勝7敗になる必要がありランダム時の勝率は勝率は50%になります。同様にして2連勝中の時は残り13試合で6勝7敗である必要があるためランダム時の勝率は0.4615になり、確定している対戦数とその結果によってランダム時の勝率は変化することになります。
この表からだけでも今回の集計結果はランダムの結果とほとんど変わらないことがわかりますが、ちゃんと確認するために統計的な検定を行います。
検定
前項の結果に対して統計的仮説検定の一つであるt検定を行い、実際の勝敗数がランダムの場合と比較して有意に異なるかどうかを検証します。
t検定の方法については以下のページを参考にしました。
t検定で行っていることは、簡単に言うと勝敗結果がランダムである場合の確率分布を導出し、今回の事象がその分布において本当に起こりうりそうな確率で発生するか?ということの確認です。
今回は信頼区間を95%としたため、下の図で値が() ~ () の間に入るかどうかを確認します。
(引用元:https://www.biwako.shiga-u.ac.jp/sensei/mnaka/ut/sozai/prob.html)
機会数をn、勝率をpとおくと、一回あたりの機会では結果は勝利か敗北の二項分布B(n,p)になるので、機会数が多い場合は勝利・敗北回数は正規分布N(np, np(1-p))に従うとみなせます。 このときの95%信頼区間はnp±1.96*(np(1-p)**(1/2))で計算できます。その結果を以下に示します。
1連勝中 | 2連勝中 | 3連勝中 | 4連勝中 | 5連勝中 | |
---|---|---|---|---|---|
出現数 | 2854 | 1340 | 580 | 217 | 81 |
勝利 | 1438 | 633 | 240 | 90 | 29 |
95%信頼区間下限 | 1375 | 585 | 222 | 68 | 19 |
95%信頼区間上限 | 1479 | 652 | 261 | 89 | 30 |
1連敗中 | 2連敗中 | 3連敗中 | 4連敗中 | 5連敗中 | |
---|---|---|---|---|---|
出現数 | 2481 | 1001 | 354 | 107 | 25 |
敗北 | 1097 | 388 | 120 | 26 | 4 |
95%信頼区間下限 | 1021 | 361 | 106 | 23 | 3 |
95%信頼区間上限 | 1105 | 409 | 130 | 34 | 7 |
4連勝中の勝利数以外は95%信頼区間の中に収まったので、勝敗がランダムの場合と有意な差があるとは言えません。 4連勝中の結果についての解釈は少し難しいですが、信頼区間上限との差もわずかですし、サンプルサイズも比較的小さい部分なので、ここだけ見て連勝している力士は普段より勝つ確率が高い、というのは難しく、基本的には過去数戦の連勝・連敗の結果は対戦結果に影響を及ぼさないという結論が納得性が高いのではないでしょうか。
まとめ
大相撲の対戦成績のデータを用い、過去数戦の連勝・連敗が対戦結果に影響を与えるかをt検定を用いて確認しました。機会があれば他の競技についても検証してみたいですね。
私は統計については深い知識を持っておらず、条件を揃えるための仮定の置き方については結構悩んだので、検証方法に誤り等ある場合にはコメントいただけると幸いです。