はじめに

スポーツの世界においては「勢いがある」、「流れが来ている」等の表現がよくされると思うのですが、これらはオカルトではなく実際に存在するものなのでしょうか？この分野ではバスケのホットハンドの話が有名で、色々な方が研究されているのようなのですが、気になったので自分でも検証してみることにしました。

今回対象とするのは大相撲です。もし勢いや流れというものが存在するのであれば、連勝中の力士はそうでない場合と比較して勝利する確率が上がり、連敗中の力士は敗北する確率が高くなると考えられます。今回は、過去の取組結果のデータを用いてこの仮説が正しいかどうかの検証を行います。

ちなみに大相撲についてはあまり詳しくないです。

データの取得

ヤフーの大相撲のサイトに、年・場所毎の勝敗表がありましたので、そちらから2014-2018年の５年分の各場所の幕内と十両の勝敗表をスクレイピングで取得しました。

取得後のデータはこんな感じです。

f:id:rmizutaa:20190119212953p:plain

データの集計

取得したデータから、一定の連勝・連敗が発生する機会と、その機会における勝利・敗北数を集計します。このとき、条件を揃えるために場所の結果が8勝7敗の力士のみを対象としています。また不戦勝・不戦敗は除外しています。

データの取得・集計を行ったコードは以下になります。 https://github.com/rmizuta3/sumo

集計結果

連勝についての集計結果は以下のようになりました。

	１連勝中	2連勝中	3連勝中	4連勝中	5連勝中
機会数	2854	1340	580	217	81
勝利	1438	633	240	90	29
勝率	0.5039	0.4724	0.4138	0.4174	0.3580
ランダム時の勝率	0.5000	0.4615	0.4167	0.3636	0.3333

また、連敗についての集計結果は以下のようになりました。

	１連敗中	2連敗中	3連敗中	4連敗中	5連敗中
機会数	2481	1001	354	107	25
敗北	1097	388	120	26	4
敗率	0.4422	0.3876	0.3390	0.2430	0.16
ランダム時の敗率	0.4286	0.3846	0.3333	0.2727	0.2000

ここで勝率は勝利数を機会数で割った数で、ランダム時の勝率は、勝敗の結果が完全にランダムで決まる場合の確率を示します。また8勝7敗の力士のみを対象としていますので、勝利の方が機会数が多くなっています。

ここは少し引っかかった点なのですが、1連勝中の時は1試合の結果が確定していることになるので、残り14試合では7勝7敗になる必要がありランダム時の勝率は勝率は50%になります。同様にして２連勝中の時は残り13試合で6勝7敗である必要があるためランダム時の勝率は0.4615になり、確定している対戦数とその結果によってランダム時の勝率は変化することになります。

この表からだけでも今回の集計結果はランダムの結果とほとんど変わらないことがわかりますが、ちゃんと確認するために統計的な検定を行います。

検定

前項の結果に対して統計的仮説検定の一つであるt検定を行い、実際の勝敗数がランダムの場合と比較して有意に異なるかどうかを検証します。

t検定の方法については以下のページを参考にしました。

t検定で行っていることは、簡単に言うと勝敗結果がランダムである場合の確率分布を導出し、今回の事象がその分布において本当に起こりうりそうな確率で発生するか？ということの確認です。
今回は信頼区間を95%としたため、下の図で値が( $\mu-1.96\sigma$ ) ~ ( $\mu+1.96\sigma$ ) の間に入るかどうかを確認します。

f:id:rmizutaa:20190119213330p:plain (引用元：https://www.biwako.shiga-u.ac.jp/sensei/mnaka/ut/sozai/prob.html)

機会数をn、勝率をpとおくと、一回あたりの機会では結果は勝利か敗北の二項分布B(n,p)になるので、機会数が多い場合は勝利・敗北回数は正規分布N(np, np(1-p))に従うとみなせます。このときの95%信頼区間はnp±1.96*(np(1-p)**(1/2))で計算できます。その結果を以下に示します。

	１連勝中	2連勝中	3連勝中	4連勝中	5連勝中
出現数	2854	1340	580	217	81
勝利	1438	633	240	90	29
95%信頼区間下限	1375	585	222	68	19
95%信頼区間上限	1479	652	261	89	30

	１連敗中	2連敗中	3連敗中	4連敗中	5連敗中
出現数	2481	1001	354	107	25
敗北	1097	388	120	26	4
95%信頼区間下限	1021	361	106	23	3
95%信頼区間上限	1105	409	130	34	7

4連勝中の勝利数以外は95%信頼区間の中に収まったので、勝敗がランダムの場合と有意な差があるとは言えません。 4連勝中の結果についての解釈は少し難しいですが、信頼区間上限との差もわずかですし、サンプルサイズも比較的小さい部分なので、ここだけ見て連勝している力士は普段より勝つ確率が高い、というのは難しく、基本的には過去数戦の連勝・連敗の結果は対戦結果に影響を及ぼさないという結論が納得性が高いのではないでしょうか。