創作人物と実在人物の誕生日を比較する

はじめに

TLで下記のマンガやアニメ等のキャラクターの誕生日には偏りがあることがわかるヒートマップが流れてきました。

これを見て結構偏りがあるんだなーと思うと同時に、疑り深い私は実在の人物についてもある程度なら 出生日はコントロールできるはずで、本当にこの特性はマンガやアニメ等の創作人物に限ったものなのか? 実在人物と本当に差があるといえるのか?という疑問をもちました。 そこで実在人物と創作人物の誕生日を比較し、本当に違いがあるかの検証を行いました。

データ収集

実在人物の出生日については政府の人口動態調査の結果を利用します。ここから1999~2018年の20年分の出生日の情報を使用しました。 現状2歳〜22歳の誕生日の人のデータになりますが、他の年齢の人との差はないと仮定します。 取得できるcsvファイルに少し癖があるので、集計のためには少し整形を行う必要があります。 創作人物の出生日は元ツイと同じくこちらのサイトから取得しました。

取得データの確認

実在人物については21,373,093人、創作人物については39,267人のデータが集まりました。 このデータを集計し、実在人物、創作人物それぞれで誕生者数のTOP5,WORST5の日付のデータを確認します。

TOP5

  • 実在人物
日付 誕生者数 誕生者割合(%) 誕生者数/誕生者数平均
9月25日 66897 0.31 1.15
1月5日 66896 0.31 1.15
12月25日 66848 0.31 1.14
9月26日 66827 0.31 1.14
5月2日 66363 0.31 1.14
  • 創作人物
日付 誕生者数 誕生者割合(%) 誕生者数/誕生者数平均
7月7日 904 2.30 8.43
3月3日 553 1.40 5.15
5月5日 440 1.12 4.10
1月1日 393 1.00 3.66
4月1日 361 0.92 3.36

WORST5

  • 実在人物
日付 誕生者数 誕生者割合(%) 誕生者数/誕生者数平均
2月29日 12704 0.06 0.22
1月1日 40602 0.19 0.70
1月2日 40884 0.19 0.70
12月31日 42460 0.20 0.73
1月3日 43607 0.20 0.75
  • 創作人物
日付 誕生者数 誕生者割合(%) 誕生者数/誕生者数平均
5月26日 42 0.11 0.39
12月11日 43 0.11 0.40
1月26日 49 0.12 0.46
12月17日 50 0.13 0.47
5月29日 54 0.14 0.50

日にち自体が少ない2/29を除いて実在人物は平均値からの乖離が0.7~1.15倍なのに対し、創作人物は0.39~8.43倍とかなり幅があることがわかります。 また、TOPとWORSTで現れる日付も全く違ったものになります。

割合をプロットしてみます。

f:id:rmizutaa:20200729230604p:plain

x軸の実在人物は左端の2/29の一点をのぞいてほぼ同じ箇所に固まっていますが、 y軸の創作人物はかなり幅があり、特に最も上の7/7の点はかなり外れ値的な位置付けとなっています。 また、本来日数が少ないはずの2/29にその影響が伺えません。

最後に、もう結果は明らかな気もしていますが念の為、 実在人物の誕生日と創作人物の誕生日には関連があるかという仮説に対しての独立性の検定も行ってみました。 結果としてはp値は0.0で帰無仮説は棄却され、有意水準を1%とすると実在人物の誕生日と創作人物の誕生日には関連があるとはいえませんでした。 ただ自由度が366、有意水準を1%とした場合はカイ二乗の値が431を越えると棄却域に入るのですが、 最も値が大きい7月7日の創作人物のセルのカイ二乗の値が5188なので、これだけで棄却域に入っているんですよね。 366*2のセルの内1つでも異常な値があったら仮説が棄却されてしまうので、 やってはみましたが、自由度が高すぎる場合にこの検定を使うのはあまり妥当ではないかもしれません…。

結論

創作人物の誕生日には、現実的ではない偏りがありました。

使用したコードは以下になります。 github.com