創作人物と実在人物の誕生日を比較する
はじめに
TLで下記のマンガやアニメ等のキャラクターの誕生日には偏りがあることがわかるヒートマップが流れてきました。
マンガやアニメのキャラクター39000人分、どの日に何人生まれたかまとめた誕生日ヒートマップ作りました。赤が多くて、青が少ない。こうやってみると、やっぱりめちゃくちゃ偏ってるなっていうの可視化されて面白い。 pic.twitter.com/D2oU6teMaq
— 三珠さくまる@天才Vtuberっぽい🤹 (@MitamaSakumaru) July 26, 2020
これを見て結構偏りがあるんだなーと思うと同時に、疑り深い私は実在の人物についてもある程度なら 出生日はコントロールできるはずで、本当にこの特性はマンガやアニメ等の創作人物に限ったものなのか? 実在人物と本当に差があるといえるのか?という疑問をもちました。 そこで実在人物と創作人物の誕生日を比較し、本当に違いがあるかの検証を行いました。
データ収集
実在人物の出生日については政府の人口動態調査の結果を利用します。ここから1999~2018年の20年分の出生日の情報を使用しました。 現状2歳〜22歳の誕生日の人のデータになりますが、他の年齢の人との差はないと仮定します。 取得できるcsvファイルに少し癖があるので、集計のためには少し整形を行う必要があります。 創作人物の出生日は元ツイと同じくこちらのサイトから取得しました。
取得データの確認
実在人物については21,373,093人、創作人物については39,267人のデータが集まりました。 このデータを集計し、実在人物、創作人物それぞれで誕生者数のTOP5,WORST5の日付のデータを確認します。
TOP5
- 実在人物
日付 | 誕生者数 | 誕生者割合(%) | 誕生者数/誕生者数平均 |
---|---|---|---|
9月25日 | 66897 | 0.31 | 1.15 |
1月5日 | 66896 | 0.31 | 1.15 |
12月25日 | 66848 | 0.31 | 1.14 |
9月26日 | 66827 | 0.31 | 1.14 |
5月2日 | 66363 | 0.31 | 1.14 |
- 創作人物
日付 | 誕生者数 | 誕生者割合(%) | 誕生者数/誕生者数平均 |
---|---|---|---|
7月7日 | 904 | 2.30 | 8.43 |
3月3日 | 553 | 1.40 | 5.15 |
5月5日 | 440 | 1.12 | 4.10 |
1月1日 | 393 | 1.00 | 3.66 |
4月1日 | 361 | 0.92 | 3.36 |
WORST5
- 実在人物
日付 | 誕生者数 | 誕生者割合(%) | 誕生者数/誕生者数平均 |
---|---|---|---|
2月29日 | 12704 | 0.06 | 0.22 |
1月1日 | 40602 | 0.19 | 0.70 |
1月2日 | 40884 | 0.19 | 0.70 |
12月31日 | 42460 | 0.20 | 0.73 |
1月3日 | 43607 | 0.20 | 0.75 |
- 創作人物
日付 | 誕生者数 | 誕生者割合(%) | 誕生者数/誕生者数平均 |
---|---|---|---|
5月26日 | 42 | 0.11 | 0.39 |
12月11日 | 43 | 0.11 | 0.40 |
1月26日 | 49 | 0.12 | 0.46 |
12月17日 | 50 | 0.13 | 0.47 |
5月29日 | 54 | 0.14 | 0.50 |
日にち自体が少ない2/29を除いて実在人物は平均値からの乖離が0.7~1.15倍なのに対し、創作人物は0.39~8.43倍とかなり幅があることがわかります。 また、TOPとWORSTで現れる日付も全く違ったものになります。
割合をプロットしてみます。
x軸の実在人物は左端の2/29の一点をのぞいてほぼ同じ箇所に固まっていますが、 y軸の創作人物はかなり幅があり、特に最も上の7/7の点はかなり外れ値的な位置付けとなっています。 また、本来日数が少ないはずの2/29にその影響が伺えません。
最後に、もう結果は明らかな気もしていますが念の為、 実在人物の誕生日と創作人物の誕生日には関連があるかという仮説に対しての独立性の検定も行ってみました。 結果としてはp値は0.0で帰無仮説は棄却され、有意水準を1%とすると実在人物の誕生日と創作人物の誕生日には関連があるとはいえませんでした。 ただ自由度が366、有意水準を1%とした場合はカイ二乗の値が431を越えると棄却域に入るのですが、 最も値が大きい7月7日の創作人物のセルのカイ二乗の値が5188なので、これだけで棄却域に入っているんですよね。 366*2のセルの内1つでも異常な値があったら仮説が棄却されてしまうので、 やってはみましたが、自由度が高すぎる場合にこの検定を使うのはあまり妥当ではないかもしれません…。
結論
創作人物の誕生日には、現実的ではない偏りがありました。
使用したコードは以下になります。 github.com