統計

創作人物と実在人物の誕生日を比較する

はじめに TLで下記のマンガやアニメ等のキャラクターの誕生日には偏りがあることがわかるヒートマップが流れてきました。 マンガやアニメのキャラクター39000人分、どの日に何人生まれたかまとめた誕生日ヒートマップ作りました。赤が多くて、青が少ない。こ…

あてはまりのよい確率分布を探したい

はじめに データを眺めていると、ある分布に対してそれが正規分布に従うのか、対数正規分布か、それともガンマ分布の方が近いのか?、というようにどの分布の当てはまりがよいかが気になることがあると思います。 これを確認する方法を探してみたところ、sci…

クロス集計表とナイーブベイズの対応についてのメモ

はじめに ある日クロス集計表とナイーブベイズを眺めていて、 そもそもこれらはどういう関係性だっけ?と思ったのでその思考メモです。 試行 以下のような所属クラス×性別×利き手の3軸のクロス集計表があるとし、 これを用いて性別と利き手がわかっている人…

テニスにおける疲労度の影響の定量化(spoana5の内容+α)

はじめに 「プロテニスにおいて疲れが勝敗に与える影響を定量化してみる」 という題目で下記イベントでLTしてきました。 spoana.connpass.com 使用した資料は以下になります。 プロテニスにおいて疲れが勝敗に与える影響を定量化してみる - Speaker Deck 内…

変数間の関係性が見たい(偏相関とGraphical Lasso)

はじめに データの変数間の関係性を明らかにしたいというケースは多いと思います。 その場合相関や散布図をみるのが一般的ですが、交絡やノイズが多いケースなど それだけでは不十分な場合もあるため、その場合にも対応できそうな手法を試してみます。 試す…

機械学習における欠損値補完について考える

※この記事で使用している多重代入法のパッケージは正式な多重代入法の枠組みとは異なりますのでご注意願います。 はじめに 最近多重代入法という欠損値補完の手法があることを知りました。 統計学の界隈では欠損値補完は多重代入法を使用するのがベターのよ…

「勢い」が存在するかを統計的に確認する(大相撲編)

はじめに スポーツの世界においては「勢いがある」、「流れが来ている」等の表現がよくされると思うのですが、これらはオカルトではなく実際に存在するものなのでしょうか?この分野ではバスケのホットハンドの話が有名で、色々な方が研究されているのような…