書籍レビューを用いた潜在表現の獲得とクラスタリングの実施

はじめに書籍に関連する情報を用いてその潜在表現をうまく獲得することで、以下のようなことができないかなーと考えています。自身の読書済みの本と照らし合わせてカテゴリごとの網羅率の算出本を読んだ時に得られる情報量の算出該当の本の完読可能性…

類似本検索システムを作りたい

python 機械学習

ということで、本を検索すると類似している本のリストを出力するサイトを試作してみました。 https://bookrecommendst.herokuapp.com/ (herokuを他の用途で使うまではアクセス可能な予定です。) youtu.be こんな感じで、ある検索した本に対して類似度の高い…

python 機械学習

はじめに以前にlightgbmは入力に欠損値があってもうまく学習してくれるという記事を書いたのですが、これは学習時に欠損が存在している場合の話でした。現実の問題を考えると、学習時とそのモデルを使った推論時では時系列の違いや環境変化の影響により…

python 統計機械学習

はじめに「プロテニスにおいて疲れが勝敗に与える影響を定量化してみる」という題目で下記イベントでLTしてきました。 spoana.connpass.com 使用した資料は以下になります。プロテニスにおいて疲れが勝敗に与える影響を定量化してみる - Speaker Deck 内…

python 機械学習統計

※この記事で使用している多重代入法のパッケージは正式な多重代入法の枠組みとは異なりますのでご注意願います。はじめに最近多重代入法という欠損値補完の手法があることを知りました。統計学の界隈では欠損値補完は多重代入法を使用するのがベターのよ…

因果推論 python 機械学習

はじめに RCTが使えない場合の因果推論の手法として傾向スコアを使う方法があります。傾向スコアの算出はロジスティック回帰を用いるのが一般的ですが、この部分は別にlightgbmとか機械学習的な手法でやってもいいのでは？と思っていましたが既にやっている…

python 機械学習

はじめに機械学習を現実の問題に適用する場合、そのモデルに説明性が求められることが少なからず存在すると思います。その場合、精度を犠牲にして線形回帰を実施するでしょうか？木系モデルの重要度を頑張って説明するでしょうか？それともSHAPやLIMEなど…

python 機械学習

はじめに以前に、AtCoderの問題難易度の推定を項目反応理論を用いて行いました。これは統計モデリングを使った方法だったのですが、同様のことを機械学習でできないこともないな、と思い今回は機械学習を用いて問題難易度の推定を行うことにしました。手…