2020-01-01から1年間の記事一覧

共分散構造分析を試す

はじめに 今回は共分散構造分析を試してみたいと思います。共分散構造分析は手法としては因子分析と回帰分析を組み合わせたようなもので、観測変数から因子分析で潜在変数の導出を、複数の潜在変数同士の関係を回帰分析で行うようなイメージです。例えば国語…

読書記録(2020年10,11月)

超予測力 不確実な時代の先を読む10カ条 超予測力 不確実な時代の先を読む10カ条 (早川書房)作者:フィリップ E テトロック,ダン ガードナー発売日: 2016/10/31メディア: Kindle版 面白かった。大規模な予測プロジェクトの結果を元にどのような性質の人が予…

Q-learningで倒立振子を振り回す

はじめに 最近kaggleでも強化学習系のお題が増えてきたように思うので(実際に解法に強化学習が使用されているかは別として)、 手をつけていなかった強化学習について、本を読みながら試してみたことを書きます。 参考資料 pythonで学ぶ強化学習 https://gith…

読書記録(2020年8,9月)

行動を変えるデザイン 行動を変えるデザイン ―心理学と行動経済学をプロダクトデザインに活用する作者:Stephen Wendel発売日: 2020/06/11メディア: 単行本(ソフトカバー) 元々ファスト&フローとか予測どおりに不合理とか行動経済学の話が好きなので、それ…

DTW(Dynamic Time Warping)で台風軌道をクラスタリングする

はじめに 多次元時系列データのクラスタリングがしたいと思って探していたところ、 ちょうどこちらのブログの題材が台風軌道のクラスタリングという、多次元時系列かつ系列長の異なるデータをクラスタリングするというものだったので、理解を兼ねて同じ内容…

Dashで更新可能な地図を表示する

はじめに 選択した項目に対して、インタラクティブに地図を更新するwebアプリを作成したいと思いました。 最初はstreamlitのpydeckで試していたのですが、地図を複数回レンダリングすると発生するバグが解消できなかったため、今回はDashで実装しました。 実…

Whooshで検索機能の向上を図る

はじめに 前に類似本検索システムを作成したのですが、その中で数万ある本の候補の中から探したい本の検索する部分があります。 そのときは入力された単語に対し検索を全書籍に対して行う、という最も単純な手法を実装したのですが、 もう少しいいやり方がな…

読書記録(2020年6,7月)

今まで読んだ本の感想をたまにtwitterで流していましたが、140文字制限がきついのと後で見返しにくいので、こちらにまとめることにしてみます。 図書館情報学オタクと学ぶ検索エンジニア入門 booth.pm 情報検索の分野は初見だったが、具体的な例を元に情…

創作人物と実在人物の誕生日を比較する

はじめに TLで下記のマンガやアニメ等のキャラクターの誕生日には偏りがあることがわかるヒートマップが流れてきました。 マンガやアニメのキャラクター39000人分、どの日に何人生まれたかまとめた誕生日ヒートマップ作りました。赤が多くて、青が少ない。こ…

スペクトラルクラスタリングを用いてグラフ構造のデータをクラスタリングする

はじめに グラフ構造のデータをクラスタリングする方法について調べていて、 スペクトラルクラスタリングという手法が使えそうだったので、その実験結果を記述します。 参考資料 https://arxiv.org/pdf/0711.0189.pdf[1] https://towardsdatascience.com/spe…

類似本検索システムを作りたい

ということで、本を検索すると類似している本のリストを出力するサイトを試作してみました。 https://bookrecommendst.herokuapp.com/ (herokuを他の用途で使うまではアクセス可能な予定です。) youtu.be こんな感じで、ある検索した本に対して類似度の高い…

GCPでデータ収集環境をつくる

はじめに データ分析をするにはデータが必要ですが、常に欲しいデータが存在するとは限らず、 時には自分で取得・保存する必要が出てくると思います。 ここではGCPを用いてデータ収集環境を構築してみた備忘録を記述します。 実施概要 apiを使って日次でvtub…

pca+kmeansについての雑実験

はじめに 列数が多いデータセットに対してクラスタリングを行う場合にPCAで列数を次元削減してからクラスタリングをするという手法があるらしいです。 確かにPCA等で列の次元削減を行うことでノイズ成分を落とせるので、うまくいけば重要となる特徴だけを用…

あてはまりのよい確率分布を探したい

はじめに データを眺めていると、ある分布に対してそれが正規分布に従うのか、対数正規分布か、それともガンマ分布の方が近いのか?、というようにどの分布の当てはまりがよいかが気になることがあると思います。 これを確認する方法を探してみたところ、sci…