python
wordcloudを作っていると、LDAというトピック分析の手法が目に止まりました。文章を単語による関連性ではなく、トピック(話題)に焦点を当て分類するもので、とても面白そうだとおもいました。qiita.com 文章内の単語やフレーズの頻度や共起関係を分析し、…
可視化を考える中で見つけたキーワードがネットワーク分析です。その中でもコミュニティ抽出と呼ばれるアプローチに興味を持ちました。文全体の構造を把握したり、グループに分けたり、密接に繋がっている部分を抽出してくれたりします。 環境 louvain法を使…
日本語テキストをワードクラウドで可視化してみました。 テキストは自分が書いた乳がん検診に関する記事をまとめたものです。 環境 python3 -V Python 3.9.2 pip3 show janome Name: Janome Version: 0.4.2 pip3 show pandas Name: pandas Version: 1.4.3 pi…
日本語の文章を分析する前に、単語ごとに分割する処理を行う必要があります。 その処理にはjanomeを使用させていただいています。janomeのインストールは手軽に行えます。 pip3 install janome 環境 python3 -V Python 3.9.2 pip3 show janome Name: Janome …
appendで以下の警告が出ます。FutureWarning: The frame.append method is deprecated and will be removed from pandas in a future version. Use pandas.concat instead. 困りました。 pandasをよくわからないまま使用しているので対応の仕方が分かりませ…
以下のような、ソースコード埋め込みですが import itertools from itertools import chain, combinations pair_list = [ list(itertools.combinations(n, 2)) for n in corpus if len(corpus) >=2 ] なかなか上手く行かなくてあせりました・・・とりあえず…