A Beginner's Guide to Latent Dirichlet Allocation(LDA)

トピックモデリングとは、教師なしで文書を分類する手法で、数値データのクラスタリングと似ており、何を探しているのか分からない場合でも、いくつかの自然な項目群（トピック）を見つけることができます。

各データポイントが複数のクラスターに属するファジークラスタリング (ソフトクラスタリング) のようなものです。

なぜトピックモデリングなのか
Model definition
Finding Representative Words for a Topic
前提:
LDAの仕組み
後者を求めるアルゴリズム
A layman’s example
余談

なぜトピックモデリングなのか

トピックモデリングは、大きな電子アーカイブを自動的に整理、理解、検索、要約する方法を提供します。

コレクション内の隠れたテーマを発見する
発見されたテーマにドキュメントを分類する
ドキュメントを整理/要約/検索するために分類を使用する

たとえば、ドキュメントが食品、犬、健康というテーマに属しているとしましょう。したがって、ユーザーが「ドッグフード」とクエリした場合、これらのトピック (他のトピックも含む) をカバーしているので、上記のドキュメントが関連するとわかるかもしれません。

したがって、モデリング手法によって予測されたトピックに基づいて、ドキュメントに注釈を付けることにより、検索プロセスを最適化することができます。各文書は様々な単語で構成されており、各トピックにも様々な単語が属している。 LDAの目的は、文書に含まれる単語をもとに、文書が属するトピックを見つけることです。よくわからない？以下に例を挙げて説明します。

Model definition

div

We have 5 documents each containing the words listed in front of them( ordered by frequency of occurrence).

What we want to figure out are the words in different topics, as shown in the table below. Each row in the table represents a different topic and each column a different word in the corpus. Each cell contains the probability that the word(column) belongs to the topic(row).

Each topic contains a score for all the words in the corpus.

Finding Representative Words for a Topic

We can sort the words with respect to their probability score.
各トピックから上位 x 個の単語を選び、そのトピックを代表するようにします。 x = 10 の場合、topic1 のすべての単語をスコアに基づいて並べ替え、上位 10 個の単語をトピックを代表する単語として取り出します。
コーパスが小さい場合は、すべての単語をスコアでソートして保存できるため、このステップは必ずしも必要ではないかもしれない。
あるいは、スコアに閾値を設定することができる。トピックの中で閾値以上のスコアを持つ単語はすべて、その代表としてスコアの高い順に格納することができる。

A Beginner’s Guide to Latent Dirichlet Allocation(LDA)

なぜトピックモデリングなのか

Model definition

Finding Representative Words for a Topic

前提:

LDAの仕組み

後者を求めるアルゴリズム

A layman’s example

余談

コメントを残すコメントをキャンセル

なぜトピック モデリングなのか

Model definition

Finding Representative Words for a Topic

前提:

LDAの仕組み

後者を求めるアルゴリズム

A layman’s example

余談

コメントを残す コメントをキャンセル

なぜトピックモデリングなのか

コメントを残すコメントをキャンセル