A Beginner's Guide to Latent Dirichlet Allocation(LDA)

Die Themenmodellierung ist eine Methode zur unüberwachten Klassifizierung von Dokumenten, ähnlich dem Clustering bei numerischen Daten, die einige natürliche Gruppen von Elementen (Themen) findet, selbst wenn wir nicht sicher sind, wonach wir suchen.

Ein Dokument kann zu mehreren Themen gehören, ähnlich wie beim Fuzzy Clustering (Soft Clustering), bei dem jeder Datenpunkt zu mehr als einem Cluster gehört.

Warum Themenmodellierung?
LDA
Modelldefinition
Finding Representative Words for a Topic
Annahmen:
Wie funktioniert LDA?
Der Algorithmus, um letztere zu finden
A layman’s example
Nebenbemerkung

Warum Themenmodellierung?

Die Themenmodellierung bietet Methoden zum automatischen Organisieren, Verstehen, Suchen und Zusammenfassen großer elektronischer Archive.
Es kann bei folgenden Aufgaben helfen:

Entdeckung der versteckten Themen in der Sammlung.
Klassifizierung der Dokumente in die entdeckten Themen.
Verwendung der Klassifizierung zur Organisation/Zusammenfassung/Suche der Dokumente.

Angenommen, ein Dokument gehört zu den Themen Essen, Hunde und Gesundheit. Wenn ein Benutzer also „Hundefutter“ abfragt, könnte er das oben genannte Dokument relevant finden, weil es diese Themen (neben anderen Themen) abdeckt. Wir sind in der Lage, die Relevanz des Dokuments in Bezug auf die Anfrage zu bestimmen, ohne das gesamte Dokument zu lesen.

Daher können wir unseren Suchprozess optimieren, indem wir das Dokument auf der Grundlage der von der Modellierungsmethode vorhergesagten Themen annotieren.

LDA

Es ist eine der beliebtesten Methoden zur Themenmodellierung. Jedes Dokument besteht aus verschiedenen Wörtern, und jedes Thema hat auch verschiedene Wörter, die zu ihm gehören. Das Ziel von LDA ist es, Themen zu finden, zu denen ein Dokument gehört, basierend auf den darin enthaltenen Wörtern. Sehr verwirrt? Hier ist ein Beispiel, um es Ihnen zu erläutern.

Modelldefinition

We have 5 documents each containing the words listed in front of them( ordered by frequency of occurrence).

What we want to figure out are the words in different topics, as shown in the table below. Each row in the table represents a different topic and each column a different word in the corpus. Each cell contains the probability that the word(column) belongs to the topic(row).

Each topic contains a score for all the words in the corpus.

Finding Representative Words for a Topic

We can sort the words with respect to their probability score.
Die obersten x Wörter werden aus jedem Thema ausgewählt, um das Thema zu repräsentieren. Wenn x = 10 ist, sortieren wir alle Wörter in Thema1 nach ihrer Punktzahl und nehmen die 10 besten Wörter, um das Thema zu repräsentieren.
Dieser Schritt ist nicht immer notwendig, denn wenn der Korpus klein ist, können wir alle Wörter nach ihrer Punktzahl sortiert speichern.
Alternativ können wir auch einen Schwellenwert für die Punktzahl festlegen. Alle Wörter eines Themas, deren Punktzahl über dem Schwellenwert liegt, können als dessen Vertreter gespeichert werden, und zwar in der Reihenfolge ihrer Punktzahl.

A Beginner’s Guide to Latent Dirichlet Allocation(LDA)

Warum Themenmodellierung?

LDA

Modelldefinition

Finding Representative Words for a Topic

Annahmen:

Wie funktioniert LDA?

Der Algorithmus, um letztere zu finden

A layman’s example

Nebenbemerkung

Schreibe einen Kommentar Antworten abbrechen