A Beginner’s Guide to Latent Dirichlet Allocation(LDA)
Die Themenmodellierung ist eine Methode zur unüberwachten Klassifizierung von Dokumenten, ähnlich dem Clustering bei numerischen Daten, die einige natürliche Gruppen von Elementen (Themen) findet, selbst wenn wir nicht sicher sind, wonach wir suchen.
Ein Dokument kann zu mehreren Themen gehören, ähnlich wie beim Fuzzy Clustering (Soft Clustering), bei dem jeder Datenpunkt zu mehr als einem Cluster gehört.
Die Themenmodellierung bietet Methoden zum automatischen Organisieren, Verstehen, Suchen und Zusammenfassen großer elektronischer Archive. Es kann bei folgenden Aufgaben helfen:
Entdeckung der versteckten Themen in der Sammlung.
Klassifizierung der Dokumente in die entdeckten Themen.
Verwendung der Klassifizierung zur Organisation/Zusammenfassung/Suche der Dokumente.
Angenommen, ein Dokument gehört zu den Themen Essen, Hunde und Gesundheit. Wenn ein Benutzer also „Hundefutter“ abfragt, könnte er das oben genannte Dokument relevant finden, weil es diese Themen (neben anderen Themen) abdeckt. Wir sind in der Lage, die Relevanz des Dokuments in Bezug auf die Anfrage zu bestimmen, ohne das gesamte Dokument zu lesen.
Daher können wir unseren Suchprozess optimieren, indem wir das Dokument auf der Grundlage der von der Modellierungsmethode vorhergesagten Themen annotieren.
LDA
Es ist eine der beliebtesten Methoden zur Themenmodellierung. Jedes Dokument besteht aus verschiedenen Wörtern, und jedes Thema hat auch verschiedene Wörter, die zu ihm gehören. Das Ziel von LDA ist es, Themen zu finden, zu denen ein Dokument gehört, basierend auf den darin enthaltenen Wörtern. Sehr verwirrt? Hier ist ein Beispiel, um es Ihnen zu erläutern.
Modelldefinition
We have 5 documents each containing the words listed in front of them( ordered by frequency of occurrence).
What we want to figure out are the words in different topics, as shown in the table below. Each row in the table represents a different topic and each column a different word in the corpus. Each cell contains the probability that the word(column) belongs to the topic(row).
Finding Representative Words for a Topic
We can sort the words with respect to their probability score. Die obersten x Wörter werden aus jedem Thema ausgewählt, um das Thema zu repräsentieren. Wenn x = 10 ist, sortieren wir alle Wörter in Thema1 nach ihrer Punktzahl und nehmen die 10 besten Wörter, um das Thema zu repräsentieren. Dieser Schritt ist nicht immer notwendig, denn wenn der Korpus klein ist, können wir alle Wörter nach ihrer Punktzahl sortiert speichern.
Alternativ können wir auch einen Schwellenwert für die Punktzahl festlegen. Alle Wörter eines Themas, deren Punktzahl über dem Schwellenwert liegt, können als dessen Vertreter gespeichert werden, und zwar in der Reihenfolge ihrer Punktzahl.