Een beginnershandleiding voor Latente Dirichlet Allocatie (LDA)

Topic modeling is een methode voor onbewaakte classificatie van documenten, vergelijkbaar met clustering op numerieke data, die een aantal natuurlijke groepen van items (topics) vindt, zelfs als we niet zeker weten waarnaar we zoeken.

Een document kan deel uitmaken van meerdere onderwerpen, net als bij fuzzy clustering (zachte clustering), waarbij elk gegevenspunt tot meer dan één cluster behoort.

Waarom topic modeling?
LDA
Model definitie
Finding Representative Words for a Topic
Aannames:
Hoe werkt LDA?
Het algoritme om de laatste te vinden
A layman’s example
Noot

Waarom topic modeling?

Topic modeling biedt methoden voor het automatisch organiseren, begrijpen, doorzoeken en samenvatten van grote elektronische archieven.
Het kan helpen bij het volgende:

ontdekken van de verborgen thema’s in de collectie.
classificeren van de documenten in de ontdekte thema’s.
gebruiken van de classificatie om de documenten te organiseren/samenvatten/zoeken.

Voorbeeld: een document behoort tot de onderwerpen voedsel, honden en gezondheid. Dus als een gebruiker “hondenvoer” opvraagt, kan hij bovengenoemd document relevant vinden omdat het deze onderwerpen (naast andere onderwerpen) bestrijkt. We zijn in staat om de relevantie ten opzichte van de zoekopdracht te bepalen zonder zelfs maar het hele document door te nemen.

Daarom, door het document te annoteren, gebaseerd op de onderwerpen die door de modelleer methode worden voorspeld, zijn we in staat om ons zoekproces te optimaliseren.

LDA

Het is een van de meest populaire onderwerp modelleer methodes. Elk document bestaat uit verschillende woorden, en elk onderwerp heeft ook verschillende woorden die erbij horen. Het doel van LDA is om onderwerpen te vinden waartoe een document behoort, op basis van de woorden in het document. Veel verwarring? Hier is een voorbeeld om je er doorheen te leiden.