En nybörjarguide till Latent Dirichlet Allocation (LDA)

Tema-modellering är en metod för oövervakad klassificering av dokument, som liknar klusterindelning av numeriska data, och som hittar vissa naturliga grupper av objekt (teman) även när vi inte är säkra på vad vi letar efter.

Ett dokument kan vara en del av flera ämnen, ungefär som i fuzzy clustering(soft clustering) där varje datapunkt tillhör mer än ett kluster.

Varför ämnesmodellering?
LDA
Modelldefinition
Finding Representative Words for a Topic
Antaganden:
Hur fungerar LDA?
Algoritmen för att hitta det sistnämnda
A layman’s example
Notis vid sidan om

Varför ämnesmodellering?

Tema-modellering ger metoder för automatisk organisering, förståelse, sökning och sammanfattning av stora elektroniska arkiv.
Det kan hjälpa till med följande:

upptäckt av dolda teman i samlingen.
klassificering av dokumenten i de upptäckta temana.
användning av klassificeringen för att organisera/sammanfatta/söka i dokumenten.

Till exempel, låt oss säga att ett dokument tillhör ämnena mat, hundar och hälsa. Så om en användare frågar efter ”hundmat” kan han eller hon finna det ovan nämnda dokumentet relevant eftersom det täcker dessa ämnen(bland andra ämnen). Vi kan räkna ut dess relevans i förhållande till frågan utan att ens gå igenom hela dokumentet.

Därmed kan vi optimera vår sökprocess genom att annotera dokumentet baserat på de ämnen som förutsägs av modelleringsmetoden.

LDA

Det är en av de mest populära metoderna för ämnesmodellering. Varje dokument består av olika ord, och varje ämne har också olika ord som tillhör det. Syftet med LDA är att hitta ämnen som ett dokument tillhör, baserat på orden i det. Är du förvirrad? Här är ett exempel som hjälper dig att gå igenom det.