Guía para principiantes de la Asignación de Dirichlet Latente(LDA)
El modelado de temas es un método para la clasificación no supervisada de documentos, similar al clustering en datos numéricos, que encuentra algunos grupos naturales de elementos (temas) incluso cuando no estamos seguros de lo que estamos buscando.
Un documento puede formar parte de múltiples temas, como en el clustering difuso (soft clustering) en el que cada punto de datos pertenece a más de un cluster.
El modelado de temas proporciona métodos para organizar, comprender, buscar y resumir automáticamente grandes archivos electrónicos. Puede ayudar con lo siguiente:
descubrir los temas ocultos en la colección.
clasificar los documentos en los temas descubiertos.
utilizar la clasificación para organizar/resumir/buscar los documentos.
Por ejemplo, digamos que un documento pertenece a los temas comida, perros y salud. Así que si un usuario consulta «comida para perros», podría encontrar relevante el documento mencionado porque cubre esos temas(entre otros temas). Somos capaces de averiguar su relevancia con respecto a la consulta sin ni siquiera repasar todo el documento.
Por lo tanto, al anotar el documento, basado en los temas predichos por el método de modelado, somos capaces de optimizar nuestro proceso de búsqueda.
LDA
Es uno de los métodos de modelado de temas más populares. Cada documento se compone de varias palabras, y cada tema también tiene varias palabras que le pertenecen. El objetivo de LDA es encontrar los temas a los que pertenece un documento, basándose en las palabras que contiene. ¿Está muy confundido? Aquí tienes un ejemplo para guiarte.
Definición del modelo
We have 5 documents each containing the words listed in front of them( ordered by frequency of occurrence).
What we want to figure out are the words in different topics, as shown in the table below. Each row in the table represents a different topic and each column a different word in the corpus. Each cell contains the probability that the word(column) belongs to the topic(row).
Finding Representative Words for a Topic
We can sort the words with respect to their probability score. Se eligen las x mejores palabras de cada tema para representar el tema. Si x = 10, ordenaremos todas las palabras del tema1 en función de su puntuación y tomaremos las 10 primeras palabras para representar el tema. Este paso puede no ser siempre necesario porque si el corpus es pequeño podemos almacenar todas las palabras en ordenadas por su puntuación.
Alternativamente, podemos establecer un umbral en la puntuación. Todas las palabras de un tema que tengan una puntuación superior al umbral pueden ser almacenadas como su representante, por orden de sus puntuaciones.