Descrevendo Palavras
A idéia do mecanismo de Descrevendo Palavras veio quando eu estava construindo o mecanismo para Palavras Relacionadas (é como um thesaurus, mas dá um conjunto muito mais amplo de palavras relacionadas, ao invés de apenas sinônimos). Enquanto brincava com vetores de palavras e a API “HasProperty” da conceptnet, eu me divertia um pouco tentando obter os adjetivos que comumente descrevem uma palavra. Eventualmente percebi que há uma maneira muito melhor de fazer isto: parse books!
Project Gutenberg foi o corpus inicial, mas o parser ficou cada vez mais ganancioso e eu acabei por alimentá-lo com cerca de 100 gigabytes de ficheiros de texto – na sua maioria ficção, incluindo muitas obras contemporâneas. O analisador simplesmente olha através de cada livro e retira as várias descrições dos substantivos.
E esperamos que seja mais do que apenas uma novidade e algumas pessoas vão achá-lo útil para a sua escrita e brainstorming, mas uma coisinha limpa a tentar é comparar dois substantivos que são semelhantes, mas diferentes de alguma forma significativa – por exemplo, o género é interessante: “mulher” versus “homem” e “rapaz” versus “rapariga”. Numa análise inital rápida parece que os autores de ficção têm pelo menos 4x mais probabilidade de descrever as mulheres (em oposição aos homens) com termos relacionados com a beleza (em relação ao seu peso, características e atractividade geral). De fato, “belo” é possivelmente o adjetivo mais usado para as mulheres em toda a literatura mundial, o que está bastante de acordo com a representação unidimensional geral das mulheres em muitas outras formas de mídia. Se alguém quiser fazer mais pesquisas sobre isto, avise-me e posso dar-lhe muito mais dados (por exemplo, existem cerca de 25000 entradas diferentes para “mulher” – demasiadas para mostrar aqui).
O blueness dos resultados representa a sua relativa frequência. Você pode pairar sobre um item por um segundo e a pontuação da freqüência deve aparecer. A ordenação de “unicidade” é padrão, e graças ao meu Complicated Algorithm™, ele ordena-os pela unicidade dos adjetivos daquele substantivo em particular em relação a outros substantivos (na verdade é bem simples). Como você esperaria, você pode clicar no botão “Ordenar por freqüência de uso” para os adjetivos por sua freqüência de uso para aquele substantivo.