Describing Words
L’idée du moteur Describing Words est venue lorsque je construisais le moteur pour Related Words (c’est comme un thésaurus, mais qui vous donne un ensemble beaucoup plus large de mots apparentés, plutôt que de simples synonymes). En jouant avec les vecteurs de mots et l’API « HasProperty » de conceptnet, je me suis amusé à essayer d’obtenir les adjectifs qui décrivent généralement un mot. Finalement, je me suis rendu compte qu’il y a une bien meilleure façon de faire cela : analyser des livres !
Le projet Gutenberg était le corpus initial, mais l’analyseur syntaxique est devenu de plus en plus gourmand et j’ai fini par l’alimenter avec quelque chose comme 100 gigaoctets de fichiers texte – principalement de la fiction, y compris de nombreuses œuvres contemporaines. L’analyseur syntaxique regarde simplement à travers chaque livre et sort les différentes descriptions des noms.
Espérons que ce soit plus qu’une simple nouveauté et que certaines personnes le trouvent réellement utile pour leur écriture et leur brainstorming, mais une petite chose soignée à essayer est de comparer deux noms qui sont similaires, mais différents d’une manière significative – par exemple, le genre est intéressant : « femme » contre « homme » et « garçon » contre « fille ». Une première analyse rapide montre que les auteurs de fiction ont au moins quatre fois plus tendance à décrire les femmes (par opposition aux hommes) avec des termes liés à la beauté (concernant leur poids, leurs traits et leur attrait général). En fait, « belle » est probablement l’adjectif le plus utilisé pour désigner les femmes dans toute la littérature mondiale, ce qui est tout à fait conforme à la représentation générale unidimensionnelle des femmes dans de nombreuses autres formes de médias. Si quelqu’un veut faire des recherches plus poussées à ce sujet, faites-le moi savoir et je peux vous donner beaucoup plus de données (par exemple, il y a environ 25000 entrées différentes pour « femme » – trop pour les montrer ici).
La couleur bleue des résultats représente leur fréquence relative. Vous pouvez survoler un élément pendant une seconde et le score de fréquence devrait apparaître. Le tri » unicité » est par défaut, et grâce à mon Complicated Algorithm™, il les ordonne en fonction de l’unicité des adjectifs à ce nom particulier par rapport aux autres noms (c’est en fait assez simple). Comme vous pouvez vous y attendre, vous pouvez cliquer sur le bouton « Trier par fréquence d’utilisation » pour les adjectifs par leur fréquence d’utilisation pour ce nom.