Describing Words
Die Idee für die Describing Words-Engine kam mir, als ich die Engine für Related Words baute (sie ist wie ein Thesaurus, bietet aber eine viel breitere Palette von verwandten Wörtern und nicht nur Synonyme). Während ich mit Wortvektoren und der „HasProperty“-API von conceptnet herumspielte, machte ich mir einen Spaß daraus, die Adjektive zu ermitteln, die ein Wort üblicherweise beschreiben. Schließlich wurde mir klar, dass es einen viel besseren Weg gibt, dies zu tun: Bücher parsen!
Das Projekt Gutenberg war der ursprüngliche Korpus, aber der Parser wurde immer gieriger, und schließlich fütterte ich ihn mit etwa 100 Gigabyte Textdateien – hauptsächlich Belletristik, darunter viele zeitgenössische Werke. Der Parser durchsucht einfach jedes Buch und zieht die verschiedenen Beschreibungen von Substantiven heraus.
Hoffentlich ist es mehr als nur eine Neuheit und einige Leute finden es tatsächlich nützlich für ihr Schreiben und Brainstorming, aber eine nette kleine Sache, die man ausprobieren kann, ist, zwei Substantive zu vergleichen, die ähnlich sind, sich aber in irgendeiner signifikanten Weise unterscheiden – zum Beispiel ist das Geschlecht interessant: „Frau“ versus „Mann“ und „Junge“ versus „Mädchen“. Eine erste schnelle Analyse zeigt, dass Autoren von Belletristik Frauen (im Gegensatz zu Männern) mindestens 4x häufiger mit Begriffen beschreiben, die sich auf die Schönheit beziehen (in Bezug auf ihr Gewicht, ihre Merkmale und ihre allgemeine Attraktivität). Tatsächlich ist „schön“ möglicherweise das am häufigsten verwendete Adjektiv für Frauen in der gesamten Weltliteratur, was sich mit der allgemeinen eindimensionalen Darstellung von Frauen in vielen anderen Medienformen deckt. Falls jemand weitere Nachforschungen anstellen möchte, kann ich Ihnen gerne weitere Daten zur Verfügung stellen (es gibt zum Beispiel etwa 25000 verschiedene Einträge für „Frau“ – zu viele, um sie hier zu zeigen).
Die blaue Farbe der Ergebnisse stellt ihre relative Häufigkeit dar. Wenn Sie mit dem Mauszeiger kurz über einen Eintrag fahren, wird die Häufigkeitsangabe eingeblendet. Die Sortierung „Einzigartigkeit“ ist voreingestellt, und dank meines komplizierten Algorithmus™ werden sie nach der Einzigartigkeit der Adjektive für dieses bestimmte Substantiv im Vergleich zu anderen Substantiven sortiert (das ist eigentlich ziemlich einfach). Wie zu erwarten, können Sie auf die Schaltfläche „Nach Verwendungshäufigkeit sortieren“ klicken, um die Adjektive nach ihrer Verwendungshäufigkeit für dieses Substantiv zu sortieren.