Leíró szavak

Leíró szavak

A Leíró szavak motor ötlete akkor jött, amikor a Kapcsolódó szavak motorját építettem (ez olyan, mint egy tezaurusz, de sokkal szélesebb körű rokon szavakat ad, nem csak szinonimákat). Miközben a szóvektorokkal és a conceptnet “HasProperty” API-jával játszottam, volt egy kis móka, amikor megpróbáltam megszerezni azokat a mellékneveket, amelyek általában leírnak egy szót. Végül rájöttem, hogy van egy sokkal jobb módja is ennek: könyvek elemzése!

A Gutenberg projekt volt a kezdeti korpusz, de az elemző egyre mohóbb lett, és végül valahol 100 gigabájtnyi szövegfájlt etettem vele – főként szépirodalmi műveket, köztük sok kortárs művet. Az elemző egyszerűen átnézi az egyes könyveket, és kihúzza belőlük a főnevek különböző leírásait.

Remélhetőleg ez több mint újdonság, és néhányan valóban hasznosnak találják majd az íráshoz és az ötleteléshez, de egy ügyes kis dolog, amit ki lehet próbálni, hogy összehasonlítunk két olyan főnevet, amelyek hasonlóak, de valamilyen lényeges dologban különböznek – érdekes például a nem: “nő” kontra “férfi” és “fiú” kontra “lány”. Egy kezdeti gyors elemzés alapján úgy tűnik, hogy a szépirodalmi szerzők legalább 4x nagyobb valószínűséggel írják le a nőket (a férfiakkal szemben) szépséggel kapcsolatos kifejezésekkel (a súlyukra, vonásaikra és általános vonzerejükre vonatkozóan). Valójában a “szép” talán a leggyakrabban használt jelző a nőkre az egész világirodalomban, ami eléggé összhangban van a nők általános egydimenziós ábrázolásával sok más médiaformában. Ha valaki további kutatásokat szeretne végezni ebben a témában, szóljon, és sokkal több adatot tudok adni (például a “nő” szóra körülbelül 25000 különböző bejegyzés van – túl sok ahhoz, hogy itt megmutassam).

Az eredmények kékje a relatív gyakoriságukat jelzi. Egy másodpercre rá tudsz menni egy elem fölé, és a gyakorisági pontszámnak fel kell ugrania. Az “egyediség” szerinti rendezés alapértelmezett, és a Bonyolult Algoritmusomnak™ köszönhetően aszerint rendezi őket, hogy a melléknevek mennyire egyediek az adott főnévhez a többi főnévhez képest (ez valójában elég egyszerű). Ahogy az várható volt, a “Rendezés a használati gyakoriság szerint” gombra kattintva a mellékneveket az adott főnévre vonatkozó használati gyakoriságuk szerint rendezheti.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük