Popis slov

Popis slov

Nápad na engine pro popis slov vznikl, když jsem vytvářel engine pro příbuzná slova (je to něco jako tezaurus, ale poskytuje mnohem širší soubor příbuzných slov než jen synonyma). Při hraní si s vektory slov a rozhraním API „HasProperty“ služby conceptnet jsem se trochu pobavil, když jsem se snažil získat přídavná jména, která běžně popisují dané slovo. Nakonec jsem si uvědomil, že existuje mnohem lepší způsob, jak to udělat: analyzovat knihy!“

Počátečním korpusem byl Project Gutenberg, ale parser byl stále nenasytnější a nakonec jsem ho krmil někde kolem 100 gigabajtů textových souborů – většinou beletrie, včetně mnoha současných děl. Parser prostě prochází každou knihu a vytahuje z ní různé popisy podstatných jmen.

Snad to nebude jen novinka a některým lidem to bude skutečně užitečné pro jejich psaní a brainstorming, ale jedna šikovná drobnost, kterou si můžete vyzkoušet, je porovnávání dvou podstatných jmen, která jsou si podobná, ale v něčem podstatném se liší – zajímavé je například pohlaví: „žena“ versus „muž“ a „chlapec“ versus „dívka“. Při prvotní rychlé analýze se zdá, že autoři beletrie nejméně 4x častěji popisují ženy (na rozdíl od mužů) výrazy souvisejícími s krásou (týkajícími se jejich váhy, rysů a celkové atraktivity). Ve skutečnosti je „krásná“ pravděpodobně nejpoužívanějším adjektivem pro ženy v celé světové literatuře, což je zcela v souladu s obecným jednorozměrným zobrazováním žen v mnoha jiných mediálních formách. Pokud by se někdo chtěl pustit do dalšího výzkumu této problematiky, dejte mi vědět a já vám mohu poskytnout mnohem více údajů (například pro slovo „žena“ existuje asi 25 000 různých záznamů – je jich příliš mnoho na to, abych je zde uváděl).

Modrá barva výsledků představuje jejich relativní četnost. Na položku můžete na vteřinu najet myší a mělo by se zobrazit skóre četnosti. Řazení podle „jedinečnosti“ je výchozí a díky mému složitému algoritmu™ je řadí podle jedinečnosti přídavných jmen pro dané podstatné jméno vzhledem k ostatním podstatným jménům (je to vlastně docela jednoduché). Jak se dalo očekávat, kliknutím na tlačítko „Seřadit podle četnosti použití“ můžete přídavná jména seřadit podle četnosti jejich použití u daného podstatného jména.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *