Dit artikel is oorspronkelijk gepubliceerd door Phil Edwards op VOX
Soms is het moeilijk om te waarderen dat de talloze elektronische stemmen die we horen, van de prompt bij de self-checkout tot de onhoorbare toon die uit onze telefoons komt, door een echte persoon zijn geleverd. Waar komen die stemmen vandaan? Om daar achter te komen, vroeg ik het aan de oorspronkelijke stem van de iPhone-assistent Siri, Susan Bennett.
Ze is een stemacteur die, naast haar iconische iPhone-oeuvre, commercials doet, zingt en stemmen levert voor vele andere bedrijven en diensten. En ze legde uit hoe haar unieke industrie werkt.
Hoe Susan Bennett de originele stem van Siri werd – en wat dat zegt over stemacteren
Met Susan Bennett praten is surrealistisch – het ene moment klinkt ze volkomen normaal, behalve dat ze de aangenaamste stem heeft die je ooit hebt gehoord. Maar in een oogwenk kan ze de Siri-stem aanzetten, en begin je te denken dat je tegen je computer praat.
Bennett komt oorspronkelijk uit Burlington, Vermont, maar verhuisde op jonge leeftijd naar het noorden van New York, en haar achtergrond gaf haar een neutrale Amerikaanse spreekstijl. Na acteren en zingen aan de Brown University ging ze naar het twangy Atlanta, waar haar heldere, ongeaccentueerde stem haar een uniek concurrentievoordeel heeft gegeven.
Op de een of andere manier vermenselijkt ze computers al tientallen jaren
In de jaren 70 brak Bennett door met stemacteren door een heel andere computer te vermenselijken dan Siri, door de jingle te zingen voor Tillie the All Time Teller, een van de eerste pinautomaten. Tientallen jaren lang sprak Bennett de stem in voor antwoorddiensten, PA-systemen en andere klanten, variërend van groot en zakelijk tot klein en lokaal. Die ervaring leidde haar naar haar meest herkenbare optreden.
Toen Bennett in 2005 de stem voor Siri opnam, had ze geen idee dat die op de iPhone zou belanden. Ze nam het op ruim voordat het bedrijf dat Siri bouwde werd gekocht door Apple, en ze wist niet eens dat ze de stem van Siri was totdat het product debuteerde in de App Store in 2010 en vervolgens verscheen op de iPhone 4S in 2011. Maar hoe naadloos Bennett ook klinkt als Siri, het was een verrassend moeilijk project om haar stem vast te leggen.
Hoe een digitale assistent als Siri wordt opgenomen
Siri moet zo’n beetje alles kunnen zeggen in de Engelse taal, en dat kostte veel hard werk.
“Ik nam vier uur per dag op, vijf dagen per week gedurende de maand juli,” zegt Bennett. Voor een stemacteur is die werkdruk erg zwaar. “Dat is een lange tijd om constant te praten. Het gevolg is dat je moe wordt.”
De oorspronkelijke Siri “moest buitenaards klinken en een droog gevoel voor humor hebben,” zegt Bennett. Ze voegde dat toe aan haar kijk op het personage, zelfs als ze zich concentreerde op consistent en duidelijk blijven.
Voice acting vereist altijd enig technisch inzicht – zoals Bennett zegt, het gaat om “het kunnen lezen van 65 seconden tekst in 60 seconden.” Maar het opnemen van een computerstem als Siri is extra moeilijk. Deze marathon vocale sessies betroffen niet het lezen van volledige woorden of zinnen. In plaats daarvan nam ze de grondstoffen voor spraak op – basisgeluiden.
De techniek waarbij geavanceerde computerprogramma’s worden gebruikt om woorden en zinnen uit basisgeluiden op te bouwen, wordt geconcateneerde spraak genoemd (Vox-zustersite The Verge beschreef het proces van het koppelen van die geluiden in 2013). Het doel is om te proberen elke mogelijke klank op te nemen (meestal getrokken uit een syllable-lange bouwsteen) zodat ze kunnen worden samengevoegd in elke mogelijke combinatie voor elk mogelijk woord.
Om deze op te nemen, worden stemacteurs gedwongen om brabbelachtige zinnen te reciteren die alle verschillende geluiden van de Engelse taal bevatten.
In haar thuisstudio nam Bennett een paar zinnen voor mij op. Ze had een oud script voor een digitale stem bewaard dat ze eerder voor Lucent Technologies had gemaakt, inclusief absurde zinnen als “oil your mills jewel weed today.” Bennett noemt het “digitale stempoëzie”, en ze stelt voor om tijdens het luisteren een glas wijn te pakken:
Het proces kan een tijdje duren, omdat het doel is om zoveel mogelijk variaties en soorten geluiden op te nemen, om zo een betere en menselijker klinkende spraak te maken. Acteurs als Bennett moeten bijvoorbeeld niet alleen een “s”-klank opnemen, maar ook de verschillende “s”-klanken in woorden als “sissen”, “slangen” en “roos”. Uiteindelijk worden de geluiden door een computer aan elkaar geplakt, met als doel een steeds natuurlijker geluid.
Bennett denkt dat sommige nieuwe opnames waarschijnlijk in de huidige versie van Siri zijn verwerkt, om het te verbeteren en gebruikers meer opties te bieden. Dat betekent dat de digitale assistent die je nu op je telefoon hoort waarschijnlijk een mashup is van verschillende menselijke stemmen, waaronder Bennett en anderen, aan elkaar geregen tot één behulpzaam programma.
Nieuwe technologie heeft stemacteren tot een zeer concurrerende business gemaakt
Toch is het belangrijker dan ooit dat Bennett kan zeggen dat zij de oorspronkelijke stem van Siri was. Het dient als een unieke markering in een sector waar er altijd nieuw talent is dat de volgende klus probeert te klaren. En die competitieve geest strekt zich uit tot Bennetts thuisstudio, waar elke audiofiel jaloers op zou zijn.
Het is gebouwd op rubberen poten om geluid te absorberen, en ze gebruikt het elke dag. Er is schuim aan de muur, een bureau met een voorversterker en mixer, en een Neumann TLM 193 microfoon (gemiddelde prijs: $1.599). Zittend op een verstelbare kruk leest ze haar scripts voor op een iPad en heeft ze een computermonitor om te zien hoe de opnames verlopen.
Ze heeft serieus geïnvesteerd in haar studio omdat het grootste deel van haar opnames thuis gebeurt, wat typerend is voor veel stemacteurs. Dankzij wereldwijde verbindingen van hoge kwaliteit – begonnen met ISDN-lijnen van hoge kwaliteit en uitgebreid tot de huidige glasvezelbreedband – is het voor acteurs over de hele wereld mogelijk om vanuit huis op te nemen en met elkaar te concurreren. Zoals in zoveel bedrijfstakken heeft de technologie alles veranderd voor stemacteurs.
“Je kunt een talent overal vandaan kiezen en die persoon overal vandaan opnemen,” zegt Bennett. “Alle mensen uit een stad waren niet langer beperkt tot hun lokale groep van acteurs. Ze konden overal ter wereld terecht.”
Zij installeerde haar ISDN in 1996, en om concurrerend te blijven, deden veel stemacteurs hetzelfde. De technologie heeft de sector grote kansen gebracht, maar ook een hevigere concurrentie.
Maar hoe concurrerend voice-over ook is, stemmen zullen altijd nodig zijn
Bennett zorgt goed voor haar stem: ze drinkt soms lauw water in plaats van thee, neemt af en toe wat honing, en vermijdt het schrapen van haar keel.
Maar er is geen magische strategie om stemacteur te worden, want iets aan de stem is aangeboren.
“Ik denk dat stemmen heel persoonlijk zijn,” zegt ze, “en ik denk dat dat een van de redenen is waarom mensen zo dol zijn op Siri en alle andere digitale assistenten, omdat ze een beetje menselijkheid brengen in al die machines waar we mee te maken hebben.”
Dat zal waarschijnlijk niet veranderen, zelfs niet als gecomputeriseerde stemmen steeds gewoner worden. Iets aan een stem kan niet worden gesimuleerd. Dat is heel duidelijk als je met Susan Bennett praat en haar net zo hoort klinken als Siri. Maar het wordt nog duidelijker als ze uit haar rol valt en begint te lachen.