Denna artikel publicerades ursprungligen av Phil Edwards på VOX
Ibland är det svårt att uppskatta att de oräkneliga elektroniska röster vi hör, från uppmaningen vid självutcheckningen till den okroppsliga tonen som kommer från våra telefoner, har tillhandahållits av en riktig person. Varifrån kommer dessa röster? För att ta reda på det frågade jag den ursprungliga rösten till iPhone-assistenten Siri, Susan Bennett.
Hon är en röstskådespelare som, förutom sitt ikoniska iPhone-verk, gör reklamfilmer, sjunger och ger röster åt många andra företag och tjänster. Och hon förklarade precis hur hennes unika bransch fungerar.
Hur Susan Bennett blev originalrösten till Siri – och vad det säger om röstskådespeleri
Att prata med Susan Bennett är surrealistiskt – i ett ögonblick låter hon helt normal, förutom att hon har den trevligaste röst du någonsin hört. Men på ett ögonblick kan hon slå på Siri-rösten, och du börjar tro att du pratar med din dator.
Bennett är född i Burlington, Vermont, som flyttade till norra New York när hon var ung, och hennes bakgrund gav henne en neutral amerikansk talstil. Efter skådespeleri och sång vid Brown University åkte hon till twangy Atlanta, där hennes klara, oaccentuerade röst har gett henne en unik konkurrensfördel.
På ett eller annat sätt har hon förmänskligat datorer i årtionden
På 1970-talet slog Bennett igenom som röstskådespelare genom att förmänskliga en helt annan dator än Siri, genom att sjunga jingeln för Tillie the All Time Teller, en av de första uttagsautomaterna. I årtionden har Bennett spelat in berättelser för svarstjänster, PA-system och andra kunder som sträcker sig från stora och företag till små och lokala. Den erfarenheten ledde henne till hennes mest kända uppdrag.
När Bennett spelade in rösten till Siri 2005 hade hon ingen aning om att den skulle hamna på iPhone. Hon spelade in den långt innan företaget som byggde Siri köptes av Apple, och hon visste inte ens att hon var Siris röst förrän produkten debuterade i App Store 2010 och sedan dök upp på iPhone 4S 2011. Men hur sömlös Bennett än låter som Siri var det ett överraskande svårt projekt att fånga hennes röst.
Hur en digital assistent som Siri spelas in
Siri måste kunna säga i stort sett allt som finns på det engelska språket, och det krävde mycket hårt arbete.
”Jag spelade in fyra timmar om dagen, fem dagar i veckan under juli månad”, säger Bennett. För en röstskådespelare innebär den arbetsbördan en stor påfrestning. ”Det är en lång tid att prata konstant. Därför blir man trött.”
Den ursprungliga Siri ”skulle låta världsfrånvänd och ha ett torrt sinne för humor”, säger Bennett. Hon lade till det till sin tolkning av karaktären, även om hon fokuserade på att vara konsekvent och tydlig.
Röstskådespeleri kräver alltid ett visst tekniskt kunnande – som Bennett säger handlar det om att ”kunna läsa 65 sekunders text på 60 sekunder”. Men att spela in för en datoriserad röst som Siri är särskilt svårt. Dessa maratonröstningssessioner innebar inte att man läste hela ord eller meningar. I stället spelade hon in råmaterialet för tal – grundljud.
Tekniken där man använder sofistikerade datorprogram för att bygga upp ord och meningar från grundljud kallas förkonkaterat tal (Vox systersajt The Verge beskrev processen med att koppla ihop dessa ljud 2013). Målet är att försöka inkludera alla möjliga ljud (vanligtvis hämtade från en stavelselång byggsten) så att de kan sättas ihop i alla möjliga kombinationer för alla möjliga ord.
För att spela in dessa tvingas röstskådespelare att recitera snobbarliknande meningar som innehåller alla det engelska språkets olika ljud.
I sin hemstudio spelade Bennett in några fraser för mig. Hon hade sparat ett gammalt manus för en digital röst som hon tidigare hade gjort för Lucent Technologies, inklusive absurda fraser som ”olja din kvarnjuvel ogräs idag”. Bennett kallar det för ”digital röstpoesi”, och hon föreslår att du tar ett glas vin medan du lyssnar:
Processen kan ta ett tag eftersom målet är att spela in så många olika varianter och typer av ljud som möjligt, för att få fram ett bättre och mer mänskligt klingande tal. Skådespelare som Bennett behöver till exempel inte bara spela in ett ”s”-ljud – de behöver spela in de varierande ”s”-ljuden i ord som ”hiss”, ”ormar” och ”ros”. Till slut sammanfogas ljuden av en dator, med målet att få ett allt mer naturalistiskt ljud.
Bennett tror att en del nya inspelningar förmodligen har införlivats i den nuvarande versionen av Siri, för att förbättra den och ge fler alternativ för användarna. Det betyder att den digitala assistent som du hör i din telefon idag troligen är en blandning av olika mänskliga röster, inklusive Bennett och andra, som har sammanfogats till ett hjälpsamt program.
Ny teknik har gjort röstskådespeleri till en mycket konkurrensutsatt bransch
Sedan dess är det viktigare än någonsin att Bennett kan säga att hon var den ursprungliga rösten till Siri. Det fungerar som en unik markering i en bransch där det alltid finns nya talanger som försöker få nästa jobb. Och denna tävlingsanda sträcker sig till Bennetts hemmastudio, som skulle göra vilken audiofil som helst avundsjuk.
Den är byggd på gummifötter för att absorbera ljudet, och hon använder den varje dag. Det finns skum på väggen, ett skrivbord med förförstärkare och mixer och en Neumann TLM 193-mikrofon (genomsnittspris: 1 599 dollar). Hon sitter på en justerbar pall och läser sina manus från en iPad och har en datorskärm för att se hur inspelningen går.
Hon har investerat seriöst i sin studio eftersom majoriteten av hennes inspelningar sker hemma, vilket är typiskt för många röstskådespelare. Tack vare världsomspännande högkvalitativa anslutningar – som började med högkvalitativa ISDN-linjer och som sträcker sig till dagens fiberoptiska bredband – är det möjligt för skådespelare runt om i världen att spela in hemifrån och konkurrera med varandra. Som så många andra branscher har tekniken förändrat allt för röstskådespelare.
”Du kan välja en talang var som helst och spela in den personen var som helst”, säger Bennett. ”Alla människor från en stad var inte längre begränsade till sin lokala skådespelargrupp. De kunde gå vart som helst i världen.”
Hon installerade sitt ISDN 1996, och för att förbli konkurrenskraftiga gjorde många röstskådespelare detsamma. Tekniken har gett branschen stora möjligheter, men också hårdare konkurrens.
Men hur konkurrenskraftig voiceover än är, kommer röster alltid att behövas
Bennett tar hand om sin röst: hon dricker ljummet vatten ibland i stället för te, äter lite honung då och då och undviker att skrapa sig i halsen.
Men det finns ingen magisk strategi för att bli röstskådespelare, eftersom något med rösten är medfött.
”Jag tror att röster är mycket personliga”, säger hon, ”och jag tror att det är en av anledningarna till att folk älskar Siri och alla andra digitala assistenter, eftersom de för med sig en bit mänsklighet till alla de maskiner som vi hanterar.”
Det är osannolikt att det kommer att förändras, även om datoriserade röster blir allt vanligare. Något med en röst kan inte simuleras. Det är väldigt tydligt när man pratar med Susan Bennett och hör henne låta precis som Siri. Men det är ännu tydligare när hon bryter karaktär och börjar skratta.