Prawdziwy głos Siri wyjaśnia sztukę podkładania głosu

Ten artykuł został pierwotnie opublikowany przez Phila Edwardsa na VOX

Czasami trudno jest docenić, że niezliczone elektroniczne głosy, które słyszymy, od podpowiedzi przy kasie do bezcielesnego tonu płynącego z naszych telefonów, zostały dostarczone przez prawdziwą osobę. Skąd się wzięły te głosy? Aby się tego dowiedzieć, zapytałem Susan Bennett, oryginalną odtwórczynię głosu asystentki Siri z iPhone’a.

Jest aktorką głosową, która oprócz swojego ikonicznego dorobku z iPhone’a robi reklamy, śpiewa i podkłada głosy dla wielu innych firm i usług. I wyjaśniła, jak działa jej wyjątkowa branża.

Jak Susan Bennett została oryginalnym głosem Siri – i co to mówi o aktorstwie głosowym

Susan Bennett w swoim domowym studiu.
Susan Bennett w swoim domowym studio.

Rozmowa z Susan Bennett jest surrealistyczna – w jednej chwili brzmi zupełnie normalnie, tyle że ma najprzyjemniejszy głos, jaki kiedykolwiek słyszeliście. Ale w mgnieniu oka potrafi włączyć głos Siri i zaczynasz myśleć, że rozmawiasz ze swoim komputerem.

Bennett pochodzi z Burlington w stanie Vermont, ale w młodości przeniosła się do Nowego Jorku, a jej pochodzenie dało jej neutralny amerykański styl mówienia. Po studiach aktorskich i wokalnych na Uniwersytecie Browna wyjechała do tandetnej Atlanty, gdzie jej czysty, pozbawiony akcentów głos dał jej wyjątkową przewagę nad konkurencją.

W ten czy inny sposób uczłowiecza komputery od dziesięcioleci

W latach 70-tych Bennett rozpoczęła karierę jako aktorka głosowa, uczłowieczając zupełnie inny komputer niż Siri, śpiewając dżingiel dla Tillie the All Time Teller, jednego z pierwszych bankomatów. Przez dziesięciolecia Bennett nagrywała narrację dla usług automatycznej sekretarki, systemów PA i innych klientów, od dużych i korporacyjnych po małe i lokalne. To doświadczenie doprowadziło ją do jej najbardziej rozpoznawalnego występu.

Gdy Bennett nagrała głos dla Siri w 2005 roku, nie miała pojęcia, że skończy się to na iPhonie. Nagrała go na długo przed firmą, która zbudowała Siri został kupiony przez Apple, a ona nawet nie wiedział, że była głosem Siri aż produkt zadebiutował w App Store w 2010 roku, a następnie pojawił się na iPhone 4S w 2011 roku. Ale tak płynnie jak Bennett brzmi jako Siri, to był zaskakująco trudny projekt, aby uchwycić jej głos.

Jak cyfrowy asystent taki jak Siri jest nagrywany

Siri musi być w stanie powiedzieć prawie wszystko w języku angielskim, a to wymagało dużo ciężkiej pracy.

„Nagrywałam cztery godziny dziennie, pięć dni w tygodniu przez miesiąc lipiec”, mówi Bennett. Dla aktora głosowego, takie obciążenie powoduje wiele stresu. „To bardzo dużo czasu, żeby ciągle mówić. W rezultacie stajesz się zmęczony.”

Oryginalna Siri „miała brzmieć jak z innego świata i mieć suche poczucie humoru” – mówi Bennett. Dodała to do swojego ujęcia postaci, nawet jeśli skupiła się na zachowaniu spójności i jasności.

Aktorstwo głosowe zawsze wymaga pewnej technicznej biegłości – jak mówi Bennett, chodzi o „umiejętność przeczytania 65-sekundowej kopii w 60 sekund”. Ale nagrywanie dla komputerowego głosu, takiego jak Siri, jest szczególnie trudne. Te maratońskie sesje wokalne nie polegały na czytaniu pełnych słów czy zdań. Zamiast tego nagrywała surowe materiały do mowy – podstawowe dźwięki.

Technika używania wyrafinowanych programów komputerowych do budowania słów i zdań z podstawowych dźwięków nazywana jest mową skatenizowaną (siostrzana strona Vox The Verge opisała proces łączenia tych dźwięków w 2013 roku). Celem jest próba włączenia każdego możliwego dźwięku (zwykle wyciągniętego z długiego sylabowego bloku konstrukcyjnego), aby można je było złożyć w każdej możliwej kombinacji dla każdego możliwego słowa.

Aktorzy głosowi są zmuszeni do recytowania bełkotliwych zdań, które zawierają wszystkie różne dźwięki języka angielskiego.

W swoim domowym studiu Bennett nagrała dla mnie kilka fraz. Zachowała stary skrypt dla cyfrowego głosu, który wcześniej wykonała dla Lucent Technologies, zawierający absurdalne zwroty, takie jak „oil your mills jewel weed today”. Bennett nazywa to „cyfrową poezją głosu” i sugeruje, abyś wypił kieliszek wina podczas słuchania:

Proces może zająć chwilę, ponieważ celem jest nagranie jak największej liczby odmian i typów dźwięków, aby stworzyć lepszą i bardziej ludzko brzmiącą mowę. Na przykład, aktorzy tacy jak Bennett nie muszą po prostu nagrywać dźwięku „s” – muszą nagrać różne dźwięki „s” w słowach takich jak „syczenie”, „węże” i „róża”. Ostatecznie, dźwięki są zszywane razem przez komputer, z celem coraz bardziej naturalistyczny dźwięk.

Bennett myśli niektóre nowe nagrania zostały prawdopodobnie włączone do obecnej wersji Siri, aby go poprawić i zapewnić więcej opcji dla użytkowników. Oznacza to, że cyfrowy asystent, którego słyszysz dziś na swoim telefonie, jest prawdopodobnie mashupem różnych ludzkich głosów, w tym Bennetta i innych, połączonych w jeden pomocny program.

Nowe technologie zmieniły aktorstwo głosowe w wysoce konkurencyjny biznes

Wyrafinowane studio domowe jest typowe dla aktora głosowego.

Wyrafinowane studio domowe jest typowe dla aktora głosowego.

Wciąż ważniejsze niż kiedykolwiek jest to, że Bennett może powiedzieć, że była oryginalnym głosem Siri. To służy jako unikalny marker w biznesie, gdzie zawsze jest nowy talent próbuje dostać następny koncert. A ten duch rywalizacji rozciąga się na domowe studio Bennett, którego pozazdrościłby każdy audiofil.

Zbudowane jest na gumowych nóżkach, aby pochłaniać dźwięk, a ona używa go codziennie. Na ścianie jest pianka, biurko z przedwzmacniaczem i mikserem oraz mikrofon Neumann TLM 193 (średnia cena: $1,599). Siedząc na regulowanym stołku, czyta swoje scenariusze z iPada i ma do dyspozycji monitor komputerowy, na którym widzi, jak przebiega nagrywanie.

Poważnie zainwestowała w swoje studio, ponieważ większość nagrań odbywa się w domu, co jest typowe dla wielu aktorów głosowych. Dzięki wysokiej jakości łączom na całym świecie – począwszy od wysokiej jakości linii ISDN, a skończywszy na dzisiejszych światłowodowych łączach szerokopasmowych – aktorzy z całego świata mogą nagrywać z domu i konkurować ze sobą. Jak w wielu branżach, technologia zmieniła wszystko dla aktorów głosowych.

„Można było wybrać talent z dowolnego miejsca i nagrywać go z dowolnego miejsca” – mówi Bennett. „Wszyscy ludzie z dowolnego miasta nie byli już ograniczeni do swojej lokalnej grupy aktorów. Mogli pojechać w dowolne miejsce na świecie.”

Zainstalowała swój ISDN w 1996 roku, a aby pozostać konkurencyjnym, wielu aktorów głosowych zrobiło to samo. Technologia przyniosła duże możliwości dla branży, jak również ostrzejszą konkurencję.

Ale tak konkurencyjne jak voiceover jest, głosy zawsze będą potrzebne

Siri, gotowa odpowiedzieć na Twoje pytania w 2011 roku.

Hadrian/

Siri, gotowa do odpowiedzi na Wasze pytania w 2011 roku.

Bennett dba o swój głos: pijąc czasem zamiast herbaty letnią wodę, od czasu do czasu popijając miodem i unikając czyszczenia gardła.

Ale nie ma magicznej strategii na zostanie aktorem głosowym, ponieważ coś w głosie jest wrodzone.

„CYFROWI ASYSTENCI WNOSZĄ ODROBINĘ CZŁOWIECZEŃSTWA DO WSZYSTKICH MASZYN, Z KTÓRYMI MAMY DO czynienia”

„Myślę, że głosy są bardzo osobiste,” mówi, „i myślę, że to jeden z powodów, dla których ludzie kochają Siri i wszystkich innych cyfrowych asystentów, ponieważ wnoszą odrobinę człowieczeństwa do wszystkich tych maszyn, z którymi mamy do czynienia.”

To się raczej nie zmieni, nawet gdy komputerowe głosy staną się bardziej powszechne. Coś w głosie nie może być symulowane. Jest to bardzo jasne, gdy rozmawiasz z Susan Bennett i słyszysz, że brzmi tak samo jak Siri. Ale jeszcze wyraźniej widać to, gdy Susan Bennett zrywa się i zaczyna się śmiać.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *