Dieser Artikel wurde ursprünglich von Phil Edwards auf VOX veröffentlicht
Manchmal ist es schwer zu begreifen, dass die zahllosen elektronischen Stimmen, die wir hören, von der Aufforderung an der Selbstzahlerkasse bis zum körperlosen Ton, der aus unseren Telefonen kommt, von einer echten Person stammen. Woher kommen diese Stimmen? Um das herauszufinden, habe ich die Originalstimme der iPhone-Assistentin Siri, Susan Bennett, befragt.
Sie ist eine Synchronsprecherin, die neben ihrem ikonischen iPhone-Werk auch Werbespots macht, singt und vielen anderen Unternehmen und Diensten ihre Stimme leiht. Und sie erklärt, wie ihre einzigartige Branche funktioniert.
- Wie Susan Bennett die Originalstimme von Siri wurde – und was das über die Synchronisation aussagt
- Wie eine digitale Assistentin wie Siri aufgenommen wird
- Neue Technologien haben den Beruf des Synchronsprechers zu einem hart umkämpften Geschäft gemacht
- Aber so wettbewerbsfähig Voiceover auch ist, Stimmen werden immer gebraucht
Wie Susan Bennett die Originalstimme von Siri wurde – und was das über die Synchronisation aussagt
Ein Gespräch mit Susan Bennett ist surreal – in einem Moment klingt sie völlig normal, außer dass sie die angenehmste Stimme hat, die man je gehört hat. Aber im Handumdrehen kann sie die Siri-Stimme einschalten, und man denkt, man spricht mit seinem Computer.
Bennett stammt aus Burlington, Vermont, und zog in jungen Jahren nach Upstate New York, wo sie einen neutralen amerikanischen Sprachstil entwickelte. Nach ihrem Schauspiel- und Gesangsstudium an der Brown University ging sie ins schrullige Atlanta, wo ihre klare, akzentfreie Stimme ihr einen einzigartigen Wettbewerbsvorteil verschafft.
So oder so vermenschlicht sie seit Jahrzehnten Computer
In den 1970er Jahren gelang Bennett der Durchbruch als Synchronsprecherin, indem sie einen ganz anderen Computer als Siri vermenschlichte: Sie sang den Jingle für Tillie the All Time Teller, einen der ersten Geldautomaten. Jahrzehntelang nahm Bennett die Texte für Anrufbeantworter, Beschallungsanlagen und andere Kunden auf, die von großen Unternehmen bis hin zu kleinen und lokalen Firmen reichen. Diese Erfahrung führte sie zu ihrem bekanntesten Auftritt.
Als Bennett 2005 die Stimme für Siri aufnahm, ahnte sie nicht, dass diese auf dem iPhone landen würde. Sie nahm sie auf, lange bevor das Unternehmen, das Siri entwickelt hatte, von Apple gekauft wurde, und sie wusste nicht einmal, dass sie die Stimme von Siri war, bis das Produkt 2010 im App Store und 2011 auf dem iPhone 4S erschien. Aber so nahtlos, wie Bennett als Siri klingt, war es ein überraschend schwieriges Projekt, ihre Stimme einzufangen.
Wie eine digitale Assistentin wie Siri aufgenommen wird
Siri muss so ziemlich alles in englischer Sprache sagen können, und das erforderte eine Menge harter Arbeit.
„Ich habe vier Stunden am Tag, fünf Tage die Woche im Monat Juli aufgenommen“, sagt Bennett. Für einen Synchronsprecher ist dieses Arbeitspensum sehr anstrengend. „Das ist eine lange Zeit, in der man ständig spricht. Das macht müde.“
Die ursprüngliche Siri „sollte jenseitig klingen und einen trockenen Sinn für Humor haben“, sagt Bennett. Sie fügte das zu ihrer Interpretation der Figur hinzu, auch wenn sie sich darauf konzentrierte, konsistent und klar zu bleiben.
Sprechrollen erfordern immer ein gewisses technisches Geschick – wie Bennett sagt, geht es darum, „einen Text im Wert von 65 Sekunden in 60 Sekunden lesen zu können.“ Aber die Aufnahme für eine Computerstimme wie Siri ist besonders schwierig. Bei diesen Marathon-Gesangssitzungen ging es nicht darum, ganze Wörter oder Sätze zu lesen. Stattdessen nahm sie das Rohmaterial für die Sprache auf – Grundgeräusche.
Die Technik, bei der ausgeklügelte Computerprogramme aus Grundgeräuschen Wörter und Sätze bilden, wird als verkettete Sprache bezeichnet (die Vox-Schwesterseite The Verge beschrieb den Prozess der Verknüpfung dieser Geräusche im Jahr 2013). Das Ziel ist es, alle möglichen Laute (in der Regel aus einem silbenlangen Baustein) aufzunehmen, damit sie in jeder möglichen Kombination für jedes mögliche Wort zusammengesetzt werden können.
Um diese aufzunehmen, werden die Sprecher gezwungen, kauderwelschartige Sätze zu rezitieren, die alle verschiedenen Laute der englischen Sprache enthalten.
In ihrem Heimstudio nahm Bennett ein paar Sätze für mich auf. Sie hatte ein altes Skript für eine digitale Stimme aufbewahrt, das sie früher für Lucent Technologies geschrieben hatte, mit absurden Sätzen wie „oil your mills jewel weed today“. Bennett nennt es „digitale Sprachpoesie“, und sie empfiehlt, sich beim Zuhören ein Glas Wein zu gönnen:
Der Prozess kann eine Weile dauern, weil das Ziel darin besteht, so viele verschiedene Arten von Klängen wie möglich aufzunehmen, um eine bessere und menschlicher klingende Sprache zu erhalten. Schauspieler wie Bennett müssen zum Beispiel nicht nur einen „s“-Laut aufnehmen, sondern die verschiedenen „s“-Laute in Wörtern wie „Zischen“, „Schlangen“ und „Rose“. Schließlich werden die Geräusche von einem Computer zusammengefügt, mit dem Ziel, einen immer natürlicheren Klang zu erzielen.
Bennett glaubt, dass einige neue Aufnahmen wahrscheinlich in die aktuelle Version von Siri eingeflossen sind, um sie zu verbessern und den Nutzern mehr Optionen zu bieten. Das bedeutet, dass die digitale Assistentin, die Sie heute auf Ihrem Telefon hören, wahrscheinlich ein Mashup verschiedener menschlicher Stimmen ist, darunter Bennett und andere, die zu einem hilfreichen Programm zusammengefügt wurden.
Neue Technologien haben den Beruf des Synchronsprechers zu einem hart umkämpften Geschäft gemacht
Allerdings ist es wichtiger denn je, dass Bennett sagen kann, sie sei die Originalstimme von Siri. Das ist ein einzigartiges Zeichen in einer Branche, in der immer wieder neue Talente um den nächsten Auftritt kämpfen. Und dieser Wettbewerbsgeist erstreckt sich auch auf Bennetts Heimstudio, das jeden Audiophilen neidisch machen würde.
Es steht auf Gummifüßen, um den Schall zu absorbieren, und sie benutzt es jeden Tag. Es gibt Schaumstoff an der Wand, ein Pult mit Vorverstärker und Mischpult und ein Neumann TLM 193 Mikrofon (Durchschnittspreis: 1.599 Dollar). Auf einem verstellbaren Hocker sitzend, liest sie ihre Skripte von einem iPad ab und hat einen Computermonitor, um zu sehen, wie die Aufnahmen laufen.
Sie hat viel in ihr Studio investiert, weil sie den Großteil ihrer Aufnahmen zu Hause macht, was für viele Synchronsprecher typisch ist. Dank weltweiter, qualitativ hochwertiger Verbindungen – angefangen bei hochwertigen ISDN-Leitungen bis hin zum heutigen Glasfaser-Breitband – ist es für Schauspieler auf der ganzen Welt möglich, von zu Hause aus aufzunehmen und miteinander zu konkurrieren. Wie in so vielen Branchen hat die Technologie auch für Synchronsprecher alles verändert.
„Man kann ein Talent von überall her auswählen und diese Person von überall her aufnehmen“, sagt Bennett. „Alle Leute aus einer beliebigen Stadt waren nicht mehr auf ihre lokale Gruppe von Schauspielern beschränkt. Sie konnten überall auf der Welt hingehen.“
Sie installierte 1996 ihr ISDN, und um wettbewerbsfähig zu bleiben, taten viele Synchronsprecher dasselbe. Die Technologie hat der Branche große Chancen eröffnet, aber auch den Wettbewerb verschärft.
Aber so wettbewerbsfähig Voiceover auch ist, Stimmen werden immer gebraucht
Bennett achtet auf ihre Stimme: Sie trinkt manchmal lauwarmes Wasser statt Tee, isst ab und zu etwas Honig und räuspert sich nicht.
Aber es gibt keine magische Strategie, um ein Synchronsprecher zu werden, denn etwas an der Stimme ist angeboren.
„Ich glaube, dass Stimmen sehr persönlich sind“, sagt sie, „und ich glaube, das ist einer der Gründe, warum die Leute Siri und all die anderen digitalen Assistenten lieben, denn sie bringen ein bisschen Menschlichkeit in all diese Maschinen, mit denen wir zu tun haben.“
Das wird sich wahrscheinlich nicht ändern, selbst wenn Computerstimmen immer häufiger werden. Eine Stimme kann nicht simuliert werden. Das wird sehr deutlich, wenn man mit Susan Bennett spricht und hört, dass sie genau wie Siri klingt. Aber noch deutlicher wird es, wenn sie aus der Rolle fällt und zu lachen beginnt.