Cet article a été initialement publié par Phil Edwards sur VOX
Parfois, il est difficile d’apprécier que les innombrables voix électroniques que nous entendons, de l’invite à la caisse automatique au ton désincarné provenant de nos téléphones, ont été fournies par une vraie personne. D’où viennent ces voix ? Pour le savoir, j’ai demandé à la voix originale de l’assistant Siri de l’iPhone, Susan Bennett.
C’est une comédienne vocale qui, en plus de son œuvre iconique sur l’iPhone, fait des publicités, chante et fournit des voix pour de nombreuses autres entreprises et services. Et elle a expliqué comment fonctionne son industrie unique.
- Comment Susan Bennett est devenue la voix originale de Siri – et ce que cela dit sur le doublage
- Comment un assistant numérique comme Siri est enregistré
- Les nouvelles technologies ont fait de l’interprétation vocale un métier très compétitif
- Mais aussi compétitif que soit le voiceover, les voix seront toujours nécessaires
Comment Susan Bennett est devenue la voix originale de Siri – et ce que cela dit sur le doublage
Parler à Susan Bennett est surréaliste – à un moment, elle semble tout à fait normale, sauf qu’elle a la voix la plus agréable que vous ayez jamais entendue. Mais en un éclair, elle peut allumer la voix de Siri, et vous commencez à penser que vous parlez à votre ordinateur.
Bennett est originaire de Burlington, dans le Vermont, qui a déménagé dans le nord de l’État de New York quand elle était jeune, et son parcours lui a donné un style de parole américain neutre. Après avoir fait du théâtre et du chant à l’université de Brown, elle s’est rendue à la twangy Atlanta, où sa voix claire et sans accent lui a donné un avantage concurrentiel unique.
D’une manière ou d’une autre, elle humanise les ordinateurs depuis des décennies
Dans les années 1970, Bennett a percé dans le domaine du doublage en humanisant un ordinateur très différent de Siri, en chantant le jingle de Tillie the All Time Teller, l’un des premiers distributeurs automatiques de billets. Pendant des décennies, Bennett a enregistré la narration pour des services de réponse téléphonique, des systèmes de sonorisation et d’autres clients, qu’il s’agisse de grandes entreprises ou de petites entreprises locales. Cette expérience l’a conduite à son concert le plus reconnaissable.
Lorsque Bennett a enregistré la voix de Siri en 2005, elle n’avait aucune idée qu’elle se retrouverait sur l’iPhone. Elle l’a enregistrée bien avant que la société qui a construit Siri soit rachetée par Apple, et elle ne savait même pas qu’elle était la voix de Siri jusqu’à ce que le produit fasse ses débuts sur l’App Store en 2010, puis apparaisse sur l’iPhone 4S en 2011. Mais aussi fluide que Bennett sonne en tant que Siri, ce fut un projet étonnamment difficile de capturer sa voix.
Comment un assistant numérique comme Siri est enregistré
Siri doit être capable de dire à peu près tout ce qui est en langue anglaise, et cela a demandé beaucoup de travail.
« J’ai enregistré quatre heures par jour, cinq jours par semaine pendant le mois de juillet », dit Bennett. Pour un acteur vocal, cette charge de travail provoque beaucoup de tension. « C’est une longue période pour parler constamment. Par conséquent, vous vous fatiguez. »
La Siri originale « devait avoir une sonorité d’un autre monde et un sens de l’humour sec », dit Bennett. Elle a ajouté cela à sa prise en charge du personnage, même si elle s’est attachée à rester cohérente et claire.
Le métier de comédien vocal nécessite toujours une certaine acuité technique – comme le dit Bennett, il s’agit de « pouvoir lire 65 secondes de texte en 60 secondes. » Mais enregistrer pour une voix informatisée comme Siri est particulièrement difficile. Ces sessions vocales marathon n’impliquaient pas la lecture de mots ou de phrases complètes. Au lieu de cela, elle a enregistré les matières premières de la parole – les sons de base.
La technique consistant à utiliser des programmes informatiques sophistiqués pour construire des mots et des phrases à partir de sons de base est appelée parole concaténée (le site frère de Vox, The Verge, a décrit le processus de liaison de ces sons en 2013). Le but est d’essayer d’inclure tous les sons possibles (généralement tirés d’un bloc de construction de la longueur d’une syllabe) afin qu’ils puissent être assemblés dans toutes les combinaisons possibles pour tous les mots possibles.
Pour les enregistrer, les acteurs vocaux sont contraints de réciter des phrases chargées de charabia qui incluent tous les différents sons de la langue anglaise.
Dans son home studio, Bennett a enregistré quelques phrases pour moi. Elle avait sauvegardé un vieux script pour une voix numérique qu’elle avait fait plus tôt pour Lucent Technologies, y compris des phrases absurdes comme « huiler votre bijou de moulin aujourd’hui ». Bennett appelle cela de la « poésie de la voix numérique », et elle vous suggère de prendre un verre de vin en l’écoutant :
Le processus peut prendre un certain temps, car le but est d’enregistrer autant de variétés et de types de sons que possible, afin d’obtenir un discours de meilleure qualité et plus humain. Par exemple, les acteurs comme Bennett n’ont pas seulement besoin d’enregistrer un son « s » – ils doivent enregistrer les différents sons « s » dans des mots comme « sifflement », « serpents » et « rose ». Finalement, les sons sont assemblés par un ordinateur, dans le but d’obtenir un son toujours plus naturaliste.
Bennett pense que certains nouveaux enregistrements ont probablement été incorporés dans la version actuelle de Siri, afin de l’améliorer et de fournir plus d’options aux utilisateurs. Cela signifie que l’assistant numérique que vous entendez sur votre téléphone aujourd’hui est probablement un mashup de différentes voix humaines, dont celle de Bennett et d’autres, ficelées en un seul programme utile.
Les nouvelles technologies ont fait de l’interprétation vocale un métier très compétitif
Pour autant, il est plus important que jamais que Bennett puisse dire qu’elle était la voix originale de Siri. C’est un repère unique dans un secteur où il y a toujours de nouveaux talents qui essaient de décrocher le prochain contrat. Et cet esprit de compétition s’étend au home studio de Bennett, qui ferait pâlir d’envie n’importe quel audiophile.
Il est construit sur des pieds en caoutchouc pour absorber le son, et elle l’utilise tous les jours. Il y a de la mousse au mur, un bureau avec un préampli et une table de mixage, et un microphone Neumann TLM 193 (prix moyen : 1 599 $). Assise sur un tabouret réglable, elle lit ses scripts sur un iPad et dispose d’un écran d’ordinateur pour voir comment se déroule l’enregistrement.
Elle a sérieusement investi dans son studio parce qu’une majorité de ses enregistrements ont lieu à domicile, ce qui est typique de nombreux acteurs vocaux. Grâce aux connexions mondiales de haute qualité – qui ont commencé avec des lignes RNIS de haute qualité et se sont étendues au haut débit à fibre optique d’aujourd’hui – il est possible pour les acteurs du monde entier d’enregistrer depuis chez eux et de se faire concurrence. Comme pour tant d’industries, la technologie a tout changé pour les acteurs vocaux.
« Vous pouviez choisir un talent de n’importe où et enregistrer cette personne de n’importe où ailleurs », dit Bennett. « Tous les gens de n’importe quelle ville n’étaient plus limités à leur groupe local d’acteurs. Ils pouvaient aller n’importe où dans le monde. »
Elle a installé son ISDN en 1996, et pour rester compétitifs, de nombreux acteurs vocaux ont fait de même. La technologie a apporté de grandes opportunités au métier, ainsi qu’une concurrence plus rude.
Mais aussi compétitif que soit le voiceover, les voix seront toujours nécessaires
Bennett prend soin de sa voix : en buvant parfois de l’eau tiède au lieu d’un thé, en prenant de temps en temps du miel et en évitant de se racler la gorge.
Mais il n’y a pas de stratégie magique pour devenir acteur vocal, car quelque chose de la voix est inné.
« Je pense que les voix sont très personnelles, dit-elle, et je pense que c’est l’une des raisons pour lesquelles les gens aiment Siri et tous les autres assistants numériques, parce qu’ils apportent un peu d’humanité à toutes ces machines avec lesquelles nous travaillons. »
Cela ne devrait pas changer, même si les voix informatisées deviennent plus courantes. Quelque chose à propos d’une voix ne peut pas être simulé. C’est très clair lorsque vous parlez à Susan Bennett et que vous l’entendez parler exactement comme Siri. Mais c’est encore plus clair quand elle rompt le caractère et se met à rire.