Exprimer une émotion à travers la typographie avec l’IA

Traduire la prosodie en typographie

Un article récent du Brésil propose un système de typographie modulée par la parole qui pourrait potentiellement incorporer une telle prosodie, et d’autres composants paralinguistiques, directement dans le discours sous-titré, ajoutant une dimension d’émotion mal capturée par l’ajout d’adjectifs tels que [Shouting]ou les autres astuces « plates » disponibles pour les conventions de sous-titrage des sous-titres codés.

«Nous proposons un nouveau modèle de typographie modulée par la parole, où les caractéristiques acoustiques de la parole sont utilisées pour moduler l’apparence visuelle du texte. Cela pourrait permettre à une transcription d’énoncés donnée de représenter non seulement les mots prononcés, mais aussi la manière dont ils ont été prononcés.

« Avec cela, nous espérons découvrir des paramètres typographiques qui peuvent être généralement reconnus comme des proxys visuels pour les caractéristiques prosodiques d’amplitude, de hauteur et de durée. »

Le flux de travail qui translittère la prosodie en style typographique. Visant à produire le système le plus polyvalent et le plus largement déployable possible, les auteurs se sont limités au décalage de ligne de base, au crénage et à l’audace, ce dernier étant fourni par la polyvalence d’une police de caractères ouverte. Source : https://arxiv.org/pdf/2202.10631.pdf

Le papier est intitulé Des braillements, des chuchotements et des jappements cachés : peut-on faire en sorte que le texte sonne plus que ses mots ?et vient de Calua de Lacerda Pataca et de Paula Dornhofer Paro Costa, deux chercheuses de l’Universidade Estadual de Campinas au Brésil.

Mots en gras

Bien que l’objectif plus large du projet soit de développer des systèmes capables de transmettre la prosodie et d’autres caractéristiques linguistiques paramétriques dans le sous-titrage, les auteurs pensent également qu’un système de cette nature pourrait éventuellement développer un public plus large dans le monde des entendants.

Il existe de nombreuses initiatives antérieures dans cet espace, y compris un projet de 1983 qui proposait un système de sous-titrage pouvant inclure effets spéciaux, couleurs et majuscules [to represent] la riche information tonale refusée aux enfants sourds[.].

En revanche, le projet brésilien est capable de tirer parti à la fois de la transcription automatisée et des nouveaux développements de la reconnaissance des affects, qui se combinent pour permettre un flux de travail capable d’importer et de caractériser les composants d’une bande sonore de la parole.

Une fois les caractéristiques prosodiques extraites et traitées, elles sont mappées sur les horodatages des mots du discours, produisant des jetons qui peuvent ensuite être utilisés pour appliquer une modulation basée sur des règles de la typographie des sous-titres (voir l’image ci-dessus).

Ce résultat peut représenter visuellement la mesure dans laquelle une syllabe particulière pourrait être prolongée, chuchotée, accentuée ou autrement contenir des informations contextuelles qui seraient perdues dans une transcription brute.

Dès la phase de test du projet, notez la façon dont le crénage (l’espace entre les lettres d’un mot) a été élargi pour refléter une prononciation prolongée.

Les auteurs précisent que leur travail n’est pas destiné à contribuer directement à la reconnaissance des émotions et à affecter la recherche sur la reconnaissance, mais cherche plutôt à classer les caractéristiques de la parole et à les représenter avec une gamme simple et limitée de nouvelles conventions visuelles.

À tout le moins, l’accent supplémentaire que le système fournit lève l’ambiguïté des phrases où l’objet de l’action peut ne pas être clair pour les téléspectateurs qui ne peuvent pas entendre le son (soit en raison d’un handicap, soit des circonstances de lecture, telles que des environnements bruyants).

Pour emprunter mon propre exemple de 2017, qui a examiné la façon dont les systèmes d’apprentissage automatique peuvent également avoir du mal à comprendre où se situent l’objet et l’action dans une phrase, il est facile de voir à quel point l’accent peut radicalement changer le sens de même une simple phrase :

je n’a pas volé ça. (Quelqu’un d’autre l’a volé)
je n’a pas voler ça, (je nie l’allégation selon laquelle je l’ai volé)
je n’ai pas voler ce. (Je le possède, le vol ne s’applique pas)
je n’ai pas volé ce. (Mais j’ai volé autre chose)

Potentiellement, un flux de travail mécaniste prosodie>typographie tel que le suggèrent les auteurs brésiliens pourrait également être utile en tant que complément au développement d’ensembles de données pour la recherche sur l’informatique affective, car il facilite le traitement de données purement textuelles qui intègrent néanmoins des éléments paralinguistiques pré-inférés. dimensions.

De plus, les chercheurs notent que la charge utile linguistique supplémentaire du texte sensible à la prosodie pourrait être utile dans une gamme de tâches basées sur la PNL, y compris l’évaluation de la satisfaction des clients, et pour l’inférence de la dépression à partir du contenu du texte.

Typographie élastique

Le cadre développé par les chercheurs offre une variation dans le décalage de la ligne de base, où une lettre peut être supérieure ou inférieure par rapport à la « ligne de base » sur laquelle repose la phrase ; le crénage, où l’espace entre les lettres d’un mot peut être contracté ou allongé ; et font-weight (gras).

Ces trois styles correspondent aux caractéristiques extraites du discours auxquelles le projet s’est limité : respectivement, terrain, duréeet ordre de grandeur.

La progression du style sur une phrase. Dans #1, nous voyons les limites des syllabes qui ont été définies dans le processus d’extraction. Dans #2, nous voyons une représentation de chacune des trois modulations (amplitude|poids, crénage|durée et hauteur|décalage de la ligne de base), appliquées individuellement. Dans #3, nous voyons les modulations typographiques combinées dans la sortie finale, telle que présentée aux 117 participants à un essai du système.

Étant donné qu’une seule police de caractères peut nécessiter une police supplémentaire et distincte pour des variantes telles que le gras et l’italique, les chercheurs ont utilisé une implémentation Google de la police OpenType. Interqui intègre une gamme granulaire de poids dans une seule police.

À partir de l’article, un tableau détaillant la mesure dans laquelle un glyphe OpenType de la police Inter peut exprimer une gamme d’accents gras le long du squelette de la spline de base minimale.

Essai

L’expression du crénage et du décalage de la ligne de base a été intégrée dans un plug-in de navigateur, ce qui a permis de mener des tests sur 117 participants malentendants.

L’ensemble de données pour les tests a été créé spécifiquement pour le projet, en engageant un acteur qui a lu plusieurs fois une sélection de poèmes avec un accent différent sur chaque prise, correspondant aux trois caractéristiques étudiées par le projet. La poésie a été choisie parce qu’elle permet une gamme d’accents (même au-delà de l’intention du poète) sans paraître artificielle par nature.

Les participants ont été divisés en deux groupes. Les premiers ont bénéficié de 15 tours de lecture par l’acteur d’une strophe accompagnée d’un texte synchronisé, animé et modulé, qui se déroulait au rythme du clip audio.

Le deuxième groupe a reçu exactement le même ensemble de tâches, mais a été présenté avec des images statiques du texte modulé, qui n’ont pas du tout changé pendant la lecture des lectures de l’acteur.

Le taux moyen de réponses correctes était non aléatoire de 67 % pour le groupe d’images statiques et de 63 % pour le groupe de textes animés. Les commentaires des participants sollicités par les chercheurs après les essais ont confirmé leur théorie selon laquelle la charge cognitive de l’interprétation dynamique pourrait avoir contribué aux scores inférieurs des tests non statiques. Cependant, le type de système de sous-titrage et de messagerie auquel un tel cadre serait destiné fournit généralement du texte par défaut.

Les commentaires des participants ont également indiqué qu’il existe des limites strictes à l’utilisation du crénage pour indiquer la durée, un commentateur notant que lorsque les lettres sont trop espacées, il devient difficile d’individualiser un mot.

Les chercheurs notent également :

‘[Some] les participants ont estimé que le modèle devrait être capable d’incarner des représentations plus nuancées et complexes de la parole, ce qu’il devrait faire avec un vocabulaire visuel plus varié et plus expressif. Bien que ce ne soit pas une tâche simple, il est néanmoins encourageant d’imaginer comment différentes applications de la typographie à modulation de la parole pourraient se diversifier à mesure que ce nouveau domaine se développe.

Première publication le 24 février 2022.

www.actusduweb.com

Suivez Actusduweb sur Google News