Il n’y a pas de place Tiananmen dans la nouvelle IA chinoise de création d’images
Lorsqu’une démo du logiciel a été publiée fin août, les utilisateurs ont rapidement constaté que certains mots, à la fois des mentions explicites de noms de dirigeants politiques et des mots potentiellement controversés uniquement dans des contextes politiques, étaient étiquetés comme sensibles et empêchés de générer des résultats. Le système sophistiqué de censure en ligne de la Chine, semble-t-il, s’est étendu à la dernière tendance en matière d’IA.
Il n’est pas rare que des IA similaires empêchent les utilisateurs de générer certains types de contenu. DALL-E 2 interdit les contenus à caractère sexuel, les visages de personnalités publiques ou les images de traitements médicaux. Mais le cas d’ERNIE-ViLG souligne la question de savoir où se situe exactement la frontière entre la modération et la censure politique.
Le modèle ERNIE-ViLG fait partie de Wenxin, un projet à grande échelle de traitement du langage naturel de Baidu, leader chinois de l’intelligence artificielle. Il a été formé sur un ensemble de données de 145 millions de paires image-texte et contient 10 milliards de paramètres, les valeurs qu’un réseau neuronal ajuste au fur et à mesure de son apprentissage, que l’IA utilise pour discerner les différences subtiles entre les concepts et les styles artistiques.
Cela signifie qu’ERNIE-ViLG a un ensemble de données d’entraînement plus petit que DALL-E 2 (650 millions de paires) et Stable Diffusion (2,3 milliards de paires) mais plus de paramètres que l’un ou l’autre (DALL-E 2 a 3,5 milliards de paramètres et Stable Diffusion a 890 millions ). Baidu a publié une version de démonstration sur sa propre plate-forme fin août, puis plus tard sur Hugging Face, la populaire communauté internationale d’IA.
La principale différence entre les modèles ERNIE-ViLG et occidentaux est que celui développé par Baidu comprend les invites écrites en chinois et est moins susceptible de faire des erreurs lorsqu’il s’agit de mots spécifiques à la culture.
Par exemple, un créateur de vidéos chinois a comparé les résultats de différents modèles pour des invites comprenant des personnages historiques chinois, des célébrités de la culture pop et de la nourriture. Il a découvert qu’ERNIE-ViLG produisait des images plus précises que DALL-E 2 ou Stable Diffusion. Après sa sortie, ERNIE-ViLG a également été adopté par ceux qui la communauté des animés japonaisqui a découvert que le modèle pouvait générer un art animé plus satisfaisant que les autres modèles, probablement parce qu’il incluait plus d’anime dans ses données d’entraînement.
Mais ERNIE-ViLG se définira, comme les autres modèles, par ce qu’il permet. Contrairement à DALL-E 2 ou Stable Diffusion, ERNIE-ViLG n’a pas d’explication publiée de sa politique de modération de contenu, et Baidu a refusé de commenter cette histoire.
Lorsque la démo ERNIE-ViLG a été publiée pour la première fois sur Hugging Face, les utilisateurs saisissant certains mots recevaient le message Mots sensibles trouvés. Veuillez entrer à nouveau (), ce qui était un aveu étonnamment honnête sur le mécanisme de filtrage. Cependant, depuis au moins le 12 septembre, le message a lu Le contenu saisi ne respecte pas les règles applicables. Veuillez réessayer après l’avoir ajusté. ()