Quelles langues dominent Internet ?
On estime qu’environ 63% des êtres humains vivants ont désormais accès à Internet, ce qui porterait le nombre de personnes connectées numériquement à un peu plus de 5 milliards en somme. Ces personnes viennent de toute la planète et parlent potentiellement des milliers de langues différentes. Si vous effectuez une recherche, vous pouvez trouver des centaines de langues en ligne, de l’ourdou au catalan.
Mais certaines langues sont plus difficiles à trouver que d’autres. Reste du monde s’est tourné vers W3Techs, une société de numérisation Web basée en Autriche, pour compter toutes les adresses Web accessibles au public sur Internet afin d’obtenir des chiffres précis sur l’écart. Nos données montrent qu’un peu plus de la moitié des sites sur le Web utilisent l’anglais comme langue principale. C’est beaucoup plus que ce à quoi on pourrait s’attendre, étant donné que les anglophones ne représentent qu’un peu moins de 5% de la population mondiale. Pendant ce temps, le chinois et l’hindi sont les deuxième et troisième langues les plus parlées au monde, mais la même analyse a révélé qu’ils ne représentaient que 1,4 % et 0,07 % des domaines, respectivement.
Parce qu’Internet est si vaste, les données sont accompagnées de mises en garde et d’angles morts (détaillés ci-dessous), mais l’analyse révèle toujours des déséquilibres massifs dans l’utilisation de la langue. Des langues comme le bengali et l’ourdou, chacune parlée par des centaines de millions de personnes, sont presque impossibles à trouver en ligne.
W3Techs suit principalement les langages de programmation utilisés en ligne. Il analyse régulièrement les domaines accessibles au public et les catégorise par langue, fournissant des rapports en temps réel aux clients intéressés. Nous avons comparé les données de W3Techs avec les chiffres sur la langue parlée d’une enquête menée par Ethnologue, une organisation à but non lucratif largement considérée comme l’autorité mondiale en matière d’utilisation de la langue.
Combinés, les deux ensembles de données suggèrent une surreprésentation et une sous-représentation importantes. L’anglais, l’allemand et le japonais contrôlent une bien plus grande partie d’Internet que parmi les locuteurs natifs. En revanche, de nombreuses langues non européennes n’existent pratiquement pas sur Internet.
Pour certains groupes internationaux, ces écarts sont de mauvais augure pour l’avenir. Dès 2003, l’UNESCO exhortait les secteurs public et privé à maintenir le contenu en ligne dans l’éventail complet des langues humaines. Mais à mesure que le Web s’est développé, l’écart entre la langue parlée et ce qui est utilisé sur Internet n’a fait que croître.
Bhanu Neupane, responsable de programme à l’UNESCO qui travaille sur les inégalités linguistiques, a déclaré Reste du monde nous pourrions nous diriger vers un monde où seule une poignée de langues sont significativement présentes en ligne. Le monde converge, a déclaré Neupane. Et après 15 ans, il pourrait n’y avoir que cinq ou 10 langues parlées et utilisées de manière proéminente dans les affaires et en ligne. Nous étions donc très préoccupés par cela.
Les enquêtes sur le problème varient, mais la propre évaluation de l’UNESCO est cohérente avec les résultats de W3Techs, montrant seulement 14 langues présentes sur plus de 1% des domaines.
Il y a quelques mises en garde que vous devez garder à l’esprit concernant cet ensemble de données : les données proviennent d’analyses de sites Web accessibles au public, donc tout ce qui se cache derrière une connexion est probablement non comptabilisé, y compris les applications et les réseaux sociaux. (Cette bizarrerie suggère que les analyses peuvent sous-estimer l’Internet chinois, en particulier, bien qu’il soit difficile de savoir de combien.) Même dans les réseaux sociaux accessibles sur le Web comme Reddit, les analyses ne sont pas conçues pour parcourir chaque page d’un domaine, ce qui signifie qu’ils peuvent sous-estimer les communautés non anglophones sur les sites en anglais. Il y a plus de détails ici, mais les données doivent être lues comme une vaste enquête sur les sites Web, et non comme une mesure précise.
Cela dit, la vue d’ensemble est difficile à manquer. Des millions d’anglophones non natifs et non anglophones sont bloqués en utilisant le Web dans une langue autre que celle dans laquelle ils sont nés. Et puisque le texte accessible au public sur Internet est maintenant souvent utilisé pour former de grands modèles de langage comme Bard et GPT-4, cela suggère que le même déséquilibre était déjà en place dans les technologies de la prochaine frontière : l’intelligence artificielle.