Ce qu’il faut savoir sur les entreprises technologiques qui utilisent l’IA pour enseigner leur propre IA
OpenAI, Google et d’autres entreprises technologiques entraînent leurs chatbots avec d’énormes quantités de données extraites de livres, d’articles Wikipédia, d’actualités et d’autres sources sur Internet. Mais à l’avenir, ils espèrent utiliser ce qu’on appelle des données synthétiques.
En effet, les entreprises technologiques risquent d’épuiser les textes de haute qualité qu’Internet a à offrir pour le développement de l’intelligence artificielle. Et les entreprises font face à des poursuites en matière de droits d’auteur de la part d’auteurs, d’agences de presse et de programmeurs informatiques pour avoir utilisé leurs œuvres sans autorisation. (Dans l’un de ces procès, le New York Times a poursuivi OpenAI et Microsoft.)
Les données synthétiques, pensent-ils, contribueront à réduire les problèmes de droits d’auteur et à accroître la fourniture de matériel de formation nécessaire à l’IA. Voici ce qu’il faut savoir à ce sujet.
Que sont les données synthétiques ?
Ses données générées par l’intelligence artificielle.
Cela signifie-t-il que les entreprises technologiques veulent que l’IA soit formée par l’IA ?
Oui. Plutôt que de former des modèles d’IA avec des textes écrits par des personnes, des entreprises technologiques comme Google, OpenAI et Anthropic espèrent former leur technologie avec des données générées par d’autres modèles d’IA.
Les données synthétiques fonctionnent-elles ?
Pas exactement. Les modèles d’IA se trompent et inventent des choses. Ils ont également montré qu’ils captaient les biais qui apparaissent dans les données Internet à partir desquelles ils ont été formés. Ainsi, si les entreprises utilisent l’IA pour former l’IA, elles peuvent finir par amplifier leurs propres défauts.
Les données synthétiques sont-elles actuellement largement utilisées par les entreprises technologiques ?
Non, les entreprises technologiques l’expérimentent. Mais en raison des défauts potentiels des données synthétiques, celles-ci ne représentent pas une grande partie de la manière dont les systèmes d’IA sont construits aujourd’hui.
Alors pourquoi les entreprises technologiques affirment-elles que les données synthétiques sont l’avenir ?
Les entreprises pensent pouvoir affiner la manière dont les données synthétiques sont créées. OpenAI et d’autres ont exploré une technique dans laquelle deux modèles d’IA différents fonctionnent ensemble pour générer des données synthétiques plus utiles et plus fiables.
Un modèle d’IA génère les données. Ensuite, un deuxième modèle juge les données, un peu comme le ferait un humain, décidant si les données sont bonnes ou mauvaises, exactes ou non. Les modèles d’IA sont en fait meilleurs pour juger un texte que pour l’écrire.
Si vous donnez deux choses à la technologie, elle est assez efficace pour choisir laquelle est la meilleure, a déclaré Nathan Lile, directeur général de la start-up d’IA SynthLabs.
L’idée est que cela fournira les données de haute qualité nécessaires pour former un chatbot encore meilleur.
Cette technique fonctionne-t-elle ?
Sorte de. Tout se résume à ce deuxième modèle d’IA. Dans quelle mesure est-il doué pour juger un texte ?
Anthropic a été le plus bruyant à propos de ses efforts pour que cela fonctionne. Il affine le deuxième modèle d’IA à l’aide d’une constitution élaborée par les chercheurs de l’entreprise. Cela apprend au modèle à choisir un texte qui soutient certains principes, tels que la liberté, l’égalité et le sentiment de fraternité, ou la vie, la liberté et la sécurité personnelle. La méthode anthropique est connue sous le nom d’IA constitutionnelle
Voici comment deux modèles d’IA fonctionnent en tandem pour produire des données synthétiques à l’aide d’un processus comme Anthropics :
Néanmoins, les humains sont nécessaires pour garantir que le deuxième modèle d’IA reste sur la bonne voie. Cela limite la quantité de données synthétiques que ce processus peut générer. Et les chercheurs ne sont pas d’accord sur la question de savoir si une méthode comme Anthropics continuera à améliorer les systèmes d’IA.
Les données synthétiques aident-elles les entreprises à éviter l’utilisation d’informations protégées par le droit d’auteur ?
Les modèles d’IA qui génèrent des données synthétiques ont eux-mêmes été formés à partir de données créées par l’homme, dont une grande partie était protégée par le droit d’auteur. Les détenteurs de droits d’auteur peuvent donc toujours affirmer que des entreprises comme OpenAI et Anthropic ont utilisé des textes, des images et des vidéos protégés par le droit d’auteur sans autorisation.
Jeff Clune, professeur d’informatique à l’Université de la Colombie-Britannique et ancien chercheur chez OpenAI, a déclaré que les modèles d’IA pourraient à terme devenir plus puissants que le cerveau humain à certains égards. Mais ils le feront parce qu’ils ont appris du cerveau humain.
Pour emprunter à Newton : l’IA voit plus loin en s’appuyant sur des ensembles de données humaines géantes, a-t-il déclaré.