L’IA du vol à grande échelle de Perplexity

Les milliardaires vendent des actions Nvidia et achètent…

Dans chaque cycle de battage médiatique, certains modèles de tromperie émergent. Lors du dernier boom des crypto-monnaies, il s’agissait de ponzinomics et de rug pulls. Dans le cas des voitures autonomes, cela n’était qu’à cinq ans ! Dans le cas de l’IA, il s’agit de voir à quel point on peut se permettre de faire des bêtises immorales.

Perplexity est fondamentalement un intermédiaire à la recherche de rentes sur des sources de haute qualité

Perplexity, qui est en pourparlers pour lever des centaines de millions de dollars, tente de créer un concurrent de Google Search. Perplexity ne cherche pas à créer un moteur de recherche, mais plutôt un moteur de réponse. L’idée est qu’au lieu de parcourir un tas de résultats pour répondre à votre propre question avec une source primaire, vous obtiendrez simplement une réponse que Perplexity a trouvée pour vous. La véracité et l’exactitude sont ce qui nous importe, a déclaré le PDG de Perplexity, Aravind Srinivas Le bord.

Cela signifie que Perplexity est essentiellement un intermédiaire qui cherche à tirer profit de sources de haute qualité. La proposition de valeur de la recherche, à l’origine, était qu’en récupérant le travail effectué par les journalistes et autres, les résultats de Google envoyaient du trafic vers ces sources. Mais en fournissant une réponse, plutôt que d’orienter les gens vers une source principale, ces moteurs de réponse privent la source principale de revenus publicitaires, gardant ces revenus pour eux-mêmes. Perplexity fait partie d’un groupe de vampires qui incluent Arc Search et Google lui-même.

Mais Perplexity a franchi une étape supplémentaire avec son produit Pages, qui crée un rapport de synthèse basé sur ces sources primaires. Il ne s’agit pas simplement de citer une ou deux phrases pour répondre directement à la question d’un utilisateur, mais de créer un article agrégé complet, et c’est précis dans le sens où il plagie activement les sources qu’il utilise.

Forbes Perplexity a découvert qu’il contournait le paywall des publications afin de fournir un résumé d’une enquête menée par la publication sur la société de drones de l’ancien PDG de Google, Eric Schmidts. Forbes a un paywall mesuré sur certains de ses travaux, les travaux premium comme cette enquête sont derrière un paywall dur. Non seulement Perplexity a d’une manière ou d’une autre esquivé le paywall, mais il a à peine cité l’enquête originale et a volé l’œuvre originale pour l’utiliser dans son rapport. (Pour ceux qui suivent à la maison, l’art est une violation du droit d’auteur.)

Quelqu’un d’autre l’a fait est un bon argument pour un enfant de cinq ans

L’agrégation n’est pas un phénomène particulièrement nouveau, mais l’ampleur à laquelle Perplexity peut s’agréger, ainsi que la violation du droit d’auteur liée à l’utilisation de l’œuvre originale, sont assez, hmm, remarquables. Pour tenter de calmer tout le monde, le directeur commercial de l’entreprise s’est rendu à Feux de circulation pour dire que Perplexity développait des plans de partage des revenus avec les publications, et oh là là, comment se fait-il que tout le monde soit tellement méchant à un produit encore en développement ?

À ce point, Câblé a sauté, confirmant une découverte de Robb Knight : le grattage de Perplexity Forbes Le travail n’a pas fait exception. En fait, Perplexity a ignoré le code robots.txt qui demande explicitement aux robots d’exploration Web de ne pas extraire la page. Srinivas a répondu en Compagnie rapide que en faitPerplexity n’ignorait pas le fichier robots.txt ; il utilisait simplement des scrapers tiers qui l’ignoraient. Srinivas a refusé de nommer le scraper tiers et ne s’est pas engagé à demander à ce crawler de cesser de violer le fichier robots.txt.

Quelqu’un d’autre l’a fait est un bon argument pour un enfant de cinq ans. Et réfléchissez à la réponse plus en détail. Si Srinivas voulait être éthique, il avait ici quelques options. La première option est de résilier le contrat avec le scraper tiers. La deuxième option est d’essayer de convaincre le scraper de respecter robots.txt. Srinivas ne s’est engagé à aucune des deux choses, et il me semble qu’il y a une raison claire à cela. Même si Perplexity lui-même ne viole pas le code, il dépend de quelqu’un d’autre qui viole le code pour que son moteur de réponse fonctionne.

Pour ajouter l’insulte à l’injure, Perplexity a plagié Câblés article à ce sujet même si Câblé bloque explicitement Perplexity dans son fichier texte. La majeure partie de Câblém L’article sur le plagiat porte sur les recours juridiques, mais je m’intéresse à ce qui se passe ici avec robots.txt. C’est un accord de bonne foi qui tient depuis des décennies maintenant, et il s’effondre à cause d’entreprises d’IA sans scrupules. C’est vrai, Perplexity n’est pas le seul à aspirer à peu près tout ce qui est disponible afin de former leurs modèles bidons. Et rappelez-vous comment Srinivas a dit qu’il était engagé à la véracité des faits ? Je ne suis pas sûr que ce soit vrai non plus : Perplexity fait maintenant apparaître des résultats générés par l’IA et de véritables informations erronées, Forbes rapports.

À mon oreille, Srinivas se vantait du charme et de l’intelligence de son mensonge.

Nous avons vu de nombreux géants de l’IA se livrer à des pratiques douteuses sur le plan légal et sans doute contraires à l’éthique afin d’obtenir les données qu’ils souhaitent. Afin de prouver la valeur de Perplexity aux investisseurs, Srinivas a créé un outil pour récupérer Twitter en se faisant passer pour un chercheur universitaire utilisant l’accès API pour la recherche. J’appellerais mon [fake academic] Des projets comme Brin Rank et toutes sortes de choses de ce genre, a déclaré Srinivas à Lex Fridman sur le podcast de ce dernier. Je suppose que Brin Rank est une référence au cofondateur de Google, Sergey Brin ; à mon avis, Srinivas se vantait du charme et de l’intelligence de son mensonge.

Ce n’est pas moi qui vous dis que le fondement de Perplexity est de mentir pour esquiver les principes établis qui soutiennent le Web. C’est son PDG qui le fait. Cela clarifie la proposition de valeur réelle des moteurs de réponse. Perplexity ne peut pas générer d’informations réelles par lui-même et s’appuie plutôt sur des tiers dont il abuse des politiques. Le moteur de réponse a été développé par des personnes qui se sentent libres de mentir quand cela leur convient le mieux, et cette préférence est nécessaire au fonctionnement de Perplexity.

Voilà donc la véritable innovation de Perplexity : briser les fondements de la confiance sur lesquels repose Internet. La question est de savoir si ses utilisateurs ou investisseurs s’en soucient.

Rectificatif du 27 juin : Supprime la référence erronée à Axios, l’interview en question était avec Semafor.

www.actusduweb.com

Suivez Actusduweb sur Google News