Un meilleur Siri arrive : ce que disent les recherches d’Apple sur ses projets d’IA
Il serait facile de penser qu’Apple est en retard dans le jeu de l’IA. Depuis fin 2022, lorsque ChatGPT a pris d’assaut le monde, la plupart des concurrents d’Apple se sont démenés pour rattraper leur retard. Bien qu’Apple ait certainement parlé de l’IA et ait même lancé certains produits en pensant à l’IA, il semblait s’y plonger plutôt que de plonger tête première.
Mais au cours des derniers mois, des rumeurs et des rapports ont suggéré qu’Apple attendait en fait son heure, attendant de passer à l’action. Il y a eu des rapports ces dernières semaines selon lesquels Apple discutait à la fois avec OpenAI et Google pour alimenter certains de ses fonctionnalités d’IA, et la société a également travaillé sur son propre modèle, appelé Ajax.
Si vous parcourez les recherches publiées par Apple sur l’IA, une image commence à se dessiner sur la façon dont l’approche d’Apple en matière d’IA pourrait prendre vie. De toute évidence, formuler des hypothèses sur les produits basées sur des documents de recherche est une science profondément inexacte. La frontière entre la recherche et les étagères des magasins est venteuse et pleine de nids-de-poule. Mais vous pouvez au moins avoir une idée de ce qu’est l’entreprise pensée et comment ses fonctionnalités d’IA pourraient fonctionner lorsque Apple commencera à en parler lors de sa conférence annuelle des développeurs, la WWDC, en juin.
Je soupçonne que vous et moi espérons la même chose ici : un meilleur Siri. Et il semblerait que Better Siri arrive ! De nombreuses recherches d’Apple (et dans une grande partie de l’industrie technologique, dans le monde et partout) partent de l’hypothèse que les grands modèles de langage rendront immédiatement les assistants virtuels meilleurs et plus intelligents. Pour Apple, accéder à Better Siri signifie rendre ces modèles aussi rapides que possible et s’assurer qu’ils sont partout.
Dans iOS 18, Apple prévoit de faire fonctionner toutes ses fonctionnalités d’IA sur un modèle intégré et entièrement hors ligne, Bloomberg récemment signalé. Il est difficile de créer un bon modèle polyvalent, même lorsque vous disposez d’un réseau de centres de données et de milliers de GPU de pointe. Il est considérablement plus difficile de le faire avec uniquement les tripes de votre smartphone. Les pommes doivent donc faire preuve de créativité.
Dans un article intitulé LLM in a flash : Efficient Large Language Model Inference with Limited Memory (tous ces articles ont des titres vraiment ennuyeux mais sont vraiment intéressants, je le promets !), les chercheurs ont conçu un système pour stocker les données d’un modèle, qui sont généralement stockées sur la RAM de vos appareils, sur le SSD à la place. Nous avons démontré la capacité d’exécuter des LLM jusqu’à deux fois la taille de la DRAM disponible [on the SSD], ont écrit les chercheurs, obtenant une accélération de la vitesse d’inférence de 4 à 5 fois par rapport aux méthodes de chargement traditionnelles dans le CPU et de 20 à 25 fois dans le GPU. En profitant du stockage le moins cher et le plus disponible sur votre appareil, ont-ils découvert, les modèles peuvent fonctionner plus rapidement et plus efficacement.
Les chercheurs d’Apple ont également créé un système appelé EELBERT qui peut essentiellement compresser un LLM dans une taille beaucoup plus petite sans l’aggraver de manière significative. Leur version compressée du modèle Bert de Google était 15 fois plus petite, seulement 1,2 mégaoctets, et ne présentait qu’une réduction de qualité de 4 %. Cela s’est cependant accompagné de quelques compromis en matière de latence.
De manière générale, Apple s’efforce de résoudre une tension fondamentale dans le monde des modèles : plus un modèle est grand, plus il peut être performant et utile, mais aussi plus il peut devenir lourd, gourmand en énergie et lent. Comme tant d’autres, l’entreprise essaie de trouver le bon équilibre entre toutes ces choses tout en cherchant un moyen de tout avoir.
Une grande partie de ce dont nous parlons lorsque nous parlons de produits d’IA, ce sont des assistants virtuels qui savent des choses, qui peuvent nous rappeler des choses, qui peuvent répondre à des questions et faire des choses en notre nom. Il n’est donc pas vraiment choquant que de nombreuses recherches d’Apple sur l’IA se résument à une seule question : et si Siri était vraiment, vraiment, vraiment bon ?
Un groupe de chercheurs Apple a travaillé sur un moyen d’utiliser Siri sans avoir besoin d’utiliser un mot d’activation ; au lieu d’écouter Hey Siri ou Siri, l’appareil pourrait simplement savoir si vous lui parlez. Ce problème est bien plus complexe que la détection des déclencheurs vocaux, ont reconnu les chercheurs, car il se peut qu’il n’y ait pas de phrase déclencheur marquant le début d’une commande vocale. C’est peut-être la raison pour laquelle un autre groupe de chercheurs a développé un système permettant de détecter plus précisément les mots d’éveil. Un autre article a formé un modèle pour mieux comprendre les mots rares, qui sont souvent mal compris par les assistants.
Dans les deux cas, l’intérêt d’un LLM est qu’il peut, en théorie, traiter beaucoup plus d’informations et beaucoup plus rapidement. Dans l’article Wake-Word, par exemple, les chercheurs ont découvert qu’en pas en essayant de supprimer tous les sons inutiles mais, à la place, en les transmettant au modèle et en le laissant traiter ce qui compte ou non, le mot de réveil a fonctionné de manière beaucoup plus fiable.
Une fois que Siri vous entend, Apple fait un gros travail pour s’assurer qu’il comprend et communique mieux. Dans un article, il a développé un système appelé STEER (qui signifie Semantic Turn Extension-Expansion Recognition, alors allez-y avec STEER) qui vise à améliorer votre communication aller-retour avec un assistant en essayant de déterminer quand vous demandez un question de suivi et lorsque vous en posez une nouvelle. Dans un autre, il utilise des LLM pour mieux comprendre les requêtes ambiguës afin de comprendre ce que vous voulez dire, quelle que soit la façon dont vous le dites. Dans des circonstances incertaines, écrivent-ils, les agents conversationnels intelligents peuvent avoir besoin de prendre l’initiative de réduire leur incertitude en posant de bonnes questions de manière proactive, résolvant ainsi les problèmes plus efficacement. Un autre article vise également à y contribuer : les chercheurs ont utilisé les LLM pour rendre les assistants moins verbeux et plus compréhensibles lorsqu’ils génèrent des réponses.
Chaque fois qu’Apple parle publiquement de l’IA, elle a tendance à se concentrer moins sur la puissance technologique brute et davantage sur les choses quotidiennes que l’IA peut réellement faire pour vous. Ainsi, bien que l’accent soit mis sur Siri, en particulier alors qu’Apple cherche à rivaliser avec des appareils tels que le Humane AI Pin, le Rabbit R1 et l’écrasement continu de Gemini par Google dans tout Android, il existe de nombreuses autres façons dont Apple semble voir l’IA être. utile.