Enseigner aux ordinateurs à lire le jargon de l’industrie Traitement du langage technique par rapport au traitement du langage naturel

L'illustration a

Le traitement technique du langage, ou TLP, implique l’utilisation d’ordinateurs pour capturer, comprendre et traduire le jargon pour d’autres utilisateurs.

Le crédit:

N. Hanacek/NIST

L’industrie et les entreprises sont connues depuis longtemps pour avoir leurs propres mots et expressions linguistiques spécialisés qui n’ont généralement de sens que pour quelqu’un dans cette entreprise. Ce jargon technique, argot ou jargon industriel s’est largement développé comme une méthode abrégée pour transmettre des idées et des directives complexes ou très spécifiques en utilisant un minimum d’effort.

Peter, s’il vous plaît, faites-moi parvenir cette impression TSP pour ma retraite dès que possible.

N’en abusez pas avec le sel, la cuillère à café devrait suffire.

Je dois terminer mon livre blanc pour la tour d’ivoire par COB.

Le premier moteur doit faire l’objet d’une inspection de lubrification et d’un rembobinage. Poussons-le jusqu’à la semaine prochaine.

Des phrases comme celles-ci peuvent signifier une chose très spécifique pour vous, ou peuvent ne rien signifier du tout. Peut-être pensez-vous en comprendre certaines parties, mais ces mêmes parties peuvent signifier autre chose pour une autre personne. Même si les lettres et les mots vous sont familiers, leur contexte et leur signification peuvent être perdus sans la connaissance précise de leur origine. Parfois, ce contexte peut être trouvé dans la phrase elle-même ; d’autres fois, c’est plus insaisissable.

Considérez le terme TSP. Tout anglophone moyen pourrait le reconnaître comme une abréviation pour quelque chose, mais selon qui le lit, où et quand, la réponse à ce que cela signifie peut être très différente. Peut-être que cela signifie cuillère à café, ou Thrift Savings Plan, ou phosphate trisodique, ou un certain nombre d’autres possibilités. C’est le contexte qui l’entoure qu’il faut interpréter pour comprendre son intention.

Les gens sont généralement très bons pour apprendre et traduire le contexte et l’intention avec relativement peu d’informations supplémentaires. Les ordinateurs, cependant, ne le sont pas. Dans l’exemple ci-dessus, des mots comme sel, retraite ou produit chimique pourraient être ajoutés pour permettre rapidement à un ordinateur de comprendre le contexte. Mais même dans ce cas, il peut y avoir confusion selon que le mot est utilisé dans un cadre technique ou occasionnel. Le phosphate trisodique est chimiquement un sel, ce qui conduit à des phrases correctes mais déroutantes comme ONE TSP : TSP.

Je dirige un groupe au NIST qui s’intéresse beaucoup à ces types de langages codés hautement contextuels. Après avoir lu ONE TSP : TSP, nous voulons qu’un ordinateur soit capable de traduire cette phrase à un autre utilisateur en ajoutant une cuillère à café de phosphate trisodique au mélange. Mes collègues et moi étudions et travaillons dans le domaine du traitement technique du langage (TLP), l’acte d’utiliser des ordinateurs pour capturer, comprendre et traduire le jargon pour d’autres utilisateurs. Il peut s’agir d’actions directes comme contrôler un robot, mais souvent plus important encore, nous voulons que les ordinateurs soient capables de communiquer les idées qu’ils capturent à une autre personne.

L'illustration montre différentes significations de TSP, comme une cuillère à café, un plan d'épargne Thrift et du phosphate trisodique.

Le crédit:

N. Hanacek/NIST

Pour nos besoins, les langages techniques peuvent être tout ce qui est écrit ou parlé dans un cadre industriel ou scientifique, où le contexte est particulièrement important. Dans de nombreux cas, cela inclut des mots ou des phrases qui pourraient même ne pas apparaître en dehors d’un très petit groupe. Mais il est clair que tout le langage n’est pas technique, alors parlons brièvement de l’homologue plus connu de TLP.

Le traitement du langage naturel (TLN) est un domaine d’étude formel qui prend les communications humaines et transforme ces informations en quelque chose de plus adapté à l’utilisation et à l’analyse par ordinateur. En termes généraux, cela est réalisé en restructurant la communication sous une forme qui permet de la comparer à des concepts ou des idées que l’ordinateur a précédemment appris. Mais là où la PNL se concentre sur les utilisations les plus courantes des mots, la TLP se concentre sur les utilisations les moins courantes ou les significations qui peuvent changer en fonction du contexte. Par exemple, courir et faire du jogging sont des concepts similaires, mais peuvent ou non fonctionner de manière interchangeable selon le contexte. Un outil NLP pourrait reconnaître les deux comme moyen de locomotion, mais un outil TLP pourrait également savoir que le fait de faire du jogging dans une mémoire a peu de rapport avec la gestion d’un magasin et que ni l’un ni l’autre ne sont des moyens de locomotion. Il existe bien sûr des moyens d’amener la PNL à reconnaître ces différences, mais ce type de problème est là où vit la TLP.

Certaines des applications les plus courantes de la PNL que vous rencontrez dans votre vie quotidienne sont les outils de traduction. Il peut s’agir de traductions linguistiques, telles que l’anglais vers l’espagnol, mais il peut également s’agir d’une traduction voix-texte. Les chatbots interactifs et certains moteurs de recherche utilisent des formes de NLP.

Alors que les machines ont commencé à apporter de réels avantages sociétaux à la PNL, la TLP n’a pas encore vraiment montré tout son potentiel et reste une tâche beaucoup plus difficile. Les leaders de l’industrie ont commencé à reconnaître la nécessité à la fois de traiter de gros volumes de texte et de traduire les informations entre les individus dans les domaines où la PNL a du mal à fonctionner, ils commencent donc à se tourner de plus en plus vers la TLP pour les aider.

L’une des raisons est que le jargon industriel spécialisé et le jargon technique sont très différents de la façon dont les gens communiquent normalement. Les outils de PNL formés pour la parole normale ne fonctionnent tout simplement pas dans les environnements techniques. La PNL utilise par défaut la manière la plus courante d’utiliser un mot, qui est souvent incorrecte. De plus, pour la plupart des usines et des entreprises, le nombre d’exemples nécessaires pour enseigner à un ordinateur les communications techniques n’existe tout simplement pas. La plupart des outils de PNL ont besoin d’un nombre d’exemples allant de centaines de milliers à des millions pour les enseigner.

TLP vise à résoudre ces types de problèmes. Une partie de mon travail consiste à aider les gens à enseigner aux ordinateurs un langage contextuel spécialisé avec le moins d’exemples possibles. Souvent, le seul moyen efficace d’y parvenir est la supervision et la contribution humaines directes, de sorte que l’enseignement aux gens est également une partie très réelle de TLP.

Certains domaines, tels que le domaine médical, ont une longueur d’avance sur le TLP en raison d’un effort de plusieurs années pour créer une cohérence rigoureuse dans la façon dont les termes sont utilisés, mais d’autres domaines commencent à peine à réaliser son potentiel. Les fautes d’orthographe, la sténographie incohérente, les différences de formatage et l’argot sont des occurrences courantes dans les documents industriels. Mon objectif est d’aider les gens à enseigner à l’intelligence artificielle que lorsque quelqu’un saisit un poireau Fixxed, une fuite réparée ou que John applique un scellant sur le site d’égouttement, ils signifient tous la même chose malgré le fait qu’ils n’aient aucun mot en commun. De nombreux cas comme celui-ci existent où quelque chose d’évident pour un humain est presque impossible pour un ordinateur à apprendre par lui-même.

Un autre des objectifs et des défis du TLP est d’aider les chercheurs et les travailleurs de domaines très différents à collaborer et à parcourir les travaux des uns et des autres, malgré des façons très différentes de parler des choses. Une pratique commune à une personne peut être la solution innovante dont une autre a besoin, mais la différence dans la façon dont ils parlent des choses les sépare. Un éditeur de son à Hollywood aurait peut-être trouvé la solution à un problème de séquençage de gènes, mais ne le saurait jamais car elle appelle sa méthode une déformation temporelle dynamique au lieu d’une mesure de distance de Levenshtein. Dans un autre cas, John cherche peut-être un moyen de replanter rapidement des forêts après un incendie de forêt. Pour assurer une couverture et une germination maximales, il doit projeter un volume élevé de gousses de graines enrobées de nutriments sur une longue distance sans les rompre au lancement. Jim est un maître joueur de paintball et est largement connu pour avoir les pistolets les plus longs avec les plus grosses balles. Jim peut peut-être aider à résoudre le problème de John, mais John n’est pas intéressé par le paintball et Jim ne se soucie pas moins de l’écologie. Ainsi, bien qu’ils aient tous les deux des pages Web très détaillées sur leur travail respectif, ils ne se trouvent jamais. TLP pourrait aider à les connecter.

Au-delà de nos propres recherches, le NIST relie les communautés universitaires et industrielles pour aider à faire progresser le développement et l’utilisation des technologies TLP. Nous avons aidé à fonder et continuer à soutenir une communauté d’intérêts TLP active où tout le monde, des chercheurs aux utilisateurs, même les plus curieux, peut venir participer activement aux recherches et aux conversations sur le sujet. Nous avons des projets évaluant la manière dont les opérateurs évaluent et communiquent les problèmes d’équipement, un projet développant des méthodes d’analyse de documents techniques, un projet pour créer des modèles de diagnostic à partir de manuels, etc. Le TLP consiste en grande partie à aider les travailleurs à faire ce qu’ils font déjà, mais en le rendant plus facile, plus productif et, espérons-le, un peu moins fastidieux.

Nous espérons que les outils de TLP pourront bientôt :

  • Aidez les ingénieurs en fiabilité à découvrir quelles machines coûtent le plus de temps et d’argent pour les pièces et les réparations ;
  • Donner aux chercheurs la possibilité de suivre les tendances de la recherche technique, de prévoir les prochaines étapes et d’identifier de nouveaux domaines d’étude ;
  • Laissez les travailleurs dire à leurs machines s’ils font du bon ou du mauvais travail, et demandez-leur de réagir avec un meilleur comportement ;
  • Aidez les anthropologues à apprendre les langues tribales ou anciennes beaucoup plus rapidement ;
  • Simplifiez la connexion et le suivi des informations de toutes les zones de vos installations en quelques clics sur l’écran ;
  • Donner aux ordinateurs la capacité de mieux comprendre l’intention et le contexte ; et
  • Tellement plus.

Que ce soit avec des ordinateurs ou des humains, le langage et la communication fonctionnent sur les idées, l’intention et le contexte. Chaque jour où je travaille sur TLP avec mes collègues, nous repoussons les limites de la façon dont les gens et les ordinateurs interagissent à travers le langage. Quoi de plus excitant que cela ?

Comme nous aimons à le dire, Buffalo buffalo Buffalo buffalo buffalo Buffalo buffalo.

www.actusduweb.com
Suivez Actusduweb sur Google News


Ce site utilise des cookies pour améliorer votre expérience. Nous supposerons que cela vous convient, mais vous pouvez vous désinscrire si vous le souhaitez. J'accepte Lire la suite