Traitement du langage naturel avec Apache OpenNLP

Le traitement du langage naturel (TAL) est l’une des frontières les plus importantes du logiciel. premières lignes de l’effort de maîtrise du langage naturel.

Cet article est une introduction pratique à Apache OpenNLP, un projet d’apprentissage automatique basé sur Java qui fournit des primitives telles que la segmentation et la lemmatisation, toutes deux nécessaires à la construction de systèmes compatibles NLP.

Qu’est-ce qu’Apache OpenNLP ?

Un système de traitement automatique du langage naturel tel qu’Apache OpenNLP comporte généralement trois parties :

  1. Apprendre d’un corpusqui est un ensemble de données textuelles (pluriel : corpus)
  2. Un modèle généré à partir du corpus
  3. Utilisation du modèle pour effectuer des tâches sur le texte cible

Pour rendre les choses encore plus simples, OpenNLP propose des modèles pré-formés disponibles pour de nombreux cas d’utilisation courants. Pour des exigences plus sophistiquées, vous devrez peut-être former vos propres modèles. Pour un scénario plus simple, vous pouvez simplement télécharger un modèle existant et l’appliquer à la tâche à accomplir.

Détection de la langue avec OpenNLP

Construisons une application de base que nous pouvons utiliser pour voir comment fonctionne OpenNLP. Nous pouvons commencer la mise en page avec un archétype Maven, comme indiqué dans la liste 1.

Listing 1. Créer un nouveau projet


~/apache-maven-3.8.6/bin/mvn archetype:generate -DgroupId=com.infoworld.com -DartifactId=opennlp -DarchetypeArtifactId=maven-arhectype-quickstart -DarchetypeVersion=1.4 -DinteractiveMode=false

Cet archétype échafaudera un nouveau projet Java. Ensuite, ajoutez la dépendance Apache OpenNLP au pom.xml dans le répertoire racine du projet, comme indiqué dans le Listing 2. (Vous pouvez utiliser la version la plus récente de la dépendance OpenNLP.)

Copyright © 2022 IDG Communications, Inc.

www.actusduweb.com
Suivez Actusduweb sur Google News


Ce site utilise des cookies pour améliorer votre expérience. Nous supposerons que cela vous convient, mais vous pouvez vous désinscrire si vous le souhaitez. J'accepte Lire la suite