Traitement automatique du langage naturel et données d’enquête : nuages de mots, associations, sentiments et bigrammes | Actualités Legaltech
La première partie de cette série explique les étapes typiques suivies par un analyste d’enquête pour préparer des commentaires en texte libre pour le traitement du langage naturel (TLN). Dans cette partie, nous décrivons quatre méthodes par lesquelles un corpus nettoyé et standardisé permet à la PNL de révéler des informations.
1. Créez un nuage de mots de mots courants
À partir de la matrice document-terme, le logiciel peut totaliser le nombre de fois que chaque mot apparaît dans le corpus dans son ensemble (toutes les questions de texte combinées). UN diagramme à bandes avec les mots les plus fréquents peut représenter les totaux. Comme dans le tableau ci-dessous, qui montre les mots significatifs fréquemment utilisés dans les 25 premiers articles de mon blog, Savvy Surveys for Lawyers, ce simple graphique montre clairement l’orientation de l’écriture. Le mot enquête ouvre la voie avec près de 250 apparitions. En bas, les gens apparaissent environ 40 fois. Notez que les mots n’ont pas été lemmatisés.