Améliorer la détection des idées suicidaires et des tentatives de suicide grâce au traitement du langage naturel – Rapports scientifiques
Cette étude présente une approche PNL évolutive qui reçoit en entrée une liste d’expressions textuelles décrivant un résultat clinique d’intérêt (requête sur les résultats), analyse toutes les notes cliniques d’un DSE et calcule un score de pertinence des résultats pour chaque patient avec des expressions textuelles d’entrée dans son Remarques. Le résultat de ce système NLP est une liste classée de patients en tant que cas potentiels pour le résultat d’intérêt, de sorte que les patients les plus pertinents de la liste sont classés en haut. Toutes les méthodes ont été réalisées conformément aux directives et réglementations en vigueur. L’étude a été approuvée par le comité d’examen institutionnel (IRB) du Vanderbilt University Medical Center (VUMC) avec dispense de consentement (IRB #151156).
Population clinique
Les données cliniques utilisées dans cette étude ont été extraites de Synthetic Derivative, un référentiel de données axé sur la recherche qui contient la version anonymisée du DSE des VUMC.16. En décembre 2021, ce référentiel stocke> 200 millions de notes pour> 3,4 millions de patients. Les éléments de données spécifiques extraits de Synthetic Derivative comprennent les notes cliniques, les formulaires psychiatriques, les données démographiques et les codes de facturation de la Classification internationale des maladies, 9e/10e révision, modification clinique (ICD-9/10-CM).
Une approche basée sur les données pour guider la sélection des termes de requête sur le suicide
Nous nous sommes appuyés sur une approche basée sur les données pour extraire automatiquement les expressions textuelles décrivant les idées suicidaires et les tentatives de suicide. Semblable à nos travaux précédents13nous avons utilisé Googles word2vec (https://code.google.com/p/word2vec/) pour développer de manière itérative une liste initiale de 2 mots clés de départ pertinents, suicide et suicidaire. En bref, nous avons d’abord formé un modèle de saut de gramme de word2vec17 sur 10 millions de notes échantillonnées au hasard à partir de Synthetic Derivative pour apprendre les incorporations de mots pour chaque mot de la collection de notes. Le prétraitement de ces notes comprenait la tokenisation, la conversion des jetons en minuscules et l’exclusion des jetons et des ponctuations à basse fréquence. Pour la configuration du modèle, nous avons utilisé une dimension vectorielle de 100 et des tailles de fenêtre de contexte de 5 et 15. Ensuite, nous avons calculé la similarité cosinus entre les plongements de graines et les plongements de tous les mots non-graines et avons sélectionné les mots les mieux classés comme nouvelle graine. mots et candidats potentiels pour les termes de requête de suicide. Enfin, nous avons analysé manuellement la liste de départ générée pour proposer des requêtes pour les deux résultats suicidaires.
Récupération des idées suicidaires et tentative de suicide
Nous avons mis en place un modèle de recherche d’informations pour classer les patients en fonction de leur pertinence par rapport à chaque requête sur le suicide construite à l’étape précédente. L’architecture du système a été conçue comme un modèle d’espace vectoriel où les requêtes d’entrée et les patients étaient représentés comme des vecteurs multidimensionnels de mots ou d’expressions de mots. Ici, chaque vecteur patient a été extrait d’un méta-document qui comprenait toutes les notes du patient. Le score de pertinence d’un patient par rapport à un résultat suicidaire a été mesuré comme la similarité entre le vecteur patient correspondant et le vecteur de requête de suicide à l’aide de la métrique cosinus pondérée fréquence-inverse du document standard (TF-IDF). Plus précisément, pour le score de similarité entre une question sur le suicide et le patient jle poids du terme de requête je dans le méta-document du patient j a été calculé comme suit :
$$w_i,j = tf_i,j \cdot \textlog\fracNdf_i $$
où tfje,j est le nombre d’occurrences du terme je dans le méta-document du patient j (fréquence du terme), dfje est le nombre de patients dont les méta-documents correspondants contiennent le terme je (fréquence des documents), et N est le nombre total de patients dans le DSE.
Pour chaque patient récupéré, nous avons également mis en place des stratégies d’assertion basées sur la fréquence des termes de requête inversés dans les notes des patients.18,19,20. Pour évaluer si la négation améliore la récupération des idées suicidaires et des tentatives de suicide, nous avons extrait des classements supplémentaires dans lesquels chaque patient a au moins un terme de requête affirmé positivement dans les notes du patient. Ainsi, ces classements ne contiennent pas de patients pour lesquels tous les termes de requête mentionnés dans leurs notes sont annulés. La sélection et le classement des patients ont été effectués à l’aide du progiciel Phenotype Retrieval (PheRe), disponible sur https://github.com/bejanlab/PheRe.git.
Évaluation du modèle
Les performances du modèle ont été évaluées à la fois pour les idées suicidaires et les tentatives de suicide sur des ensembles de patients extraits de trois sources d’informations : (1) les patients les mieux classés extraits par le système NLP, (2) les patients sélectionnés au hasard avec des codes ICD10CM pour les pensées et les comportements d’automutilation, et (3) des patients sélectionnés au hasard avec des formulaires psychiatriques pour l’évaluation du suicide. Seul un ensemble limité de formulaires psychiatriques pour l’évaluation du suicide était disponible dans les dérivés synthétiques, car tous les formulaires structurés ne sont actuellement pas identifiables à grande échelle sans risquer une réidentification par inadvertance. Chaque patient a fait l’objet d’un double examen par analyse manuelle (examinateurs KR, RA) de l’ensemble du dossier patient et les conflits ont été résolus par un clinicien ayant une expertise en médecine et en validation de dossiers pour la recherche sur le suicide (CGW). L’accord entre examinateurs a été mesuré à l’aide de la statistique kappa de Cohens. Dans l’ensemble, un patient a été étiqueté manuellement comme un cas si les notes correspondantes du patient contiennent des preuves d’intention suicidaire ou d’intention de mourir à la suite d’un comportement d’automutilation4. Les patients avec des codes CIM pour les pensées et les comportements d’automutilation devaient également avoir des informations à l’appui dans leurs notes pour être étiquetés comme des cas. Dans les situations où un patient a nié une tentative de suicide, mais qu’un clinicien a documenté qu’une tentative avait eu lieu, les examinateurs de dossiers ont suivi le jugement des prestataires et ont attribué une étiquette de cas.
L’évaluation consistait à comparer les évaluations des patients par examen manuel avec les évaluations générées automatiquement par le système NLP, les codes ICD10CM et les formulaires psychiatriques pour les idées suicidaires et les tentatives de suicide. Pour les patients non classés, nous avons mesuré les valeurs de performance en termes de précision (P) ou de valeur prédictive positive (VPP), de rappel (R) et de score F1 (F1). Pour les listes de patients classées générées par le système PNL, nous avons rapporté les courbes de précision-rappel, la précision des K patients les mieux classés (P@K) et l’aire sous la courbe de précision-rappel (AUPRC), qui a été estimée sur la base de la moyenne mesure de précision21. Nous avons utilisé une procédure bootstrap pour calculer les intervalles de confiance (IC) à 95 % des estimateurs AUPRC en utilisant les quantiles empiriques des données rééchantillonnées générées par 1 000 répliques bootstrap.22,23.
Une approche faiblement supervisée pour étiqueter les cas d’idées suicidaires et de tentatives de suicide
L’objectif principal de cette étude était d’effectuer une extraction de haute précision des cas d’idées suicidaires et de tentatives de suicide de tous les patients extraits par le système PNL. Puisque nous avons conçu le système NLP pour classer les patients les plus pertinents pour les deux résultats liés au suicide en haut de chaque liste, nous avons proposé de résoudre cette tâche en trouvant d’abord une valeur seuil, K, pour une précision cible donnée, P@K , puis en sélectionnant les K patients les mieux classés dans la liste extraite en tant que cas. Dans nos expériences, nous avons extrait des valeurs de K telles que P@K=90% et P@K=80%.
Pour calculer P @ K pour tout K dans une liste classée (notée patient[1..N]où \(K \le N\)), nous avons conçu une approche faiblement supervisée qui attribue une étiquette de cas à chaque patient de la liste avec une valeur de confiance ou une probabilité spécifique (Fig.1). Cette approche combine un petit ensemble de patients étiquetés comme cas ou non-cas avec l’ensemble restant de patients non étiquetés dans la liste classée. Nous avons défini l’ensemble étiqueté initial pour inclure tous les patients de la liste classée qui ont été validés manuellement ou qui avaient des formulaires psychiatriques pour l’évaluation des idées suicidaires et des tentatives de suicide. Sur la base de notre évaluation, nous avons supposé que chaque patient de cet ensemble initial était étiqueté comme cas ou non-cas avec une confiance élevée (ou avec une probabilité \(p = 1\)). Ceci est précisé par le résultatValidation procédure de la Fig.1.

Une méthode faiblement supervisée d’attribution d’étiquettes de cas pour une liste classée de patients récupérée par le système NLP.
La probabilité d’attribution de cas pour un patient non étiqueté a été calculée en fonction de son rang dans la liste et de la disponibilité des codes CIM pertinents dans son dossier (Fig.1, lignes 1321). Plus précisément, pour chaque patient de la liste classée, nous avons initialement calculé une probabilité de pertinence (notée \(p_\textrang\)) qui est proportionnel à la position de rang du patient dans la liste comme décrit dans les lignes 18 de la Fig.1. Comme observé, \(p_\textrang = 1\) pour le premier patient de la liste ; alors, \(p_\textrang\) décroît de manière monotone jusqu’à 0, ce qui correspond à la probabilité de pertinence du dernier patient de la liste. En outre, sur la base de l’évaluation réalisée dans cette étude et de nos travaux antérieurs4nous avons calculé \(p_\textICD9\) et \(p_\textICD10\) comme probabilités d’avoir une issue suicidaire pour chaque patient avec au moins une ICD10CM et ICD9CM pertinentes, respectivement. Nous avons supposé que ces probabilités étaient nulles pour les patients sans code CIM pour les pensées et les comportements d’automutilation. Lorsque les rangs NLP et les codes CIM ont été pris en compte, nous avons calculé la probabilité d’attribuer au patient k à une étiquette de cas comme \(p_\textNLP + \textICD \left( k \right) = \max \left( {p_\textrank \left ( k \right),p_{\textICD9} ,p_{\textICD10} } \right)\) comme indiqué par la ligne 14 sur la Fig.1. Ainsi, en utilisant cette probabilité et une variable aléatoire tu générée à partir de la distribution uniforme standard, l’attribution d’étiquettes pour le patient k a été effectuée comme indiqué par les lignes 1520. De plus, pour évaluer la contribution des codes CIM à la sélection des cas d’idées suicidaires et de tentatives de suicide, nous avons mis en œuvre une approche similaire faiblement supervisée en utilisant uniquement \(p_{\textrang}\) probabilités d’attribution de cas. Cette méthode d’attribution de cas basée sur la PNL a été réalisée en remplaçant la ligne 14 de la Fig.1 par \(p_\textPNL \left( k \right) = p_{\textrank} \left( k \right)\). Notamment, \(p_{\textPNL + \textICD}\) et \(p_{\textPNL}\) pourrait également être fixé à une valeur minimale de 0,5 en supposant que chaque patient de la liste classée avait au moins une chance égale d’être assigné au hasard à un cas. Cependant, cette approche ne contribuera pas à la sélection des meilleurs cas K à P@K=90 % ou P@K=80 % et entraînera principalement une augmentation du nombre de cas dans la moitié inférieure de la liste des patients classés où \(p_{{{\textrang}}} \left( k \right) < 0.5\). Les codes ICD9CM et ICD10CM pour les pensées et les comportements d’automutilation utilisés dans cette étude sont répertoriés dans les tableaux S1S4.