L’apprentissage automatique révèle des cas de diabète cachés parmi les personnes ayant une glycémie à jeun normale
Dans une étude récente publiée dans Médecine BMCles chercheurs ont identifié des personnes diabétiques parmi des populations présentant une glycémie à jeun normale à l’aide d’indices d’examen physique courants via des techniques d’apprentissage automatique.
Étude: Détection de patients diabétiques chez les personnes ayant une glycémie à jeun normale grâce à l’apprentissage automatique. Crédit d’image : NicoElNino/Shutterstock.com
Arrière-plan
Le diabète sucré (DM) constitue un défi de santé publique croissant, avec de nombreux cas asymptomatiques non détectés, entraînant des complications. La Fédération internationale du diabète prévoit une augmentation de 537 millions de personnes diabétiques en 2021 à 643 millions d’ici 2030.
Les cas non diagnostiqués pèsent sur le système de santé, ce qui incite à mettre l’accent sur un diagnostic précoce et à se tourner vers l’apprentissage automatique pour un dépistage efficace. Malgré son exactitude éprouvée dans la prévision des risques, se fier uniquement à la glycémie à jeun peut négliger de nombreux cas.
De nombreuses personnes atteintes de diabète présentent une glycémie à jeun normale, ce qui souligne la nécessité de méthodes de dépistage plus larges et de recherches plus poussées pour affiner la détection dans divers groupes démographiques.
À propos de l’étude
La présente étude a collecté des données d’examen physique dans trois hôpitaux afin de développer un cadre permettant d’identifier les patients diabétiques ayant une glycémie à jeun normale. Ces données, classées D1, D2 et D3, ont été soumises à un nettoyage rigoureux, avec des échantillons classés sur la base des critères de diagnostic du diabète de l’Organisation mondiale de la santé (OMS).
En raison d’un déséquilibre de classe évident dans les ensembles de données, la technique de suréchantillonnage synthétique des minorités (SMOTE) a été mise en œuvre, suivie d’une normalisation du score Z à des fins de standardisation.
Le modèle informatique utilisait plusieurs techniques d’apprentissage automatique, le réseau neuronal profond (DNN) affichant des performances supérieures. Des mesures établies telles que la sensibilité et la précision ont été utilisées pour affiner le modèle, compte tenu du déséquilibre important entre les classes des données.
Malgré les 27 fonctionnalités initialement utilisées pour les prédictions, une volonté d’optimiser celles-ci a été réalisée en éliminant les redondances potentielles. Celui-ci s’est concentré sur 13 fonctionnalités clés, discernées grâce à la curation manuelle et à l’analyse de pertinence maximale et de redondance minimale (mRMR).
Pour une application pratique, un outil en ligne, DRING, a été conçu. Au-delà de la simple compréhension des facteurs de risque généraux, l’étude a également introduit une méthode adaptée de l’algorithme d’importance des caractéristiques de permutation, offrant une évaluation plus individualisée du risque d’apparition du diabète.
Résultats de l’étude
Entre 2015 et 2018, des données d’examen physique ont été collectées auprès du premier hôpital affilié du Wannan Medical College, donnant lieu à 61 059 échantillons avec une glycémie à jeun normale (NFG).
Près de 1 % (603 participants) d’entre eux ont été identifiés comme diabétiques sur la base d’un seuil de taux d’hémoglobine A1c (HbA1c) de 6,5 %. Notamment, le groupe diabétique avait un indice de masse corporelle (IMC) moyen de 1,08 unités plus élevé et était, en moyenne, plus âgé de 10,6 ans par rapport au groupe non diabétique.
Les caractéristiques les plus distinctives entre les diabétiques et les non-diabétiques étaient le nombre absolu de lymphocytes (ALC), l’âge, la glycémie à jeun (FBG), l’IMC et le nombre de globules blancs (WBC), avec 11 autres caractéristiques significatives également identifiées.
Étant donné que plusieurs paires de caractéristiques, telles que l’hémoglobine (HGB) et l’hématocrite (HCT) ou les neutrophiles (NEU) et les lymphocytes (LYM), étaient fortement corrélées, il était nécessaire d’éliminer la redondance pour stabiliser le modèle.
En utilisant la curation manuelle et la technique mRMR, un espace de fonctionnalités optimal a été identifié. Sur les 27 fonctionnalités initiales, seules 13 ont été retenues. Les deux méthodes ont mis en évidence l’importance du FBG, de l’IMC, de l’ALC et de l’âge. Lors des tests, les modèles construits avec 13 fonctionnalités ont légèrement surpassé ceux qui en avaient 27, mettant en valeur des améliorations de précision et de sensibilité.
Une validation plus approfondie a été effectuée sur deux ensembles de tests indépendants, D2 et D3. Les valeurs de l’aire sous la courbe (AUC) des deux modèles dépassaient 0,95 à J2 et approchaient 0,90 à J3. De plus, l’indice de Youden (ou J) à D2 était particulièrement élevé. Les modèles basés sur la curation manuelle ont généralement surpassé ceux basés sur mRMR.
Un inconvénient notable était le taux de faux positifs du modèle mRMR sur l’ensemble de données D2 extrêmement déséquilibré. Néanmoins, ces résultats ont démontré la capacité du modèle à identifier les diabétiques non diagnostiqués dans la population NFG.
Pour identifier les caractéristiques qui étaient primordiales pour déterminer le risque de diabète, l’étude s’est appuyée sur les poids du modèle de curation manuelle à 13 caractéristiques. L’ANS, la FBG, l’âge, le sexe et l’IMC sont apparus comme les cinq principales variables.
Des recherches antérieures ont suggéré que même dans la plage NFG, un niveau accru de FBG amplifie le risque de diabète. L’âge et l’IMC ont notamment été réaffirmés comme facteurs de risque de diabète bien établis, tandis que la différence de risque de diabète entre les sexes a été soulignée. D’autres facteurs notables comprenaient le volume corpusculaire moyen (MCV) et le nombre absolu de monocytes (AMC).
Pour adapter les évaluations du risque diabétique à chaque patient, un cadre basé sur l’importance des caractéristiques de permutation (PFI) a été établi. Par exemple, le cas d’un ensemble de validation externe a été disséqué pour déterminer les facteurs de risque.
Bien que son FBG apparaisse dans la plage normale, l’âge, le FBG et l’IMC de cette personne sont apparus comme les principaux facteurs de risque de diabète. De tels résultats soulignent le potentiel d’interventions personnalisées basées sur les profils de risque individuels.
Le point culminant de ce travail a été l’intégration de cette analyse dans le serveur Web DRING, rationalisant ainsi son application pratique.