Prévisions d’hospitalisations liées au COVID-19 à l’aide de données de recherche sur Internet – Rapports scientifiques

Nous nous sommes concentrés sur les prévisions nationales d’admission à l’hôpital et les prévisions au niveau de l’État de 51 États des États-Unis, dont Washington DC. Les entrées comprennent les cas supplémentaires confirmés, le pourcentage de la population vaccinée, les nouvelles admissions à l’hôpital confirmées et les fréquences des requêtes de recherche Google. Les données au niveau de l’État et les données nationales ont été directement obtenues à partir des sources de données respectives décrites dans cette section. Notre méthode de prédiction est inspirée d’ARGO9avec des détails également présentés dans cette section.

Disponibilité des données/codes

Toutes les données utilisées dans cette étude sont accessibles au public à partir des sources de données respectives décrites ici. Par souci d’exhaustivité, les ensembles de données analysés au cours de l’étude en cours et le code sont également déposés dans le référentiel de données Harvard, DOI : 10.7910/DVN/S7HOTD. Toutes les analyses, y compris la génération de tous les chiffres, ont été effectuées avec le logiciel statistique R20version 4.1.1 (https://www.R-project.org/).

Données liées au COVID-19

Nous avons utilisé les cas supplémentaires confirmés de COVID-19 signalés à partir des données JHU CSSE21pourcentage de la population entièrement vaccinée des Centers for Disease Control and Prevention (CDC)22 qui est moyenné parmi les pourcentages de la population entièrement vaccinée dans tous les États et les nouvelles admissions à l’hôpital confirmées par COVID-19 du HHS17. Les ensembles de données ont été collectés du 15 juillet 2020 au 15 janvier 2021.

figure 3
figure 3

Gauche : nouvelles hospitalisations hebdomadaires nationales liées au COVID-19 (noir), cas confirmés hebdomadaires nationaux de COVID-19 (bleu) et pourcentage national de la population vaccinée (rouge), échelonnés en conséquence. À droite : COVID-19 nouvelles hospitalisations hebdomadaires (rouge) et les 3 requêtes Google les plus fréquentes (retard optimal) qui présentent les coefficients de corrélation les plus élevés avec les hospitalisations : durée de contagion (bleu), perte d’odorat (rouge) et perte de goût (vert).

Tableau 1 Métriques d’erreur de comparaison au niveau national.
Tableau 2 Métriques d’erreur de comparaison au niveau de l’état.

Données de recherche Google

Google Trends fournit une estimation de la fréquence de recherche Google pour le terme de requête spécifié23. Nous avons obtenu des données de recherche en ligne de Google Trends23 pour la période du 15 juillet 2020 au 15 janvier 2021. Pour récupérer les fréquences de recherche de séries chronologiques d’une requête souhaitée, il faut spécifier les informations géographiques et la période de la requête sur Google Trends. La fréquence renvoyée par Google Trends est obtenue en échantillonnant toutes les fréquences de recherche Google brutes contenant cette requête.23. La procédure détaillée de collecte de données et le prétraitement ultérieur des données (introduits dans les sections ci-dessous) sont illustrés dans l’organigramme (Figure S1). À l’étape 1 (cases surlignées en vert dans la figure S1), pour organiser le pool de requêtes potentiellement prédictives, nous avons d’abord commencé avec 129 requêtes liées à la grippe basées sur des études antérieures.9,24,25. Ensuite, nous avons changé les mots-clés Influnza et Flu en Coronavirus et COVID-19, respectivement. Nous avons également ajouté des termes de recherche supplémentaires spécifiques au COVID-19 à partir de la page Google Trends Coronavirus Story26. Enfin, pour chaque requête, nous avons également inclus ses principales requêtes et sujets connexes basés sur le site Web de Google Trends.23. Enfin, nous nous retrouvons avec 256 requêtes liées au COVID-19 (tableau S1). Les deux sections suivantes décriront en détail le nettoyage et le prétraitement ultérieurs des données, illustrés aux étapes 2 et 3 de la figure S1.

Filtre de plage inter-quantile (IQR) et décalages optimaux pour les données de recherche Google

Les fréquences de recherche Google brutes obtenues à partir de Google Trends23 sont observés comme instables et rares19. Une telle instabilité et rareté peuvent affecter négativement les performances de prédiction des modèles de régression linéaire qui sont sensibles aux valeurs aberrantes. Pour traiter ces valeurs aberrantes dans les données de recherche Google, nous avons utilisé un filtre IQR19 pour supprimer et corriger les valeurs aberrantes sur une base de fenêtre glissante. Les données de recherche qui sont au-delà de 3 écarts-types par rapport à la moyenne des 7 derniers jours sont examinées et supprimées.19qui est également illustré à l’étape 2 (boîte en surbrillance orange) première sous-étape de la figure S1.

Les tendances des fréquences de recherche Google ont souvent quelques jours d’avance sur les hospitalisations, ce qui indique que les données de recherche peuvent contenir des informations prédictives sur les hospitalisations. La figure 4 illustre le comportement de retard entre les fréquences des requêtes de recherche Google et les hospitalisations nationales. Pour utiliser pleinement les informations prédictives dans les termes de recherche nationaux de Google, nous avons trouvé et appliqué des décalages optimaux19 aux fréquences de recherche Google filtrées pour correspondre aux tendances des hospitalisations nationales. Pour chaque requête, une régression linéaire des nouvelles hospitalisations liées au COVID-19 est ajustée à la fréquence de recherche décalée de Google, en tenant compte d’une plage de décalages (de 4 à 35). Le retard résultant de l’erreur quadratique moyenne la plus faible est sélectionné comme retard optimal pour cette requête. Les données utilisées pour trouver les décalages optimaux vont du 1er août 2020 au 31 décembre 2020, et cela est illustré dans la deuxième sous-étape de l’étape 2 (Figure S1).

Figure 4
chiffre 4

Requête de recherche Google combien de temps contagieux et nouvelles hospitalisations hebdomadaires COVID-19 Illustration du retard du pic entre les fréquences de recherche de la requête de recherche Google (combien de temps contagieux en bleu) et les nouvelles hospitalisations hebdomadaires COVID-19 au niveau national (rouge). Les axes Y sont ajustés en conséquence.

Sélection de termes de recherche google

Après avoir appliqué des décalages optimaux aux 256 termes liés au COVID-19, nous avons en outre sélectionné les requêtes qui ont des coefficients de corrélation avec les hospitalisations nationales au COVID-19 supérieures à 0,5 pour la période du 1er août 2020 au 31 décembre 2020. Nous avons appliqué 7 jours moyenne mobile pour lisser davantage les fluctuations hebdomadaires des requêtes de recherche Google sélectionnées. Les trois procédures ci-dessus sont illustrées à l’étape 3 de la figure S1, servant d’étape finale de l’ensemble de la procédure de prétraitement des données. Le tableau 3 montre les 11 termes importants sélectionnés ainsi que leurs décalages optimaux. Le tableau S2 affiche les coefficients de corrélation des 11 requêtes de recherche Google importantes avec un retard optimal. Le tableau 3 confirme l’intuition que lorsque les gens sont infectés, ils recherchent d’abord une requête générale comme les symptômes du covid-19, car cette requête a un décalage optimal relativement important. Une fois les symptômes développés, les gens peuvent commencer à rechercher des symptômes spécifiques tels que la perte d’odorat qui a un décalage optimal relativement plus petit. Des termes de requête apparemment similaires peuvent avoir des modèles de recherche légèrement différents, et donc des décalages optimaux différents, comme indiqué dans la section Analyse descriptive des données d’entrée.

Tableau 3 Retards optimaux des termes importants sélectionnés.

Prédiction inspirée par ARGO

Laisser \(\haty_t,r\) être les admissions quotidiennes à l’hôpital de la région r le jour t; \(X_k,t\) être les données de recherche Google du terme k le jour t; \(c_t,r\) être les cas confirmés supplémentaires JHU COVID-19 le jour t de région r; \(v_t,r\) être le pourcentage cumulé de personnes qui se font vacciner par jour t de région r; \(\mathbb je_\t, d\\) être l’indicateur du jour de la semaine pour le jour t (c’est à dire \(\mathbb je_\t, 1\\) indique le jour t étant lundi). Debout au jour T, pour prévoir je– hospitalisation d’un jour à l’avance de l’état r, \(\haty_T+l,r\)nous avons utilisé un estimateur linéaire pénalisé comme suit :

$$\beginaligned \beginaligned \haty_T+l,r = \hat\mu _y,r+\sum ^I_ i=0\hat\alpha _i,ry_Ti,r + \sum _j\in J\hat\beta _j,r c_T+lj,r+ \sum _m\in M_r\hat\gamma _m,ry_T,m+ \sum _ q\in Q\hat\phi _q,rv_T+lq,r+ \sum ^K_k=1\hat\delta _k,rX_k,T+l-\hatO_k + \sum ^6_d=1\hat\tau _d,r\mathbb I_\T+l, d\ \endaligné \endaligné$$

(1)

\(je=6\) en tenant compte des admissions hospitalières quotidiennes consécutives décalées d’une semaine ; \(J=\max \gauche( \7,28\,l\droite)\)compte tenu des cas confirmés décalés ; \(M\) est l’ensemble des états géographiquement voisins de l’état r; \(Q=\max \gauche( 7,l\droite)\)compte tenu des données de vaccination décalées d’une semaine ; \(\hatO_k=\max \left( O_k,l\right)\) est le décalage optimal ajusté pour le terme k; \(K=11\), en considérant 11 termes de recherche Google sélectionnés. Les coefficients pour je-prédictions journalières de la région r, \(\\mu _y,r,\varvec\alpha =(\alpha _1,r,\ldots ,\alpha _6,r), \varvec\beta = (\beta _1,r, \ldots , \beta _J), \varvec\gamma =(\gamma _1,r,\ldots ,\gamma _), \varvec\phi =\phi _max(7,l),r, \varvec\delta =(\delta _1, r,\ldots ,\delta _11,r), \varvec\tau =(\tau _1,r, \ldots , \tau _6,r)\\)ont été calculés par

$$\beginaligned \beginaligned \underset\mu _y,r,\varvec\alpha ,\varvec\beta ,\varvec\gamma ,\varvec\phi ,\varvec\delta ,\varvec\tau ,\varvec\lambda \mathrm argmin \sum _t=TM-l+1^Tl&\omega ^ Tl-t+1\Bigg ( y_t+l,r-\mu _y,r – \sum ^6_i=0\alpha _i,r y_ti,r-\sum _j\in J\hat\beta _j,rc_t+lj,r-\sum _m\in M _r\hat\gamma _m,ry_t,m\\ \;\;\;&- \sum _q\in Q\hat \phi _q,rv_t+lq,r -\sum ^5_k=1\hat\delta _k,rX_k, t+l-\hatO_k – \sum ^6_d=1\hat\tau _d,r\mathbb I_\t+ l, d\\Bigg )^2\\ \;\;\;&+ \lambda _\alpha \Vert \varvec\alpha \Vert _1+\lambda _\beta \Vert \varvec\beta \Vert _1+\lambda _\gamma \Vert \varvec\gamma \Vert _1+ \lambda _\phi \Vert \varvec\phi \Vert _1+\lambda _\delta \Vert \varvec\delta \Vert _1 +\lambda _\tau \Vert \varvec\tau \Vert _1 \endaligné \endaligné$$

(2)

M = 56 qui est la durée de notre stage ; \(\oméga = 0,8\) est le poids décroissant exponentiellement dans le temps qui attribue un poids plus élevé à une observation plus récente. Région \(\varvecr\) se compose des États-Unis et de ses 51 États, dont Washington DC. Pour la formation au niveau national américain, les hospitalisations des états voisins, \(y_t,m\)et leurs coefficients, \(\varvec\gamma\), sont exclus. Pour remédier à la rareté des données de recherche Google, nous avons utilisé la pénalité de la norme L1. Pour simplifier, les hyperparamètres \(\varvec\lambda =(\lambda _\alpha ,\lambda _\beta ,\lambda _\gamma ,\lambda _\phi ,\lambda _\delta , \lambda _\tau )\) pour la pénalité de la norme L1 ont été fixées pour être égales et obtenues via une validation croisée de 10 fois.

Avec la formulation ci-dessus, chaque lundi du 4 janvier 2021 au 27 décembre 2021, nous avons formé notre modèle de manière itérative et fait des prédictions rétrospectives nationales et étatiques des hospitalisations hors échantillon jusqu’à 14 jours dans le futur. Nous avons ensuite agrégé les prévisions quotidiennes en prévisions à une semaine et à deux semaines. Par exemple, \(\haty_T+1:T+7,r=\sum ^7_i=1\haty_T+i,r\) et \(\haty_T+8:T+14,r=\sum ^14_i=8\haty_T+i,r\ ) sont la prédiction à 1 semaine et la prédiction à 2 semaines le jour J de région rrespectivement.

Métriques d’évaluation

Erreur quadratique moyenne (RMSE) entre une estimation d’hospitalisation \(\haty_t\) et la vraie valeur \(yt\) sur la période \(t=1,\ldots , T\) est \(\sqrt\frac1T\sum _t=1^T \left( \haty_t – y_t\right) ^2\). Erreur absolue moyenne (MAE) entre une estimation \(\haty_t\) et la vraie valeur \(yt\) sur la période \(t=1,\ldots , T\) est \(\frac1T\sum _t=1^T \left| \haty_t – y_t\right|\). La corrélation est le coefficient de corrélation de Pearson entre \(\hat\varvecy=(\haty_1, \dots , \haty_T)\) et \(\varvecy=(y_1,\dots , y_T)\). Toutes les estimations \(\haty_t\) et la vraie valeur \(yt\) ont été agrégées hebdomadairement avant de calculer RMSE, MAE et Cor.

Approbation éthique et consentement à participer

Cette étude n’a pas impliqué de participants humains, de données ou de tissus. Elle a été réalisée en utilisant uniquement des données agrégées et anonymisées. L’approbation du comité d’examen institutionnel n’était pas nécessaire. Toutes les méthodes ont été réalisées conformément aux directives et réglementations en vigueur.

www.actusduweb.com
Suivez Actusduweb sur Google News


Ce site utilise des cookies pour améliorer votre expérience. Nous supposerons que cela vous convient, mais vous pouvez vous désinscrire si vous le souhaitez. J'accepte Lire la suite