Ce document a été généré avec l’outil R Markdown. Le code R et les données qui ont été utilisées sont ainsi mis à disposition et permettent donc la reproductibilité des résultats obtenus.

Par ailleurs, le document est mis à jour automatiquement chaque jour. Pour consulter les archives, cliquer ici.

Source de données utilisées:

Questions de recherche:

En fonction des réponses aux questions précédentes :

Packages et fonctions locales à charger:

library(cartogram)
library(cartography)
## Warning in fun(libname, pkgname): rgeos: versions of GEOS runtime 3.9.0-CAPI-1.16.2
## and GEOS at installation 3.8.0-CAPI-1.13.1differ
library(forecast)
library(kableExtra)
library(rgdal)
library(tidyverse)
library(vistime)
library(zoo)
source("fonctions.R")

Version de R utilisée:

R.version
##                _                           
## platform       x86_64-pc-linux-gnu         
## arch           x86_64                      
## os             linux-gnu                   
## system         x86_64, linux-gnu           
## status                                     
## major          4                           
## minor          0.3                         
## year           2020                        
## month          10                          
## day            10                          
## svn rev        79318                       
## language       R                           
## version.string R version 4.0.3 (2020-10-10)
## nickname       Bunny-Wunnies Freak Out

1 Données hospitalières relatives à l’épidémie de COVID-19

1.1 Présentation des données

1.1.1 Données par département

Dans un premier temps, on met à jour les données tous les jours de façon automatique.

Comment se présente les données du Ministère de la Santé ?

dep jour incid_hosp incid_rea incid_dc incid_rad nom_dep region
23117 69 2021-02-11 54 10 7 55 Rhône Auvergne-Rhône-Alpes
23164 69 2021-02-14 16 3 4 9 Rhône Auvergne-Rhône-Alpes
23191 69 2021-02-12 56 10 5 47 Rhône Auvergne-Rhône-Alpes
23210 69 2021-02-13 32 4 5 34 Rhône Auvergne-Rhône-Alpes

Ici il s’agit des données qui donnent chaque jour par département :

  • le nombre de nouvelles entrées en hospitalisations
  • le nombre de nouvelles entrées en réanimations
  • le nombre de décés
  • le nombre de sorties

On créé des fenêtres de 7 jour à partir du dernier jour observé. Par exemple si nous avons les données d’hospitalisation jusqu’au 14 février 2021 la semaine qui correspond à la semaine t0 correspond à la fenêtre [08 février 2021; 14 février 2021]. Dans chaque fenêtre, on calcule le nombre de nouvelles hospitalisations, réanimations et décès par département.

1.1.2 Données par région

On dispose égaglement des données d’hospitalisations/réanimations/décès par classe d’âge à la différence qu’il s’agit de données régionales et qu’il s’agit des données de stock (nombre d’hospitalisations et réanimations en cours) et pas du nombre de nouvelles hospitalisations. On peut toutefois estimer le nombre de nouvelles hospitalisations ou décès en faisant les différences des valeurs d’un jour sur l’autre.

my_url <- "https://www.data.gouv.fr/fr/datasets/r/08c18e08-6780-452d-9b8c-ae244ad529b3"
if (!file.exists(paste0(getwd(), "/data/age", to_day, ".csv"))) {
  download.file(my_url, destfile = paste0(getwd(), "/data/age", to_day, ".csv"))
}
hospital_age <- read.csv(paste0(getwd(), "/data/age", to_day, ".csv"), sep = ";")
# On ajoute le nom des régions:
hospital_age <- merge(hospital_age, code_region, by.x = "reg", by.y = "code")
# On utilise le format date pour coder le jour:
hospital_age$jour <- as.Date(hospital_age$jour)
# on affecte la semaine
hospital_age$semaine <- num_semaine(hospital_age$jour)

# on calcule les nouvelles hospitalisations/réanimations/décès
hospital_age$new_hosp <- 0
hospital_age$new_rea <- 0
hospital_age$new_dc <- 0

for (k in nrow(hospital_age):1) {
  age_k <- hospital_age$cl_age90[k] 
  jour_k <- hospital_age$jour[k] 
  reg_k <- hospital_age$reg[k] 
  rad_k <- hospital_age$rad[k] 
  dc_k <- hospital_age$dc[k] 
  
  ind_k <- which(hospital_age$reg == reg_k & hospital_age$cl_age90 == age_k & hospital_age$jour == jour_k - 1)
  if (length(ind_k) == 1) {
    hospital_age$new_hosp[k] <- max((hospital_age$hosp[k] - hospital_age$hosp[ind_k]) + 
                                (hospital_age$dc[k] - hospital_age$dc[ind_k]) +     
                              (hospital_age$rad[k] - hospital_age$rad[ind_k]) +
                              (hospital_age$rea[k] - hospital_age$rea[ind_k]), 0)
    hospital_age$new_rea[k] <- max((hospital_age$dc[k] - hospital_age$dc[ind_k]) +     
                              (hospital_age$rea[k] - hospital_age$rea[ind_k]), 0) 
    hospital_age$new_dc[k] <- max((hospital_age$dc[k] - hospital_age$dc[ind_k]), 0) 
  }
}
# on aggrege par semaine
my_basis_age <- hospital_age %>%
  group_by(region, semaine, cl_age90) %>%
  dplyr::summarize(hosp = sum(new_hosp),
                   rea = sum(new_rea),
                   dc = sum(new_dc),
            jour = max(jour),
            region = unique(region))
# On met au format wide
my_basis_age_wide <- tidyr::pivot_wider(my_basis_age,
                           id_cols = c("semaine", "region", "jour", "hosp", "rea", "dc", "cl_age90"),
                           names_from = "cl_age90",
                           values_from = c("hosp", "rea", "dc"))

1.2 Quelle est la situation cette semaine ?

On va calculer quelques chiffres clés pour mesure la situation des régions sur les 7 derniers jours qui viennent de s’écouler : [08 février 2021; 14 février 2021].

1.2.1 Résumé des hospitalisations

On représente par région:

  • le nombre total de nouvelles hospitalisations (semaine [08 février 2021; 14 février 2021]).

  • le nombre moyen journalier de nouvelles hospitalisations (semaine [08 février 2021; 14 février 2021]).

  • l’évolution (en pourcentage) entre la semaine [01 février 2021; 07 février 2021] et la semaine [08 février 2021; 14 février 2021].

region total semaine moyenne jour evolution en %
Ile-de-France 1980 283 -8.3
Provence-Alpes-Côte d’Azur 1470 210 -9.5
Auvergne-Rhône-Alpes 1318 188 -8.5
Hauts-de-France 977 140 -2.1
Grand Est 894 128 -6.8
Occitanie 737 105 -13.9
Nouvelle-Aquitaine 594 85 -15.4
Bourgogne-Franche-Comté 544 78 -16.4
Centre-Val de Loire 378 54 -0.5
Normandie 364 52 -28.6
Pays de la Loire 306 44 -24.4
DOM-TOM 290 41 62
Bretagne 231 33 -27.1
Corse 25 4 -10.7
France entière 10108 1444 -9.8

On représente par département la carte des nouvelles hospitalisations sur la dernière semaine observée ([08 février 2021; 14 février 2021])

## OGR data source with driver: ESRI Shapefile 
## Source: "/media/thibault/My Passport/confinement/covid/departements 2015/DEPARTEMENT", layer: "DEPARTEMENT"
## with 96 features
## It has 11 fields

1.2.2 Résumé des réanimations

On représente par région:

  • le nombre total de nouvelles réanimations (semaine [08 février 2021; 14 février 2021]).

  • le nombre moyen journalier de nouvelles réanimations (semaine [08 février 2021; 14 février 2021]).

  • l’évolution (en pourcentage) entre la semaine [01 février 2021; 07 février 2021] et la semaine [08 février 2021; 14 février 2021].

region total semaine moyenne jour evolution en %
Ile-de-France 417 60 -3.2
Provence-Alpes-Côte d’Azur 229 33 -3.4
Auvergne-Rhône-Alpes 225 32 9.2
Hauts-de-France 179 26 2.9
Grand Est 150 21 -0.7
Occitanie 146 21 -14.1
Nouvelle-Aquitaine 97 14 -24.2
Bourgogne-Franche-Comté 92 13 -1.1
Centre-Val de Loire 65 9 14
Normandie 61 9 7
DOM-TOM 59 8 168.2
Pays de la Loire 48 7 -12.7
Bretagne 30 4 -11.8
Corse 11 2 120
France entière 1809 258 -0.6

On représente par département la carte des nouvelles réanimations sur la dernière semaine observée ([08 février 2021; 14 février 2021])

1.2.3 Résumé des décès

On représente par région:

  • le nombre total de nouveaux décès (semaine [08 février 2021; 14 février 2021]).

  • le nombre moyen journalier de nouveaux décès (semaine [08 février 2021; 14 février 2021]).

  • l’évolution (en pourcentage) entre la semaine [01 février 2021; 07 février 2021] et la semaine [08 février 2021; 14 février 2021].

region total semaine moyenne jour evolution en %
Ile-de-France 424 61 21.1
Auvergne-Rhône-Alpes 287 41 13.4
Provence-Alpes-Côte d’Azur 272 39 -19
Grand Est 252 36 3.3
Hauts-de-France 192 27 -20.7
Occitanie 173 25 0
Nouvelle-Aquitaine 167 24 10.6
Bourgogne-Franche-Comté 115 16 -18.4
Normandie 108 15 -0.9
Centre-Val de Loire 97 14 27.6
Pays de la Loire 92 13 7
Bretagne 51 7 -20.3
DOM-TOM 16 2 166.7
Corse 7 1 40
France entière 2253 322 0.8

On représente par département la carte des nouveaux décès sur la dernière semaine observée ([08 février 2021; 14 février 2021])

1.3 Comment a évolué la situation depuis le début de l’épidémie ?

1.3.1 Graphique d’évolution

1.3.1.1 Hospitalisations

Ici, on représente le nombre d’entrée en hospitalisations par semaine en fonction du temps sur la France entière.

On représente la même figure mais en mettant en relief la répartition des valeurs par région :

On représente la même figure mais en mettant en relief la répartition des valeurs par classe d’âge :

On met les valeurs en pourcentages pour que le graphique soit plus visible

1.3.1.2 Réanimations

On représente le nombre cummulé d’entrée en réanimations par semaine en fonction du temps sur la France entière.

On représente la même figure mais en mettant en relief la répartition des valeurs par région :

On représente la même figure mais en mettant en relief la répartition des valeurs par classe d’âge :

On met les valeurs en pourcentages pour que le graphique soit plus visibles

Enfin, on représente le ratio réanimations / hospitalisations :

1.3.1.3 Décès

On représente le nombre cummulé de nouveaux décès par semaine en fonction du temps sur la France entière.

On représente la même figure mais en mettant en relief la répartition des valeurs par région :

On représente la même figure mais en mettant en relief la répartition des valeurs par classe d’âge :

On met les valeurs en pourcentages pour que le graphique soit plus visibles

Enfin, on représente le ratio décès / réanimations :

1.3.2 Graphique d’évolution du nombre d’hospitalisations par départements groupés par région

On va s’intéresser au nombre d’hospitalisations. On peut représenter cette information département par département. Ici, on représente le nombre cummulé d’entrée par semaine en fonction du temps.

On représente d’abord les 4 régions actuellement les plus touchées et pour lesquelles l’axe des ordonnées va de 0 à 1200.

On représente ensuite les 8 régions suivantes les plus touchées mais avec une échelle différente sur l’axe des ordonnées (0 à 400):

Enfin, on représente les 2 régions les moins touchées et avec une échelle différente sur l’axe des ordonnées (0 à 200):

1.3.3 Cartes d’évolution sur les 6 dernières semaines

On représente l’évolution des hospitalisations sur les 6 dernières semaines:

On représente l’évolution des réanimations sur les 6 dernières semaines:

On représente l’évolution des décès sur les 6 dernières semaines:

1.4 Départements avec les plus fortes évolutions en valeurs absolues par rapport à la semaine précédente

On calcule la différence entre le nombre de nouveaux patients hospitalisés sur la période [08 février 2021; 14 février 2021] et sur la période [31 janvier 2021; 07 février 2021]

On va représenter des couleurs différentes en fonction du taux d’évolution découpées en 5 classes

  • taux d’évolution négatif
  • taux compris entre 0 et \(50\%\)
  • taux compris entre \(50\%\) et \(100\%\)
  • taux compris entre \(100\%\) et \(200\%\)
  • taux supérieur à \(200\%\)

2 Données relatives aux résultats des tests virologiques COVID-19

On met à jour les données chaque jour :

On va calculer quelques chiffres clés pour mesurer la situation des régions sur une fenêtre de 7 jours [05 février 2021; 11 février 2021]. On ne peut pas représenter les 7 derniers jours car les données ne sont pas encore diffusées.

On représente par région:

region total semaine moyenne jour evolution en %
Ile-de-France 29013 4145 -1.7
Provence-Alpes-Côte d’Azur 17857 2551 -4.9
Auvergne-Rhône-Alpes 15424 2203 -10.7
Hauts-de-France 13856 1979 4.1
Occitanie 10389 1484 -16.9
Grand Est 10300 1471 -8.8
Nouvelle-Aquitaine 7310 1044 -27.3
Pays de la Loire 4832 690 -16.5
Bourgogne-Franche-Comté 4810 687 -15.7
Normandie 4550 650 -20.6
Centre-Val de Loire 4062 580 -15.8
DOM-TOM 3252 465 2.2
Bretagne 3096 442 -17.2
Corse 361 52 -1.1
France entière 129112 18445 -9.1

2.1 Représentation des testés positifs par tranche d’âge en fonction du temps

On représente les testés positifs par tranche d’age:

On représente les testés positifs par région :

2.2 Graphique d’évolution du nombre de détectés positifs par départements groupés par région

2.3 Choix du décallage

Hypothèse: on suppose que le nombre d’admis en hospitalisations à la semaine t0 dépend du nombre de cas testés positifs sur une fenêtre de 7 jours qui aura commencé 10 jours avant la semaine t0. Exemple: la semaine t0 est [08 février 2021; 14 février 2021], on va l’expliquer par le nombre de personnes testées positive du [29 janvier 2021; 04 février 2021].

3 Préparation des données pour la modélisation

On prépare ici les données pour l’étape de modélisation:

3.1 Représentation du lien entre entre le nombre d’hospitalisations et le nombre de testés positifs

Dans un premier temps, on va rerésenter les départements par des cercles de taille proportionnelle aux nombres de testés positifs la semaine du [29 janvier 2021; 04 février 2021]. La couleur dépend du nombre d’hospitalisations observés la semaine du [08 février 2021; 14 février 2021].

On représente le nombre de nouvelles hospitalisations par semaine et par département en fonction du nombre de personnes testées positives quelques jours auparavant et on constate un lien très fort.

4 Prédire le nombre de testés positifs

On rappelle que les données sur le nombre de testés positifs ne sont disponible que jusqu’au 11 février 2021. Notre objectif est de prédire le nombre de testés positifs du 12 février 2021 au 18 février 2021 en utilisant des modèles de séries temporelles. En utilisant un modèle de série temporelle on suppose que ce qu’on observe à la date \(j\) dépend de ce qu’il s’est passé les dates antérieures. On va utiliser 3 modèles différents et en fonction de leur performence (sur les données passées), on va leur donner plus ou moins d’importance.

4.1 Modèle de type Box-Jenkins

Ici, on considère les données journalières, et non hebdomadaires. On va expliquer \(y_{d, t}^a\), le nombre de testés positifs le jour \(t\) dans le département \(d\) et dans la tranche d’âge \(a\). La stratégie utilisée est la suivante :

  • on différencie chaque série pour les rendre stationnaire (on ne vérifiera pas l’hypothèse de stationarité après la différenciation car on modélise énormément de modèle, ici on a \(A\times D\) séries où \(A\) est le nombre de classe d’âge et \(D\) le nombre de département et notre but est d’avoir une procédure automatique)

  • on cherche le meilleur modèle \(ARIMA(p,d,q)\) selon le critère AIC, à l’aide de la fonction auto.arima() (package forecast)

  • on prédit sur les 7 prochains jours à venir et on cummule ces prédictions pour avoir une prédiction du nombre de cas positifs sur la semaine à venir.

4.2 Modèle de type Lissage exponentiel

On va appliquer deux modèles de lissage exponentiels:

  • un modèle journalier qui va permettre de modéliser \(y_{d, t}^a\), le nombre de testés positifs le jour \(t\) dans le département \(d\) et dans la tranche d’âge \(a\) afin de prédire le nombre de testés positifs dans les 7 jours.

  • un modèle hebdomadaire qui va permettre de modéliser \(y_{d, s}^a\), le nombre de testés positifs la semaine \(s\) dans le département \(d\) et dans la tranche d’âge \(a\) afin de prédire le nombre de testés positifs la semaine à venir.

4.3 Combinaison des prédictions

On apprentit les modèles ci-dessus en enlevant la dernière semaine observée dans le but de donner des poids différents aux trois modèles de prédictions utilisés. Ainsi, on donnera davantage de poids aux modèles qui ont mieux prédit la dernière semaine observée.

# prediction par department 
nom_dep <- my_basis[my_basis$semaine == "semaine_t00", "dep"]
pred_cas <- numeric(length(nom_dep))
my_tab <- data.frame(true_P = numeric(0), pred_1 = numeric(0), pred_2 = numeric(0), pred_3 = numeric(0))
      
# apprentissage
for (k in length(nom_dep):1) {
  if (nom_dep[k] %in% c("975", "977", "978")) {
    my_basis <- rbind(data_k, my_basis)
  } else {
    for (age in c(0, 9, 19, 29, 39, 49, 59, 69, 79, 89, 90)) {
      
      # apprentissage
      temp <- test[test$dep == nom_dep[k] & test$cl_age90 == age & test$jour <= max(test$jour) - 7, ]
      my_ts <- zoo(temp$P, temp$jour)
      
      # Methode 1 : ARIMA
      my_ts_diff <- diff(my_ts)
      # tseries::adf.test(my_ts) 
      # tseries::adf.test(my_ts_diff)
      my_mod <- forecast::auto.arima(my_ts_diff)
      forecast_my_mod <- as.numeric(forecast(my_mod)$mean)
      pred_1 <- round(sum((as.numeric(my_ts[length(my_ts)]) + cumsum(forecast_my_mod))[1:7]), 0)
      # Méthode 2 : lissage exponentiel
      my_mod_exp <- ets(my_ts)
      forecast_my_mod_exp <- as.numeric(forecast(my_mod_exp)$mean)
      forecast_my_mod_exp <- ifelse(forecast_my_mod_exp > 0, forecast_my_mod_exp, 0)
      pred_2 <- round(sum(forecast_my_mod_exp[1:7]), 0)
      # Méthode 3 : lissage exponentiel sur données hebdomadaires
      temp <- my_basis[my_basis$dep == nom_dep[k] & !(my_basis$semaine %in% c("semaine_t0-1", "semaine_t0-2")), ]
      my_ts_exp <- zoo(temp[ , paste0("tranche_", age)], temp$jour)
      my_mod_exp_2 <- ets(my_ts_exp)
      forecast_my_mod_exp <- as.numeric(forecast(my_mod_exp_2)$mean)
      forecast_my_mod_exp <- ifelse(forecast_my_mod_exp > 0, forecast_my_mod_exp, 0)
      pred_3 <- round(forecast_my_mod_exp[1], 0)
      
      true_P <- sum(test[which(test$dep == nom_dep[k] & test$cl_age90 == age & 
                               test$jour > (max(test$jour) - 7)), "P"])
      my_tab <- rbind(my_tab, data.frame(true_P = true_P, pred_1 = pred_1, pred_2 = pred_2, pred_3 = pred_3))
    }
  }
}

res_lm_cas <- lm(true_P ~ pred_1 + pred_2 + pred_3, data = my_tab)

for (k in length(nom_dep):1) {
  data_k <- data.frame(dep = nom_dep[k], semaine = "semaine_t0-2", hosp = NA, rea = NA, rad = NA, dc = NA,
                         jour = to_day + 13, region = dep_region[match(nom_dep[k], dep_region$dep) , "region"],
                         tranche_9 = NA, tranche_19 = NA,  tranche_29 = NA,  tranche_39 = NA,  tranche_49 = NA, 
                         tranche_59 = NA,  tranche_69 = NA,  tranche_79 = NA,  tranche_89 = NA,  tranche_90 = NA, 
                         tranche_0  = NA)
  data_k_2 <- data.frame(dep = nom_dep[k], semaine = "semaine_t0-2", hosp = NA, rea = NA, rad = NA, dc = NA,
                         jour = to_day + 13, region = dep_region[match(nom_dep[k], dep_region$dep) , "region"],
                         tranche_9 = NA, tranche_19 = NA,  tranche_29 = NA,  tranche_39 = NA,  tranche_49 = NA, 
                         tranche_59 = NA,  tranche_69 = NA,  tranche_79 = NA,  tranche_89 = NA,  tranche_90 = NA, 
                         tranche_0  = NA)
      
  if (nom_dep[k] %in% c("975", "977", "978")) {
    my_basis <- rbind(data_k, my_basis)
  } else {
    for (age in c(0, 9, 19, 29, 39, 49, 59, 69, 79, 89, 90)) {
      # modèle journaliers 
      temp <- test[test$dep == nom_dep[k] & test$cl_age90 == age, ]
      my_ts <- zoo(temp$P, temp$jour)
      my_ts_diff <- diff(my_ts)
      # tseries::adf.test(my_ts) 
      # tseries::adf.test(my_ts_diff)
      my_mod <- forecast::auto.arima(my_ts_diff)
      forecast_my_mod <- as.numeric(forecast(my_mod)$mean)
      pred_1 <- round(sum((as.numeric(my_ts[length(my_ts)]) + cumsum(forecast_my_mod))[1:7]), 0)
      # modèles exponentiels
      # Méthode 2 : lissage exponentiel
      my_mod_exp <- ets(my_ts)
      forecast_my_mod_exp <- as.numeric(forecast(my_mod_exp)$mean)
      forecast_my_mod_exp <- ifelse(forecast_my_mod_exp > 0, forecast_my_mod_exp, 0)
      pred_2 <- round(sum(forecast_my_mod_exp[1:7]), 0)
      # Méthode 3 : lissage exponentiel sur données hebdomadaires
      temp <- my_basis[my_basis$dep == nom_dep[k] & !(my_basis$semaine %in% c("semaine_t0-2")), ]
      my_ts_exp <- zoo(temp[ , paste0("tranche_", age)], temp$jour)
      my_mod_exp_2 <- ets(my_ts_exp)
      forecast_my_mod_exp <- as.numeric(forecast(my_mod_exp_2)$mean)
      forecast_my_mod_exp <- ifelse(forecast_my_mod_exp > 0, forecast_my_mod_exp, 0)
      pred_3 <- round(forecast_my_mod_exp[1], 0)
      data_k[ , paste0("tranche_", age)] <- predict(res_lm_cas, newdata = data.frame(pred_1 = pred_1,
                                                                                     pred_2 = pred_2,
                                                                                     pred_3 = pred_3))
    }
    my_basis <- rbind(data_k, my_basis)
  }
}

On représente les testés positifs par région en ajoutant les valeurs de la semaine prédite:

On aggrège les données à la France entière:

5 Prédire le nombre d’hospitalisation de la semaine à venir

5.1 Modèle linéaire 1 (sur les départements) en fonction du nombre de cas détectés positifs : 1 modèle par région

Ici, pour chaque région \(r\), le modèle est de la forme

\[y_{i,t}^r=\beta_0^r+\beta_1^rx_{i,t'}^r+\epsilon_{i,t}^r\] avec:

  • \(y_{i,t}\) le nombre d’entrées à l’hôpital dans le département \(i\in r\) sur la période \(t\), où \(t\) est une fenêtre de 7 jours.
  • \(x_{i,t'}\) est le nombre de testés positifs dans le département \(i\in r\) sur la période \(t'\)\(t'\) correspond à la fenêtre \(t\), décalé de 10 jours.

En d’autres termes, on fait ici un modèle de régression par région. Cela suppose que le lien entre les tests virologiques et le nombre d’hospitalisation est homogène à l’intérieur d’une région et peut différer d’une région à une autre.

Apprentissage:

On modélise sur les observations des semaines précédentes:

Dependent variable:
hosp
regionAuvergne-Rhône-Alpes 13.106***
(1.702)
regionBourgogne-Franche-Comté 9.542***
(2.230)
regionBretagne 4.383
(3.269)
regionCentre-Val de Loire 8.521***
(2.646)
regionCorse 1.617
(4.511)
regionDOM-TOM -0.727
(3.146)
regionGrand Est 13.785***
(1.988)
regionHauts-de-France 27.315***
(2.646)
regionIle-de-France 31.463***
(2.522)
regionNormandie 5.519**
(2.815)
regionNouvelle-Aquitaine 2.732
(1.781)
regionOccitanie 3.179*
(1.656)
regionPays de la Loire 13.861***
(2.894)
regionProvence-Alpes-Côte d’Azur 6.402**
(2.520)
regionAuvergne-Rhône-Alpes:tranche_0 0.063***
(0.001)
regionBourgogne-Franche-Comté:tranche_0 0.075***
(0.003)
regionBretagne:tranche_0 0.057***
(0.004)
regionCentre-Val de Loire:tranche_0 0.057***
(0.004)
regionCorse:tranche_0 0.040*
(0.023)
regionDOM-TOM:tranche_0 0.107***
(0.008)
regionGrand Est:tranche_0 0.068***
(0.002)
regionHauts-de-France:tranche_0 0.055***
(0.001)
regionIle-de-France:tranche_0 0.057***
(0.001)
regionNormandie:tranche_0 0.072***
(0.003)
regionNouvelle-Aquitaine:tranche_0 0.062***
(0.003)
regionOccitanie:tranche_0 0.054***
(0.002)
regionPays de la Loire:tranche_0 0.050***
(0.003)
regionProvence-Alpes-Côte d’Azur:tranche_0 0.086***
(0.001)
Observations 3,838
R2 0.927
Adjusted R2 0.927
Residual Std. Error 32.099 (df = 3810)
F Statistic 1,730.853*** (df = 28; 3810)
Note: p<0.1; p<0.05; p<0.01

On représente comme si on on avait fait un modèle par région pour faciliter la lecture des coefficients :

Dependent variable:
hosp
Auvergne-Rhône-Alpes Hauts-de-France Provence-Alpes-Côte d’Azur Grand Est Occitanie Normandie Nouvelle-Aquitaine Centre-Val de Loire Bourgogne-Franche-Comté Bretagne Corse Pays de la Loire Ile-de-France DOM-TOM
(1) (2) (3) (4) (5) (6) (7) (8) (9) (10) (11) (12) (13) (14)
tranche_0 0.063*** 0.055*** 0.086*** 0.068*** 0.054*** 0.072*** 0.062*** 0.057*** 0.075*** 0.057*** 0.040*** 0.050*** 0.057*** 0.107***
(0.001) (0.001) (0.002) (0.002) (0.001) (0.002) (0.001) (0.002) (0.003) (0.003) (0.003) (0.002) (0.001) (0.005)
Constant 13.106*** 27.315*** 6.402 13.785*** 3.179*** 5.519** 2.732*** 8.521*** 9.542*** 4.383** 1.617*** 13.861*** 31.463*** -0.727
(2.068) (4.508) (4.294) (1.958) (0.709) (2.191) (0.896) (1.521) (2.156) (1.873) (0.599) (2.156) (3.739) (2.005)
Observations 456 190 228 380 494 190 456 228 304 152 76 190 304 190
R2 0.925 0.896 0.909 0.792 0.918 0.862 0.842 0.735 0.735 0.771 0.693 0.748 0.876 0.682
Adjusted R2 0.925 0.895 0.909 0.791 0.918 0.861 0.842 0.734 0.734 0.770 0.689 0.747 0.876 0.680
Residual Std. Error 39.007 (df = 454) 54.683 (df = 188) 54.692 (df = 226) 31.622 (df = 378) 13.735 (df = 492) 24.991 (df = 188) 16.144 (df = 454) 18.457 (df = 226) 31.030 (df = 302) 18.393 (df = 150) 4.263 (df = 74) 23.918 (df = 188) 47.592 (df = 302) 20.461 (df = 188)
F Statistic 5,589.358*** (df = 1; 454) 1,616.580*** (df = 1; 188) 2,268.310*** (df = 1; 226) 1,436.585*** (df = 1; 378) 5,508.016*** (df = 1; 492) 1,173.868*** (df = 1; 188) 2,422.439*** (df = 1; 454) 626.694*** (df = 1; 226) 837.847*** (df = 1; 302) 505.544*** (df = 1; 150) 167.169*** (df = 1; 74) 559.386*** (df = 1; 188) 2,132.875*** (df = 1; 302) 403.003*** (df = 1; 188)
Note: p<0.1; p<0.05; p<0.01

Test:

On teste le modèle sur les données de la semaine actuelle:

L’écart quadratique moyen est égal ici à :

## [1] 866.3142

5.2 Modèle linéaire 2 (sur les région) : 1 modèle par classe d’âge

Ici, on va faire un modèle qui prend en compte les classes d’âges. Les données d’hospitalisation par classe d’âge ne sont disponibles que par région. Le modèle est de la forme

\[y_{i,t}^a=\beta_0^a+\beta_1^ax_{i,t'}^a+\epsilon_{i,t}^a\] avec:

  • \(y_{i,t}\) le nombre d’entrées de la classe d’âge \(a\) à l’hôpital dans la région \(i\) sur la période \(t\), où \(t\) est une fenêtre de 7 jours.

  • \(x_{i,t'}\) est le nombre de testés positifs de la classe d’âge \(a\) dans la région \(i\) sur la période \(t'\)\(t'\) correspond à la fenêtre \(t\), décalé de 10 jours.

En d’autres termes, on fait ici un modèle de régression par classe d’âge, toute région confondue. Cela suppose que le lien entre les tests virologiques et le nombre d’hospitalisation est homogène dans une classe d’âge quelque soit les régions.

On merge avec le nombre de test positifs:

Apprentissage:

On modélise sur les observations des semaines précédentes et on représente les résultats tranche d’âge par tranche d’âge

Dependent variable:
hosp_9 hosp_19 hosp_29 hosp_39 hosp_49 hosp_59 hosp_69 hosp_79 hosp_89 hosp_90
(1) (2) (3) (4) (5) (6) (7) (8) (9) (10)
tranche_9 0.016***
(0.001)
tranche_19 0.004***
(0.0002)
tranche_29 0.008***
(0.0002)
tranche_39 0.014***
(0.0003)
tranche_49 0.022***
(0.0003)
tranche_59 0.047***
(0.001)
tranche_69 0.107***
(0.001)
tranche_79 0.225***
(0.003)
tranche_89 0.347***
(0.005)
tranche_90 0.288***
(0.005)
Constant 0.582** 0.969*** 2.763*** 3.581*** 4.154*** 4.783*** 8.000*** 11.448*** 15.068*** 10.132***
(0.241) (0.202) (0.376) (0.471) (0.572) (0.997) (1.354) (2.283) (2.718) (1.707)
Observations 532 532 532 532 532 532 532 532 532 532
R2 0.433 0.538 0.761 0.835 0.886 0.908 0.927 0.890 0.896 0.840
Adjusted R2 0.432 0.537 0.760 0.835 0.886 0.908 0.926 0.889 0.896 0.840
Residual Std. Error (df = 530) 4.603 3.938 7.437 9.455 11.454 19.936 26.998 45.184 53.104 33.301
F Statistic (df = 1; 530) 405.115*** 617.303*** 1,686.290*** 2,681.000*** 4,124.302*** 5,211.841*** 6,690.847*** 4,271.655*** 4,554.346*** 2,791.075***
Note: p<0.1; p<0.05; p<0.01

Test:

On teste le modèle sur les données de la semaine actuelle. On revient sur les données départementales, on suppose donc que les modèles estimés pour chaque tranche d’âge sur les régions est valable aussi pour les départements.

On a donc une prédiction par tranche d’âge et pour obtenir la prédiction finale, il faut donc faire la somme sur les différentes prédictions :

L’écart quadratique moyen est égal ici à :

## [1] 4818.75

5.3 Modèle de série temporelle

On utilise la même stratégie que celle présentée pour prédire le nombre de cas positifs.

Etape d’apprentissage : on entraîne l’agorithme sur les données passées en enlevant la dernière semaine observée et on prédit sur cette semaine afin de calculer les écarts quadratiques avec les valeurs observées.

On obtient le graphique suivant de valeurs prédites/valeurs observées :

L’écart quadratique moyen est égal ici à :

## [1]  963.8747 1118.3168  902.2970

Les 3 prédictions sont très proches et on va choisir un algorithme de type stepwise sur les prédictions pour choisir la meilleure combinaison des modèles de séries temporelles.

## Start:  AIC=656.07
## my_basis[my_basis$semaine == "semaine_t00", "hosp"] ~ pred_3a + 
##     pred_3b + pred_3c - 1
## 
##           Df Sum of Sq   RSS    AIC
## - pred_3a  1       507 63541 654.88
## <none>                 63034 656.07
## - pred_3b  1      1838 64872 656.97
## - pred_3c  1     31653 94687 695.16
## 
## Step:  AIC=654.88
## my_basis[my_basis$semaine == "semaine_t00", "hosp"] ~ pred_3b + 
##     pred_3c - 1
## 
##           Df Sum of Sq    RSS    AIC
## <none>                  63541 654.88
## - pred_3b  1      1342  64883 654.99
## - pred_3c  1     42137 105678 704.26
## [1] 629.1164

On a donc 3 prédictions obtenues selon :

  • modèle par région
  • modèle par classe d’âge
  • modèle de séries temporelles (lui-même combinaison de plusieurs méthodes)

5.4 Combinaison des prédictions

Combinaison des prédictions:

  • pour prédire les nouvelles hospitalisations la semaine à venir, on va faire un panaché des trois prédictions en donnant plus de poids à la prédiction qui a le mieux marcher sur la semaine \(t_0\). Autrement dit, on fait un modèle linéaire (avec une procédure stepwise) du nombre d’hospitalisation en fonction des 3 méthodes de prédictions. On calcule l’écart quatratique moyen de la combinaison des prédictions.
## [1] 422.3769
  • pour prédire les nouvelles hospitalisations la semaine d’après, on va utiliser une autre pondération en utilisant la même procédure que précédemment, mais dans une optique de prédire à deux semaines.
## Start:  AIC=1367.66
## y_true ~ pred_3a_s2 + pred_3b_s2 + pred_3c_s2 - 1
## 
##              Df Sum of Sq    RSS    AIC
## - pred_3b_s2  1        93 171045 1365.8
## - pred_3a_s2  1       171 171123 1365.9
## <none>                    170952 1367.7
## - pred_3c_s2  1     59554 230506 1426.0
## 
## Step:  AIC=1365.77
## y_true ~ pred_3a_s2 + pred_3c_s2 - 1
## 
##              Df Sum of Sq    RSS    AIC
## - pred_3a_s2  1        87 171132 1363.9
## <none>                    171045 1365.8
## - pred_3c_s2  1     67673 238718 1431.1
## 
## Step:  AIC=1363.87
## y_true ~ pred_3c_s2 - 1
## 
##              Df Sum of Sq     RSS    AIC
## <none>                     171132 1363.9
## - pred_3c_s2  1   4178300 4349432 2015.4

5.5 Prédiction

On prédit le nombre d’hospitalisations :

  • du [15 février 2021; 21 février 2021] en utilisant les vrais valeurs du nombre de testé positifs la semaine du [05 février 2021; 11 février 2021].

  • du [22 février 2021; 28 février 2021] en utilisant les valeurs prédites du nombre de testé positifs la semaine du [12 février 2021; 18 février 2021].

Avant de faire cela, on actualise en incluant dans l’étape d’apprentissage les données de la dernière semaine observée:

# modèle 1
res_lm <- lm(hosp ~  tranche_0, data = my_basis[!(my_basis$semaine %in% "semaine_t0-1"), ])
# modèle 2
apprentissage_sample <- my_basis_age_wide[!(my_basis_age_wide$semaine %in% 
                                              c("semaine_t0-1")), ]
res_lm_9 <- lm(hosp_9 ~  tranche_9, data = apprentissage_sample)
res_lm_19 <- lm(hosp_19 ~  tranche_19, data = apprentissage_sample)
res_lm_29 <- lm(hosp_29 ~  tranche_29, data = apprentissage_sample)
res_lm_39 <- lm(hosp_39 ~  tranche_39, data = apprentissage_sample)
res_lm_49 <- lm(hosp_49 ~  tranche_49, data = apprentissage_sample)
res_lm_59 <- lm(hosp_59 ~  tranche_59, data = apprentissage_sample)
res_lm_69 <- lm(hosp_69 ~  tranche_69, data = apprentissage_sample)
res_lm_79 <- lm(hosp_79 ~  tranche_79, data = apprentissage_sample)
res_lm_89 <- lm(hosp_89 ~  tranche_89, data = apprentissage_sample)
res_lm_90 <- lm(hosp_90 ~  tranche_90, data = apprentissage_sample)

# On prédit avec la méthode 1 
new_data <- my_basis[my_basis$semaine %in% c("semaine_t0-1", "semaine_t0-2"), ]
pred_1 <- predict(res_lm, newdata = new_data)
# On prédit avec la méthode 2
test_sample <- my_basis[my_basis$semaine %in% c("semaine_t0-1", "semaine_t0-2"), ]
pred_9 <- predict(res_lm_9, newdata = test_sample)
pred_19 <- predict(res_lm_19, newdata = test_sample)
pred_29 <- predict(res_lm_29, newdata = test_sample)
pred_39 <- predict(res_lm_39, newdata = test_sample)
pred_49 <- predict(res_lm_49, newdata = test_sample)
pred_59 <- predict(res_lm_59, newdata = test_sample)
pred_69 <- predict(res_lm_69, newdata = test_sample)
pred_79 <- predict(res_lm_79, newdata = test_sample)
pred_89 <- predict(res_lm_89, newdata = test_sample)
pred_90 <- predict(res_lm_90, newdata = test_sample)
pred_2 <- pred_9 + pred_19 + pred_29 + pred_39 + pred_49 + pred_59 + pred_69 + 
  pred_79 + pred_89 + pred_90

# on prédit avec le modèle 3, mais on actualise les prédictions semaine par semaine
pred_3 <- matrix(0, length(nom_dep), 2)
for (k in 1:length(nom_dep)) {
 if (nom_dep[k] %in% c("975", "977", "978")) {
    pred_3[k, ] <- NA
  } else {
    temp <- hospital[!(hospital$semaine %in% c("semaine_t0-2", "semaine_t0-1")) & 
                     hospital$dep == nom_dep[k], ]
    my_ts <- zoo(temp$incid_hosp, temp$jour)
    my_ts_diff <- diff(my_ts)
    # tseries::adf.test(my_ts) 
    # tseries::adf.test(my_ts_diff)
    # predictions à 7 jours
    my_mod <- forecast::auto.arima(my_ts_diff)
    forecast_my_mod <- as.numeric(forecast(my_mod, h = 14)$mean)
    pred_3a_s1 <- sum((as.numeric(my_ts[length(my_ts)]) + cumsum(forecast_my_mod))[1:7])
    # prediction à 14 jours
    pred_3a_s2 <- sum((as.numeric(my_ts[length(my_ts)]) + cumsum(forecast_my_mod))[1:14]) - pred_3a_s1
    # Lissage exponentiel
    my_mod_exp <- ets(my_ts)
    forecast_my_mod_exp <- as.numeric(forecast(my_mod_exp, h = 14)$mean)
    forecast_my_mod_exp <- ifelse(forecast_my_mod_exp > 0, forecast_my_mod_exp, 0)
    pred_3b_s1 <- round(sum(forecast_my_mod_exp[1:7]), 0)
    pred_3b_s2 <- round(sum(forecast_my_mod_exp[1:14]), 0) - pred_3b_s1
    # Méthode 3 : lissage exponentiel sur données hebdomadaires
    temp <- my_basis[my_basis$dep == nom_dep[k] & !(my_basis$semaine %in% 
                                          c("semaine_t0-2", "semaine_t0-1")), ]
    my_ts_exp <- zoo(temp$hosp, temp$jour)
    my_mod_exp_2 <- ets(my_ts_exp)
    forecast_my_mod_exp <- as.numeric(forecast(my_mod_exp_2)$mean)
    forecast_my_mod_exp <- ifelse(forecast_my_mod_exp > 0, forecast_my_mod_exp, 0)
    pred_3c_s1 <- round(forecast_my_mod_exp[1], 0)
    pred_3c_s2 <- round(forecast_my_mod_exp[2], 0)
    
    # prédictions des time series
    pred_3[k, 1] <- predict(lm_3_ts, newdata = data.frame(pred_3a = pred_3a_s1,
                                                 pred_3b = pred_3b_s1,
                                                 pred_3c = pred_3c_s1))
    
    # prediction à 14 jours
    pred_3[k, 2] <- predict(lm_3b_ts, newdata = data.frame(pred_3a_s2 = pred_3a_s2,
                                                 pred_3b_s2 = pred_3b_s2,
                                                 pred_3c_s2 = pred_3c_s2))
  }
}
pred_3 <- as.vector(pred_3)
# On fait le mélande des deux prédictions
res_pred_a <- predict(lm_3, newdata = data.frame(pred_1 = pred_1[new_data$semaine == "semaine_t0-1"], 
                                               pred_2 = pred_2[test_sample$semaine == "semaine_t0-1"],
                                               pred_3 = pred_3[1:(length(pred_3) / 2)]))
res_pred_b <- predict(lm_3b, newdata = data.frame(
  pred_1_s2 = pred_1[new_data$semaine == "semaine_t0-2"],
  pred_2_s2 = pred_2[test_sample$semaine == "semaine_t0-2"],
  pred_3_s2 = pred_3[((length(pred_3) / 2) + 1):length(pred_3)]))
new_data <- my_basis[my_basis$semaine %in% "semaine_t0-1", ]
my_basis[my_basis$semaine %in% "semaine_t0-1", "hosp"] <- res_pred_a
my_basis[my_basis$semaine %in% "semaine_t0-2", "hosp"] <- res_pred_b
new_data$next_week <- res_pred_a
new_data$next_two_week <- res_pred_b

On va représenter l’évolution du nombre de nouveaux patients hospitalisés dans un intervalle de temps de 4 semaines :

  • la semaine du [01 février 2021; 07 février 2021]
  • les 7 derniers jours passés : [08 février 2021; 14 février 2021]
  • la semaine à venir : [15 février 2021; 21 février 2021]
  • la semaine suivante à venir : [22 février 2021; 28 février 2021]

On aggrège les données à la France entière:

6 Prédire le nombre de réanimations

L’idée est d’expliquer le nombre de nouvelles réanimations la semaine \(t\) par le nombre de nouvelles hospitalisations la semaine \(t-1\).

Ainsi on sera en mesure de prédire le nombre de nouvelles réanimations d’une part la semaine à venir, mais aussi la semaine d’après si on utilise les prédictions du nombre d’hospitalisation la semaine à venir.

On prépare les données et on représente le nombre de nouvelles réanimations par semaine et par département en fonction du nombre de nouvelles hospitalisations la semaine d’avant et on constate un lien très fort.

On ne va faire que deux modèles :

On n’utilise pas le modèle qui utilise les classes d’âges car c’est difficile d’avoir le nombre de nouvelles réanimations par jour/département par classe d’âge. Il se peut donc que les prédictions soient sous-estimées dans le cas où la distribution des patients hospitalisés agés évolue positivement au cours du temps.

6.1 Modèle 1 : modèle linéaire

Apprentissage:

On modélise sur les observations des semaines précédentes:

Dependent variable:
rea
regionAuvergne-Rhône-Alpes -0.477
(0.385)
regionBourgogne-Franche-Comté 0.794
(0.502)
regionBretagne 0.679
(0.731)
regionCentre-Val de Loire 0.087
(0.615)
regionCorse 0.420
(1.032)
regionDOM-TOM 1.768***
(0.633)
regionGrand Est -0.133
(0.462)
regionHauts-de-France -0.415
(0.613)
regionIle-de-France -0.327
(0.599)
regionNormandie 0.399
(0.625)
regionNouvelle-Aquitaine 0.031
(0.392)
regionOccitanie -0.073
(0.370)
regionPays de la Loire 0.603
(0.695)
regionProvence-Alpes-Côte d’Azur -1.002*
(0.554)
regionAuvergne-Rhône-Alpes:hosp 0.153***
(0.002)
regionBourgogne-Franche-Comté:hosp 0.117***
(0.007)
regionBretagne:hosp 0.116***
(0.016)
regionCentre-Val de Loire:hosp 0.159***
(0.013)
regionCorse:hosp 0.188*
(0.109)
regionDOM-TOM:hosp 0.099***
(0.014)
regionGrand Est:hosp 0.143***
(0.005)
regionHauts-de-France:hosp 0.172***
(0.003)
regionIle-de-France:hosp 0.188***
(0.003)
regionNormandie:hosp 0.125***
(0.008)
regionNouvelle-Aquitaine:hosp 0.150***
(0.008)
regionOccitanie:hosp 0.206***
(0.007)
regionPays de la Loire:hosp 0.124***
(0.011)
regionProvence-Alpes-Côte d’Azur:hosp 0.162***
(0.003)
Observations 3,737
R2 0.885
Adjusted R2 0.884
Residual Std. Error 6.975 (df = 3709)
F Statistic 1,014.732*** (df = 28; 3709)
Note: p<0.1; p<0.05; p<0.01

Test:

On teste le modèle sur les données de la semaine actuelle:

L’écart quadratique moyen est égal ici à :

## [1] 64.48571

6.2 Modèle 2 : série temporelle

On utilise la même stratégie que celle présentée pour prédire le nombre de nouveaux cas positifs et de nouvelles réanimations.

Etape d’apprentissage : on entraîne l’agorithme sur les données passées en enlevant la dernière semaine observée et on prédit sur cette semaine afin de calculer les écarts quadratiques avec les valeurs observées.

On observe le graphique des valeurs prédites/valeurs observées :

L’écart quadratique moyen est égal ici à :

## [1] 112.68822  60.22772  37.60396

Les 3 prédictions sont très proches et on va choisir un algorithme de type stepwise sur les prédictions pour choisir la meilleure combinaison et ne conserver qu’une seule prédiction basée sur les séries temporelles:

## Start:  AIC=365.86
## my_basis[my_basis$semaine == "semaine_t00", "rea"] ~ pred_rea_2a + 
##     pred_rea_2b + pred_rea_2c - 1
## 
##               Df Sum of Sq    RSS    AIC
## - pred_rea_2b  1      6.05 3568.1 364.03
## - pred_rea_2a  1     18.26 3580.3 364.38
## <none>                     3562.1 365.86
## - pred_rea_2c  1   1523.32 5085.4 399.82
## 
## Step:  AIC=364.03
## my_basis[my_basis$semaine == "semaine_t00", "rea"] ~ pred_rea_2a + 
##     pred_rea_2c - 1
## 
##               Df Sum of Sq     RSS    AIC
## - pred_rea_2a  1      19.8  3588.0 362.59
## <none>                      3568.1 364.03
## - pred_rea_2c  1    7370.7 10938.9 475.18
## 
## Step:  AIC=362.59
## my_basis[my_basis$semaine == "semaine_t00", "rea"] ~ pred_rea_2c - 
##     1
## 
##               Df Sum of Sq   RSS    AIC
## <none>                      3588 362.59
## - pred_rea_2c  1     75229 78817 672.64
## [1] 35.52445

6.3 Combinaison des prédictions

Combinaison des prédictions: on peut envisager de faire un panaché des deux prédictions. Autrement dit, on fait un modèle linéaire (avec une procédure stepwise) du nombre de réanimations observée la semaine t0 en fonction des 2 méthodes de prédictions. On obtient l’écart-quadratique moyen suivant:

## [1] 33.39073

On adapte le poids des prédictions en fonction de la semaine à prédire

semaine_to_drop <- c("semaine_t0-3", "semaine_t0-2", "semaine_t0-1", "semaine_t00")
pred_rea_1_s2 <- pred_rea_1
pred_rea_2a_s2 <- pred_rea_2a
pred_rea_2b_s2 <- pred_rea_2b
pred_rea_2c_s2 <- pred_rea_2c

y_true <- my_basis_rea[my_basis_rea$semaine == "semaine_t00", "rea"]

for (j in 0:0) {
  
  semaine_to_estim <-  paste0("semaine_t0", j)
  y_true <- c(y_true, my_basis[my_basis$semaine == semaine_to_estim, "rea"])
  semaine_to_drop <- c(semaine_to_drop, paste0("semaine_t0", j + 1))
  res_lm_rea_1 <- lm(rea ~  region + hosp:region - 1, 
             data = my_basis_rea[!(my_basis_rea$semaine %in% semaine_to_drop), ])
  pred_rea_1_s2 <- c(pred_rea_1_s2, 
     round(predict(res_lm_rea_1, newdata = my_basis_rea[my_basis_rea$semaine == semaine_to_estim, ])))
  pred_rea_2a_temp <- numeric(length(nom_dep))
  pred_rea_2b_temp <- numeric(length(nom_dep))
  pred_rea_2c_temp <- numeric(length(nom_dep))

  for (k in 1:length(nom_dep)) {
    temp <- hospital[!(hospital$semaine %in% semaine_to_drop) & 
                     hospital$dep == nom_dep[k], ]
    my_ts <- zoo(temp$incid_rea, temp$jour)
    my_ts_diff <- diff(my_ts)
    # tseries::adf.test(my_ts) 
    # tseries::adf.test(my_ts_diff)
    if (nom_dep[k] %in% c("975", "977", "978")) {
      pred_rea_2[k] <- NA
    } else {
      my_mod <- forecast::auto.arima(my_ts_diff)
      forecast_my_mod <- as.numeric(forecast(my_mod, h = 14)$mean)
      temp <- sum((as.numeric(my_ts[length(my_ts)]) + cumsum(forecast_my_mod))[1:7])
      pred_rea_2a_temp[k] <- sum((as.numeric(my_ts[length(my_ts)]) + cumsum(forecast_my_mod))[1:14]) - temp
      # modèles exponentiels
      # Méthode 2 : lissage exponentiel
      my_mod_exp <- ets(my_ts)
      forecast_my_mod_exp <- as.numeric(forecast(my_mod_exp, h = 14)$mean)
      forecast_my_mod_exp <- ifelse(forecast_my_mod_exp > 0, forecast_my_mod_exp, 0)
      temp <- round(sum(forecast_my_mod_exp[1:7]), 0)
      pred_rea_2b_temp[k] <- round(sum(forecast_my_mod_exp[1:14]), 0) - temp
      # Méthode 3 : lissage exponentiel sur données hebdomadaires
      temp <- my_basis[my_basis$dep == nom_dep[k] & !(my_basis$semaine %in% semaine_to_drop), ]
      my_ts_exp <- zoo(temp$rea, temp$jour)
      if (all(my_ts_exp == 0)) {
        pred_rea_2c_temp[k] <- 0
      } else {
        my_mod_exp_2 <- ets(my_ts_exp)
        forecast_my_mod_exp <- as.numeric(forecast(my_mod_exp_2)$mean)
        forecast_my_mod_exp <- ifelse(forecast_my_mod_exp > 0, forecast_my_mod_exp, 0)
        pred_rea_2c_temp[k] <- round(forecast_my_mod_exp[2], 0)
      }
    }
    
  }
   pred_rea_2a_s2 <- c(pred_rea_2a_s2, pred_rea_2a_temp)
   pred_rea_2b_s2 <- c(pred_rea_2b_s2, pred_rea_2b_temp)
   pred_rea_2c_s2 <- c(pred_rea_2c_s2, pred_rea_2c_temp)
}


lm_2_rea_ts_s1 <- step(lm(y_true ~ pred_rea_2a_s2 + pred_rea_2b_s2 + pred_rea_2c_s2 - 1))
## Start:  AIC=757.46
## y_true ~ pred_rea_2a_s2 + pred_rea_2b_s2 + pred_rea_2c_s2 - 1
## 
##                  Df Sum of Sq     RSS    AIC
## - pred_rea_2b_s2  1       0.3  8336.7 755.47
## - pred_rea_2a_s2  1      16.5  8352.9 755.86
## <none>                         8336.4 757.46
## - pred_rea_2c_s2  1    4113.4 12449.7 836.48
## 
## Step:  AIC=755.47
## y_true ~ pred_rea_2a_s2 + pred_rea_2c_s2 - 1
## 
##                  Df Sum of Sq     RSS    AIC
## - pred_rea_2a_s2  1      49.9  8386.6 754.68
## <none>                         8336.7 755.47
## - pred_rea_2c_s2  1   13497.2 21833.9 947.96
## 
## Step:  AIC=754.68
## y_true ~ pred_rea_2c_s2 - 1
## 
##                  Df Sum of Sq    RSS     AIC
## <none>                          8387  754.68
## - pred_rea_2c_s2  1    149247 157634 1345.27
pred_rea_2_s2 <- predict(lm_2_rea_ts_s1)

lm_rea_3b <- lm(y_true ~ pred_rea_1_s2 + pred_rea_2_s2 - 1)



#######

semaine_to_drop <- c("semaine_t0-3", "semaine_t0-2", "semaine_t0-1", "semaine_t00", "semaine_t01")
pred_rea_1_s3 <- pred_rea_1
pred_rea_2a_s3 <- pred_rea_2a
pred_rea_2b_s3 <- pred_rea_2b
pred_rea_2c_s3 <- pred_rea_2c

y_true <- my_basis_rea[my_basis_rea$semaine == "semaine_t00", "rea"]

for (j in 0:0) {
  
  semaine_to_estim <-  paste0("semaine_t0", j)
  y_true <- c(y_true, my_basis[my_basis$semaine == semaine_to_estim, "rea"])
  semaine_to_drop <- c(semaine_to_drop, paste0("semaine_t0", j + 2))
  
  res_lm_rea_1 <- lm(rea ~  region + hosp:region - 1, 
             data = my_basis_rea[!(my_basis_rea$semaine %in% semaine_to_drop), ])
  pred_rea_1_s3 <- c(pred_rea_1_s3, round(predict(res_lm_rea_1, newdata = my_basis_rea[my_basis_rea$semaine == semaine_to_estim, ])))
  
  pred_rea_2a_temp <- numeric(length(nom_dep))
  pred_rea_2b_temp <- numeric(length(nom_dep))
  pred_rea_2c_temp <- numeric(length(nom_dep))

  for (k in 1:length(nom_dep)) {
     temp <- hospital[!(hospital$semaine %in% semaine_to_drop) & hospital$dep == nom_dep[k], ]
     my_ts <- zoo(temp$incid_rea, temp$jour)
     my_ts_diff <- diff(my_ts)
     # tseries::adf.test(my_ts) 
     # tseries::adf.test(my_ts_diff)
     if (nom_dep[k] %in% c("975", "977", "978")) {
       pred_rea_2[k] <- NA
     } else {
       my_mod <- forecast::auto.arima(my_ts_diff)
       forecast_my_mod <- as.numeric(forecast(my_mod, h = 21)$mean)
       temp1 <- sum((as.numeric(my_ts[length(my_ts)]) + cumsum(forecast_my_mod))[1:7])
       temp2 <- sum((as.numeric(my_ts[length(my_ts)]) + cumsum(forecast_my_mod))[1:14]) - temp1
       pred_rea_2a_temp[k] <- sum((as.numeric(my_ts[length(my_ts)]) + cumsum(forecast_my_mod))[1:21]) - temp1 - temp2
       # modèles exponentiels
       # Méthode 2 : lissage exponentiel
       my_mod_exp <- ets(my_ts)
       forecast_my_mod_exp <- as.numeric(forecast(my_mod_exp, h = 21)$mean)
       forecast_my_mod_exp <- ifelse(forecast_my_mod_exp > 0, forecast_my_mod_exp, 0)
       temp1 <- round(sum(forecast_my_mod_exp[1:7]), 0)
       temp2 <- round(sum(forecast_my_mod_exp[1:14]), 0) - temp1
       pred_rea_2b_temp[k] <- round(sum(forecast_my_mod_exp[1:21]), 0) - temp2 - temp1
       # Méthode 3 : lissage exponentiel sur données hebdomadaires
       temp <- my_basis[my_basis$dep == nom_dep[k] & !(my_basis$semaine %in% semaine_to_drop), ]
       my_ts_exp <- zoo(temp$rea, temp$jour)
       if (all(my_ts_exp == 0)) {
         pred_rea_2c_temp[k] <- 0
       } else {
         my_mod_exp_2 <- ets(my_ts_exp)
         forecast_my_mod_exp <- as.numeric(forecast(my_mod_exp_2)$mean)
         forecast_my_mod_exp <- ifelse(forecast_my_mod_exp > 0, forecast_my_mod_exp, 0)
         pred_rea_2c_temp[k] <- round(forecast_my_mod_exp[3], 0)
       }
    }
}

  pred_rea_2a_s3 <- c(pred_rea_2a_s3, pred_rea_2a_temp)
  pred_rea_2b_s3 <- c(pred_rea_2b_s3, pred_rea_2b_temp)
  pred_rea_2c_s3 <- c(pred_rea_2c_s3, pred_rea_2c_temp)
}

lm_2_rea_ts_s2 <- step(lm(y_true ~ pred_rea_2a_s3 + pred_rea_2b_s3 + pred_rea_2c_s3 - 1))
## Start:  AIC=772.94
## y_true ~ pred_rea_2a_s3 + pred_rea_2b_s3 + pred_rea_2c_s3 - 1
## 
##                  Df Sum of Sq     RSS    AIC
## - pred_rea_2a_s3  1     26.84  9026.9 771.54
## - pred_rea_2b_s3  1     30.31  9030.3 771.62
## <none>                         9000.0 772.94
## - pred_rea_2c_s3  1   2879.17 11879.2 827.00
## 
## Step:  AIC=771.54
## y_true ~ pred_rea_2b_s3 + pred_rea_2c_s3 - 1
## 
##                  Df Sum of Sq     RSS    AIC
## - pred_rea_2b_s3  1       5.5  9032.3 769.66
## <none>                         9026.9 771.54
## - pred_rea_2c_s3  1    3238.5 12265.3 831.47
## 
## Step:  AIC=769.66
## y_true ~ pred_rea_2c_s3 - 1
## 
##                  Df Sum of Sq    RSS     AIC
## <none>                          9032  769.66
## - pred_rea_2c_s3  1    148602 157634 1345.27

6.4 Prédiction

On prédit:

  • le nombre de réanimations à venir du [15 février 2021; 21 février 2021] en utilisant les nouvelles hospitalisations du [08 février 2021; 14 février 2021]

  • le nombre de réanimations à venir du [22 février 2021; 28 février 2021] en utilisant la prédiction des hospitalisations à venir du [15 février 2021; 21 février 2021]

  • le nombre de réanimations à venir du [01 mars 2021; 07 mars 2021] en utilisant la prédiction des hospitalisations à venir du [22 février 2021; 28 février 2021]

Pour cela, on actualise le modèle, c’est-à-dire qu’on inclut la dernière semaine observée:

res_lm <- lm(rea ~  region + hosp:region - 1, 
             data = my_basis_rea[!(my_basis_rea$semaine %in% c("semaine_t0-2", "semaine_t0-1")), ])

# semaine t+1
new_data_rea_1 <- my_basis_rea[my_basis_rea$semaine %in% c("semaine_t0-1", "semaine_t0-2", "semaine_t0-3"),  ]
pred_rea_1 <- predict(res_lm, newdata = new_data_rea_1)

pred_rea_2 <- matrix(0, length(nom_dep), 3)
pred_rea_2a <- matrix(0, length(nom_dep), 3)
pred_rea_2b <- matrix(0, length(nom_dep), 3)
pred_rea_2c <- matrix(0, length(nom_dep), 3)
for (k in 1:length(nom_dep)) {
  temp <- hospital[!(hospital$semaine %in% c("semaine_t0-3", "semaine_t0-2", "semaine_t0-1")) & 
                     hospital$dep == nom_dep[k], ]
  my_ts <- zoo(temp$incid_rea, temp$jour)
  my_ts_diff <- diff(my_ts)
  # tseries::adf.test(my_ts) 
  # tseries::adf.test(my_ts_diff)
  if (nom_dep[k] %in% c("975", "977", "978")) {
    pred_rea_2[k] <- NA
  } else {
    my_mod <- forecast::auto.arima(my_ts_diff)
    forecast_my_mod <- as.numeric(forecast(my_mod, h = 21)$mean)
    pred_3a_s1 <- sum((as.numeric(my_ts[length(my_ts)]) + cumsum(forecast_my_mod))[1:7])
    pred_3a_s2 <- sum((as.numeric(my_ts[length(my_ts)]) + cumsum(forecast_my_mod))[1:14]) - pred_3a_s1
    pred_3a_s3 <- sum((as.numeric(my_ts[length(my_ts)]) + cumsum(forecast_my_mod))[1:21]) - 
      pred_3a_s1 - pred_3a_s2
    # Lissage exponentiel
    my_mod_exp <- ets(my_ts)
    forecast_my_mod_exp <- as.numeric(forecast(my_mod_exp, h = 21)$mean)
    forecast_my_mod_exp <- ifelse(forecast_my_mod_exp > 0, forecast_my_mod_exp, 0)
    pred_3b_s1 <- round(sum(forecast_my_mod_exp[1:7]), 0)
    pred_3b_s2 <- round(sum(forecast_my_mod_exp[1:14]), 0) - pred_3b_s1
    pred_3b_s3 <- round(sum(forecast_my_mod_exp[1:21]), 0) - pred_3b_s2 - pred_3b_s1
    # Méthode 3 : lissage exponentiel sur données hebdomadaires
    temp <- my_basis[my_basis$dep == nom_dep[k] & !(my_basis$semaine %in% 
                                          c("semaine_t0-3", "semaine_t0-2", "semaine_t0-1")), ]
    my_ts_exp <- zoo(temp$rea, temp$jour)
    my_mod_exp_2 <- ets(my_ts_exp)
    forecast_my_mod_exp <- as.numeric(forecast(my_mod_exp_2)$mean)
    forecast_my_mod_exp <- ifelse(forecast_my_mod_exp > 0, forecast_my_mod_exp, 0)
    pred_3c_s1 <- round(forecast_my_mod_exp[1], 0)
    pred_3c_s2 <- round(forecast_my_mod_exp[2], 0)
    pred_3c_s3 <- round(forecast_my_mod_exp[3], 0)    
    
    pred_rea_2[k, 1] <- predict(lm_2_rea_ts, newdata = data.frame(pred_rea_2a = pred_3a_s1,
                                                 pred_rea_2b = pred_3b_s1,
                                                 pred_rea_2c = pred_3c_s1))
    pred_rea_2[k, 2] <- predict(lm_2_rea_ts_s1, newdata = data.frame(pred_rea_2a_s2 = pred_3a_s2,
                                                 pred_rea_2b_s2 = pred_3b_s2,
                                                 pred_rea_2c_s2 = pred_3c_s2))
    pred_rea_2[k, 3] <- predict(lm_2_rea_ts_s2, newdata = data.frame(pred_rea_2a_s3 = pred_3a_s3,
                                                 pred_rea_2b_s3 = pred_3b_s3,
                                                 pred_rea_2c_s3 = pred_3c_s3))
  }
}

pred_rea_a <- predict(lm_rea_3, newdata = data.frame(pred_rea_1 = 
                        pred_rea_1[new_data_rea_1$semaine == "semaine_t0-1"],
                        pred_rea_2 = as.vector(pred_rea_2)[1:(length(pred_rea_1) / 3)]))

pred_rea_b <- predict(lm_rea_3b, newdata = data.frame(
  pred_rea_1_s2 = pred_rea_1[new_data_rea_1$semaine == "semaine_t0-2"],
  pred_rea_2_s2 = as.vector(pred_rea_2)[((length(pred_rea_1) / 3) + 1):(2 * length(pred_rea_1) / 3)]))

pred_rea_c <- predict(lm_rea_3c, newdata = data.frame(
  pred_rea_1_s3 = pred_rea_1[new_data_rea_1$semaine == "semaine_t0-3"],
  pred_rea_2_s3 = as.vector(pred_rea_2)[(2 * length(pred_rea_1) / 3 + 1):length(pred_rea_1)]))

# on synthétise les résultats
new_data <- my_basis[my_basis$semaine %in% "semaine_t0-1", ]
new_data$this_week <- my_basis_rea[my_basis_rea$semaine == "semaine_t00", "rea"]
new_data$next_week <- pred_rea_a
new_data$next_two_week <- pred_rea_b
new_data$next_three_week <- pred_rea_c
my_basis[my_basis$semaine %in% "semaine_t0-1", "rea"] <- pred_rea_a
my_basis[my_basis$semaine %in% "semaine_t0-2", "rea"] <- pred_rea_b
my_basis[my_basis$semaine %in% "semaine_t0-3", "rea"] <- pred_rea_c

On va représenter l’évolution du nombre de patients en réanimations dans un intervalle de temps de 4 semaines :

  • les 7 derniers jours passés : [08 février 2021; 14 février 2021]
  • la semaine à venir : [15 février 2021; 21 février 2021]
  • la 2ème semaine à venir : [22 février 2021; 28 février 2021]
  • la 3ème semaine à venir : [01 mars 2021; 07 mars 2021]

On aggrège les données à la France entière:

7 Prédire le nombre de décès

L’idée est d’expliquer le nombre de nouveaux décès la semaine \(t\) par les nouvelles réanimations la semaine \(t-1\).

Ainsi on sera en mesure de prédire le nombre de nouveaux décès la semaine à venir, mais aussi les trois semaines suivantes en utilisant les prédictions des hospitalisations, des réanimations et cas positifs.

On prépare les données et on représente le nombre de nouveaux décès par semaine et par département en fonction du nombre de nouvelles réanimations la semaine d’avant et on constate un lien très fort.

On va faire deux modèles : un modèle régional où on explique les nouvelles réanimations des départements au sein d’une même région ainsi qu’un modèle de série temporelle département par département.

7.1 Modèle 1 : modèle linéaire

Apprentissage:

On modélise sur les observations des semaines précédentes:

Dependent variable:
dc
regionAuvergne-Rhône-Alpes 3.777***
(0.421)
regionBourgogne-Franche-Comté 2.731***
(0.543)
regionBretagne 1.604**
(0.799)
regionCentre-Val de Loire 3.141***
(0.626)
regionCorse 0.256
(1.108)
regionDOM-TOM -0.438
(0.757)
regionGrand Est 2.233***
(0.498)
regionHauts-de-France 5.449***
(0.670)
regionIle-de-France 8.017***
(0.621)
regionNormandie 1.382**
(0.688)
regionNouvelle-Aquitaine 1.752***
(0.420)
regionOccitanie 1.446***
(0.402)
regionPays de la Loire 1.923***
(0.732)
regionProvence-Alpes-Côte d’Azur 3.670***
(0.604)
regionAuvergne-Rhône-Alpes:rea 0.964***
(0.016)
regionBourgogne-Franche-Comté:rea 1.020***
(0.052)
regionBretagne:rea 0.901***
(0.124)
regionCentre-Val de Loire:rea 0.531***
(0.072)
regionCorse:rea 0.501
(0.428)
regionDOM-TOM:rea 0.545***
(0.114)
regionGrand Est:rea 1.209***
(0.039)
regionHauts-de-France:rea 0.864***
(0.019)
regionIle-de-France:rea 0.580***
(0.016)
regionNormandie:rea 1.224***
(0.063)
regionNouvelle-Aquitaine:rea 0.808***
(0.053)
regionOccitanie:rea 0.629***
(0.034)
regionPays de la Loire:rea 0.980***
(0.078)
regionProvence-Alpes-Côte d’Azur:rea 0.896***
(0.018)
Observations 3,737
R2 0.848
Adjusted R2 0.847
Residual Std. Error 7.873 (df = 3709)
F Statistic 741.127*** (df = 28; 3709)
Note: p<0.1; p<0.05; p<0.01

Test:

On teste le modèle sur les données de la semaine actuelle:

L’écart quadratique moyen est égal ici à :

## [1] 86.48024

7.2 Modèle 2 : série temporelle

On utilise la même stratégie que celle présentée pour prédire le nombre de nouveaux cas, de nouvelles hospitalisations et de nouvelles réanimations.

Etape d’apprentissage : on entraîne l’agorithme sur les données passées en enlevant la dernière semaine observée et on prédit sur cette semaine afin de calculer les écarts quadratiques avec les valeurs observées.

On représente le graphique des valeurs prédites / valeurs observées :

L’écart quadratique moyen est égal ici à :

## [1] 86.66406 77.96040 77.59406

Les 3 prédictions sont très proches et on va choisir un algorithme de type stepwise sur les prédictions pour choisir la meilleure combinaison et ne garder qu’une prédiction de type série temporelle:

## Start:  AIC=435.49
## my_basis[my_basis$semaine == "semaine_t00", "dc"] ~ pred_dc_2a + 
##     pred_dc_2b + pred_dc_2c - 1
## 
##              Df Sum of Sq    RSS    AIC
## - pred_dc_2a  1     12.56 7110.1 433.67
## - pred_dc_2b  1    138.62 7236.1 435.44
## <none>                    7097.5 435.49
## - pred_dc_2c  1    757.55 7855.1 443.73
## 
## Step:  AIC=433.67
## my_basis[my_basis$semaine == "semaine_t00", "dc"] ~ pred_dc_2b + 
##     pred_dc_2c - 1
## 
##              Df Sum of Sq    RSS    AIC
## <none>                    7110.1 433.67
## - pred_dc_2b  1     209.0 7319.1 434.60
## - pred_dc_2c  1     754.6 7864.7 441.86
## [1] 70.39697

7.3 Combinaison des prédictions

Combinaison des prédictions: on peut envisager de faire un panaché des deux prédictions en régressant (avec un algorithme de type stepwise) le nombre de décés observé la semaine t0 en fonction des deux méthodes de régression. On obtient l’écart moyen quadratique suivant :

## [1] 51.60929

On adapte le poids des prédictions en fonction de la semaine à prédire

semaine_to_drop <- c("semaine_t0-4", "semaine_t0-3", "semaine_t0-2", "semaine_t0-1", "semaine_t00")
pred_dc_1_s2 <- pred_dc_1
pred_dc_2a_s2 <- pred_dc_2a
pred_dc_2b_s2 <- pred_dc_2b
pred_dc_2c_s2 <- pred_dc_2c

y_true <- my_basis[my_basis$semaine == "semaine_t00", "dc"]

for (j in 0:0) {
  
  semaine_to_estim <-  paste0("semaine_t0", j)
  y_true <- c(y_true, my_basis[my_basis$semaine == semaine_to_estim, "dc"])
  semaine_to_drop <- c(semaine_to_drop, paste0("semaine_t0", j + 1))
  res_lm_dc_1 <- lm(dc ~  region + rea:region - 1, 
             data = my_basis_dc[!(my_basis_dc$semaine %in% semaine_to_drop), ])
  pred_dc_1_s2 <- c(pred_dc_1_s2, 
     round(predict(res_lm_dc_1, newdata = my_basis_dc[my_basis_dc$semaine == semaine_to_estim, ])))
  pred_dc_2a_temp <- numeric(length(nom_dep))
  pred_dc_2b_temp <- numeric(length(nom_dep))
  pred_dc_2c_temp <- numeric(length(nom_dep))

  for (k in 1:length(nom_dep)) {
    temp <- hospital[!(hospital$semaine %in% semaine_to_drop) & 
                     hospital$dep == nom_dep[k], ]
    my_ts <- zoo(temp$incid_dc, temp$jour)
    my_ts_diff <- diff(my_ts)
    # tseries::adf.test(my_ts) 
    # tseries::adf.test(my_ts_diff)
    if (nom_dep[k] %in% c("975", "977", "978")) {
      pred_dc_2[k] <- NA
    } else {
      my_mod <- forecast::auto.arima(my_ts_diff)
      forecast_my_mod <- as.numeric(forecast(my_mod, h = 14)$mean)
      temp <- sum((as.numeric(my_ts[length(my_ts)]) + cumsum(forecast_my_mod))[1:7])
      pred_dc_2a_temp[k] <- sum((as.numeric(my_ts[length(my_ts)]) + cumsum(forecast_my_mod))[1:14]) - temp
      # modèles exponentiels
      # Méthode 2 : lissage exponentiel
      my_mod_exp <- ets(my_ts)
      forecast_my_mod_exp <- as.numeric(forecast(my_mod_exp, h = 14)$mean)
      forecast_my_mod_exp <- ifelse(forecast_my_mod_exp > 0, forecast_my_mod_exp, 0)
      temp <- round(sum(forecast_my_mod_exp[1:7]), 0)
      pred_dc_2b_temp[k] <- round(sum(forecast_my_mod_exp[1:14]), 0) - temp
      # Méthode 3 : lissage exponentiel sur données hebdomadaires
      temp <- my_basis[my_basis$dep == nom_dep[k] & !(my_basis$semaine %in% semaine_to_drop), ]
      my_ts_exp <- zoo(temp$dc, temp$jour)
      if (all(my_ts_exp == 0)) {
        pred_dc_2c_temp[k] <- 0
      } else {
        my_mod_exp_2 <- ets(my_ts_exp)
        forecast_my_mod_exp <- as.numeric(forecast(my_mod_exp_2)$mean)
        forecast_my_mod_exp <- ifelse(forecast_my_mod_exp > 0, forecast_my_mod_exp, 0)
        pred_dc_2c_temp[k] <- round(forecast_my_mod_exp[2], 0)
      }
    }
    
  }
   pred_dc_2a_s2 <- c(pred_dc_2a_s2, pred_dc_2a_temp)
   pred_dc_2b_s2 <- c(pred_dc_2b_s2, pred_dc_2b_temp)
   pred_dc_2c_s2 <- c(pred_dc_2c_s2, pred_dc_2c_temp)
}


lm_2_dc_ts_s1 <- step(lm(y_true ~ pred_dc_2a_s2 + pred_dc_2b_s2 + pred_dc_2c_s2 - 1))
## Start:  AIC=897.2
## y_true ~ pred_dc_2a_s2 + pred_dc_2b_s2 + pred_dc_2c_s2 - 1
## 
##                 Df Sum of Sq   RSS    AIC
## - pred_dc_2a_s2  1     13.81 16664 895.37
## <none>                       16650 897.20
## - pred_dc_2b_s2  1    200.77 16851 897.62
## - pred_dc_2c_s2  1   1467.40 18117 912.26
## 
## Step:  AIC=895.37
## y_true ~ pred_dc_2b_s2 + pred_dc_2c_s2 - 1
## 
##                 Df Sum of Sq   RSS    AIC
## <none>                       16664 895.37
## - pred_dc_2b_s2  1     317.5 16981 897.18
## - pred_dc_2c_s2  1    1578.6 18242 911.65
pred_dc_2_s2 <- predict(lm_2_dc_ts_s1)

lm_dc_3b <- lm(y_true ~ pred_dc_1_s2 + pred_dc_2_s2 - 1)

#######
# Semaine + 2
#######

semaine_to_drop <- c("semaine_t0-4", "semaine_t0-3", "semaine_t0-2", "semaine_t0-1", "semaine_t00", "semaine_t01")
pred_dc_1_s3 <- pred_dc_1_s2
pred_dc_2a_s3 <- pred_dc_2a_s2
pred_dc_2b_s3 <- pred_dc_2b_s2
pred_dc_2c_s3 <- pred_dc_2c_s2


for (j in 0:0) {
  
  semaine_to_estim <-  paste0("semaine_t0", j)
  y_true <- c(y_true, my_basis[my_basis$semaine == semaine_to_estim, "dc"])
  semaine_to_drop <- c(semaine_to_drop, paste0("semaine_t0", j + 2))
  
  res_lm_dc_1 <- lm(dc ~  region + rea:region - 1, 
             data = my_basis_dc[!(my_basis_dc$semaine %in% semaine_to_drop), ])
  pred_dc_1_s3 <- c(pred_dc_1_s3, round(predict(res_lm_dc_1, 
                      newdata = my_basis_dc[my_basis_dc$semaine == semaine_to_estim, ])))
  
  pred_dc_2a_temp <- numeric(length(nom_dep))
  pred_dc_2b_temp <- numeric(length(nom_dep))
  pred_dc_2c_temp <- numeric(length(nom_dep))

  for (k in 1:length(nom_dep)) {
     temp <- hospital[!(hospital$semaine %in% semaine_to_drop) & hospital$dep == nom_dep[k], ]
     my_ts <- zoo(temp$incid_dc, temp$jour)
     my_ts_diff <- diff(my_ts)
     # tseries::adf.test(my_ts) 
     # tseries::adf.test(my_ts_diff)
     if (nom_dep[k] %in% c("975", "977", "978")) {
       pred_dc_2[k] <- NA
     } else {
       my_mod <- forecast::auto.arima(my_ts_diff)
       forecast_my_mod <- as.numeric(forecast(my_mod, h = 21)$mean)
       temp1 <- sum((as.numeric(my_ts[length(my_ts)]) + cumsum(forecast_my_mod))[1:7])
       temp2 <- sum((as.numeric(my_ts[length(my_ts)]) + cumsum(forecast_my_mod))[1:14]) - temp1
       temp3 <- sum((as.numeric(my_ts[length(my_ts)]) + cumsum(forecast_my_mod))[1:21]) - temp1 - temp2
       pred_dc_2a_temp[k] <- ifelse(temp3 > 0, round(temp3), 0)
       # modèles exponentiels
       # Méthode 2 : lissage exponentiel
       my_mod_exp <- ets(my_ts)
       forecast_my_mod_exp <- as.numeric(forecast(my_mod_exp, h = 21)$mean)
       forecast_my_mod_exp <- ifelse(forecast_my_mod_exp > 0, forecast_my_mod_exp, 0)
       temp1 <- round(sum(forecast_my_mod_exp[1:7]), 0)
       temp2 <- round(sum(forecast_my_mod_exp[1:14]), 0) - temp1
       pred_dc_2b_temp[k] <- round(sum(forecast_my_mod_exp[1:21]), 0) - temp2 - temp1
       # Méthode 3 : lissage exponentiel sur données hebdomadaires
       temp <- my_basis[my_basis$dep == nom_dep[k] & !(my_basis$semaine %in% semaine_to_drop), ]
       my_ts_exp <- zoo(temp$dc, temp$jour)
       if (all(my_ts_exp == 0)) {
         pred_dc_2c_temp[k] <- 0
       } else {
         my_mod_exp_2 <- ets(my_ts_exp)
         forecast_my_mod_exp <- as.numeric(forecast(my_mod_exp_2)$mean)
         forecast_my_mod_exp <- ifelse(forecast_my_mod_exp > 0, forecast_my_mod_exp, 0)
         pred_dc_2c_temp[k] <- round(forecast_my_mod_exp[3], 0)
       }
    }
}

  pred_dc_2a_s3 <- c(pred_dc_2a_s3, pred_dc_2a_temp)
  pred_dc_2b_s3 <- c(pred_dc_2b_s3, pred_dc_2b_temp)
  pred_dc_2c_s3 <- c(pred_dc_2c_s3, pred_dc_2c_temp)
}

lm_2_dc_ts_s2 <- step(lm(y_true ~ pred_dc_2a_s3 + pred_dc_2b_s3 + pred_dc_2c_s3 - 1))
## Start:  AIC=1393.05
## y_true ~ pred_dc_2a_s3 + pred_dc_2b_s3 + pred_dc_2c_s3 - 1
## 
##                 Df Sum of Sq   RSS    AIC
## - pred_dc_2b_s3  1     47.12 29527 1391.5
## <none>                       29480 1393.0
## - pred_dc_2a_s3  1    474.33 29954 1395.9
## - pred_dc_2c_s3  1   2205.19 31685 1412.9
## 
## Step:  AIC=1391.54
## y_true ~ pred_dc_2a_s3 + pred_dc_2c_s3 - 1
## 
##                 Df Sum of Sq   RSS    AIC
## <none>                       29527 1391.5
## - pred_dc_2a_s3  1    662.61 30190 1396.3
## - pred_dc_2c_s3  1   2221.44 31748 1411.5
pred_dc_2_s3 <- predict(lm_2_dc_ts_s2)

lm_dc_3c <- lm(y_true ~ pred_dc_1_s3 + pred_dc_2_s3 - 1)

#######
# Semaine T + 3
#######

semaine_to_drop <- c("semaine_t0-4", "semaine_t0-3", "semaine_t0-2", "semaine_t0-1", 
                     "semaine_t00", "semaine_t01", "semaine_t02")
pred_dc_1_s4 <- pred_dc_1_s3
pred_dc_2a_s4 <- pred_dc_2a_s3
pred_dc_2b_s4 <- pred_dc_2b_s3
pred_dc_2c_s4 <- pred_dc_2c_s3


for (j in 0:0) {
  
  semaine_to_estim <-  paste0("semaine_t0", j)
  y_true <- c(y_true, my_basis[my_basis$semaine == semaine_to_estim, "dc"])
  semaine_to_drop <- c(semaine_to_drop, paste0("semaine_t0", j + 3))
  
  res_lm_dc_1 <- lm(dc ~  region + rea:region - 1, 
             data = my_basis_dc[!(my_basis_dc$semaine %in% semaine_to_drop), ])
  pred_dc_1_s4 <- c(pred_dc_1_s4, round(predict(res_lm_dc_1, 
                      newdata = my_basis_dc[my_basis_dc$semaine == semaine_to_estim, ])))
  
  pred_dc_2a_temp <- numeric(length(nom_dep))
  pred_dc_2b_temp <- numeric(length(nom_dep))
  pred_dc_2c_temp <- numeric(length(nom_dep))

  for (k in 1:length(nom_dep)) {
     temp <- hospital[!(hospital$semaine %in% semaine_to_drop) & hospital$dep == nom_dep[k], ]
     my_ts <- zoo(temp$incid_dc, temp$jour)
     my_ts_diff <- diff(my_ts)
     # tseries::adf.test(my_ts) 
     # tseries::adf.test(my_ts_diff)
     if (nom_dep[k] %in% c("975", "977", "978")) {
       pred_dc_2[k] <- NA
     } else {
       my_mod <- forecast::auto.arima(my_ts_diff)
       forecast_my_mod <- as.numeric(forecast(my_mod, h = 28)$mean)
       temp1 <- sum((as.numeric(my_ts[length(my_ts)]) + cumsum(forecast_my_mod))[1:7])
       temp2 <- sum((as.numeric(my_ts[length(my_ts)]) + cumsum(forecast_my_mod))[1:14]) - temp1
       temp3 <- sum((as.numeric(my_ts[length(my_ts)]) + cumsum(forecast_my_mod))[1:21]) - temp1 - temp2 
       temp4 <- sum((as.numeric(my_ts[length(my_ts)]) + cumsum(forecast_my_mod))[1:28]) - temp1 - temp2 - temp3
       pred_dc_2a_temp[k] <- ifelse(temp4 > 0, round(temp4), 0)
       # modèles exponentiels
       # Méthode 2 : lissage exponentiel
       my_mod_exp <- ets(my_ts)
       forecast_my_mod_exp <- as.numeric(forecast(my_mod_exp, h = 28)$mean)
       forecast_my_mod_exp <- ifelse(forecast_my_mod_exp > 0, forecast_my_mod_exp, 0)
       temp1 <- round(sum(forecast_my_mod_exp[1:7]), 0)
       temp2 <- round(sum(forecast_my_mod_exp[1:14]), 0) - temp1
       temp3 <- round(sum(forecast_my_mod_exp[1:21]), 0) - temp1 - temp2
       pred_dc_2b_temp[k] <- round(sum(forecast_my_mod_exp[1:28]), 0) - temp1 - temp2 - temp3
       # Méthode 3 : lissage exponentiel sur données hebdomadaires
       temp <- my_basis[my_basis$dep == nom_dep[k] & !(my_basis$semaine %in% semaine_to_drop), ]
       my_ts_exp <- zoo(temp$dc, temp$jour)
       if (all(my_ts_exp == 0)) {
         pred_dc_2c_temp[k] <- 0
       } else {
         my_mod_exp_2 <- ets(my_ts_exp)
         forecast_my_mod_exp <- as.numeric(forecast(my_mod_exp_2)$mean)
         forecast_my_mod_exp <- ifelse(forecast_my_mod_exp > 0, forecast_my_mod_exp, 0)
         pred_dc_2c_temp[k] <- round(forecast_my_mod_exp[4], 0)
       }
    }
}

  pred_dc_2a_s4 <- c(pred_dc_2a_s4, pred_dc_2a_temp)
  pred_dc_2b_s4 <- c(pred_dc_2b_s4, pred_dc_2b_temp)
  pred_dc_2c_s4 <- c(pred_dc_2c_s4, pred_dc_2c_temp)
}

lm_2_dc_ts_s3 <- step(lm(y_true ~ pred_dc_2a_s4 + pred_dc_2b_s4 + pred_dc_2c_s4 - 1))
## Start:  AIC=1885.35
## y_true ~ pred_dc_2a_s4 + pred_dc_2b_s4 + pred_dc_2c_s4 - 1
## 
##                 Df Sum of Sq   RSS    AIC
## <none>                       42331 1885.3
## - pred_dc_2b_s4  1     556.1 42887 1888.6
## - pred_dc_2a_s4  1    1382.3 43713 1896.3
## - pred_dc_2c_s4  1    3959.4 46290 1919.5

7.4 Prédiction

On prédit:

  • le nombre de décès à venir du [15 février 2021; 21 février 2021] en utilisant les nouvelles réanimations du [08 février 2021; 14 février 2021]

  • le nombre de décès à venir du [22 février 2021; 28 février 2021] en utilisant la prédiction des réanimations à venir du [15 février 2021; 21 février 2021]

  • le nombre de décès à venir du [01 mars 2021; 07 mars 2021] en utilisant la prédiction des réanimations à venir du [22 février 2021; 28 février 2021]

  • le nombre de décès à venir du [08 mars 2021; 14 mars 2021] en utilisant la prédiction des réanimations à venir du [22 février 2021; 28 février 2021]

Pour cela, on actualise le modèle, c’est-à-dire qu’on inclut la dernière semaine observée:

res_lm <- lm(dc ~  region + rea:region - 1, 
             data = my_basis_dc[!(my_basis_dc$semaine %in% c("semaine_t0-2", "semaine_t0-1")), ])

# semaine t+1
new_data_dc_1 <- my_basis_dc[my_basis_dc$semaine %in% c("semaine_t0-1", "semaine_t0-2", "semaine_t0-3", "semaine_t0-4"),  ]
pred_dc_1 <- predict(res_lm, newdata = new_data_dc_1)

pred_dc_2 <- matrix(0, length(nom_dep), 4)
pred_dc_2a <- matrix(0, length(nom_dep), 4)
pred_dc_2b <- matrix(0, length(nom_dep), 4)
pred_dc_2c <- matrix(0, length(nom_dep), 4)
for (k in 1:length(nom_dep)) {
  temp <- hospital[!(hospital$semaine %in% c("semaine_t0-4", "semaine_t0-3", "semaine_t0-2", "semaine_t0-1")) & 
                     hospital$dep == nom_dep[k], ]
  my_ts <- zoo(temp$incid_dc, temp$jour)
  my_ts_diff <- diff(my_ts)
  # tseries::adf.test(my_ts) 
  # tseries::adf.test(my_ts_diff)
  if (nom_dep[k] %in% c("975", "977", "978")) {
    pred_rea_2[k] <- NA
  } else {
    my_mod <- forecast::auto.arima(my_ts_diff)
    forecast_my_mod <- as.numeric(forecast(my_mod, h = 28)$mean)
    pred_3a_s1 <- sum((as.numeric(my_ts[length(my_ts)]) + cumsum(forecast_my_mod))[1:7])
    pred_3a_s2 <- sum((as.numeric(my_ts[length(my_ts)]) + cumsum(forecast_my_mod))[1:14]) - pred_3a_s1
    pred_3a_s3 <- sum((as.numeric(my_ts[length(my_ts)]) + cumsum(forecast_my_mod))[1:21]) - 
      pred_3a_s1 - pred_3a_s2
    pred_3a_s4 <- sum((as.numeric(my_ts[length(my_ts)]) + cumsum(forecast_my_mod))[1:28]) - 
      pred_3a_s1 - pred_3a_s2 - pred_3a_s3
        # Lissage exponentiel
    my_mod_exp <- ets(my_ts)
    forecast_my_mod_exp <- as.numeric(forecast(my_mod_exp, h = 28)$mean)
    forecast_my_mod_exp <- ifelse(forecast_my_mod_exp > 0, forecast_my_mod_exp, 0)
    pred_3b_s1 <- round(sum(forecast_my_mod_exp[1:7]), 0)
    pred_3b_s2 <- round(sum(forecast_my_mod_exp[1:14]), 0) - pred_3b_s1
    pred_3b_s3 <- round(sum(forecast_my_mod_exp[1:21]), 0) - pred_3b_s2 - pred_3b_s1
    pred_3b_s4 <- round(sum(forecast_my_mod_exp[1:28]), 0) - pred_3b_s3 - pred_3b_s2 - pred_3b_s1
    # Méthode 3 : lissage exponentiel sur données hebdomadaires
    temp <- my_basis[my_basis$dep == nom_dep[k] & !(my_basis$semaine %in% 
                                          c("semaine_t0-4", "semaine_t0-3", "semaine_t0-2", "semaine_t0-1")), ]
    my_ts_exp <- zoo(temp$dc, temp$jour)
    my_mod_exp_2 <- ets(my_ts_exp)
    forecast_my_mod_exp <- as.numeric(forecast(my_mod_exp_2)$mean)
    forecast_my_mod_exp <- ifelse(forecast_my_mod_exp > 0, forecast_my_mod_exp, 0)
    pred_3c_s1 <- round(forecast_my_mod_exp[1], 0)
    pred_3c_s2 <- round(forecast_my_mod_exp[2], 0)
    pred_3c_s3 <- round(forecast_my_mod_exp[3], 0)    
    pred_3c_s4 <- round(forecast_my_mod_exp[4], 0) 
      
    pred_dc_2[k, 1] <- predict(lm_2_dc_ts, newdata = data.frame(pred_dc_2a = pred_3a_s1,
                                                 pred_dc_2b = pred_3b_s1,
                                                 pred_dc_2c = pred_3c_s1))
    pred_dc_2[k, 2] <- predict(lm_2_dc_ts_s1, newdata = data.frame(pred_dc_2a_s2 = pred_3a_s2,
                                                 pred_dc_2b_s2 = pred_3b_s2,
                                                 pred_dc_2c_s2 = pred_3c_s2))
    pred_dc_2[k, 3] <- predict(lm_2_dc_ts_s2, newdata = data.frame(pred_dc_2a_s3 = pred_3a_s3,
                                                 pred_dc_2b_s3 = pred_3b_s3,
                                                 pred_dc_2c_s3 = pred_3c_s3))
    pred_dc_2[k, 4] <- predict(lm_2_dc_ts_s3, newdata = data.frame(pred_dc_2a_s4 = pred_3a_s4,
                                                 pred_dc_2b_s4 = pred_3b_s4,
                                                 pred_dc_2c_s4 = pred_3c_s4))  
  }
}

n_4 <- 4 * length(nom_dep) 

pred_dc_a <- predict(lm_dc_3, newdata = data.frame(pred_dc_1 = 
                        pred_dc_1[new_data_dc_1$semaine == "semaine_t0-1"],
                        pred_dc_2 = as.vector(pred_dc_2)[1:(n_4 / 4)]))

pred_dc_b <- predict(lm_dc_3b, newdata = data.frame(
  pred_dc_1_s2 = pred_dc_1[new_data_dc_1$semaine == "semaine_t0-2"],
  pred_dc_2_s2 = as.vector(pred_dc_2)[((n_4 / 4) + 1):(2 * n_4 / 4)]))

pred_dc_c <- predict(lm_dc_3c, newdata = data.frame(
  pred_dc_1_s3 = pred_dc_1[new_data_dc_1$semaine == "semaine_t0-3"],
  pred_dc_2_s3 = as.vector(pred_dc_2)[(2 * n_4 / 4 + 1):(3 * n_4 / 4)]))

pred_dc_d <- predict(lm_dc_4c, newdata = data.frame(
  pred_dc_1_s4 = pred_dc_1[new_data_dc_1$semaine == "semaine_t0-4"],
  pred_dc_2_s4 = as.vector(pred_dc_2)[(3 * n_4 / 4 + 1):n_4]))



# on synthétise les résultats
new_data <- my_basis[my_basis$semaine %in% "semaine_t0-1", ]
new_data$this_week <- my_basis_dc[my_basis_dc$semaine == "semaine_t00", "dc"]
new_data$next_week <- pred_dc_a
new_data$next_two_week <- pred_dc_b
new_data$next_three_week <- pred_dc_c
new_data$next_four_week <- pred_dc_d
my_basis[my_basis$semaine %in% "semaine_t0-1", "dc"] <- pred_dc_a
my_basis[my_basis$semaine %in% "semaine_t0-2", "dc"] <- pred_dc_b
my_basis[my_basis$semaine %in% "semaine_t0-3", "dc"] <- pred_dc_c
my_basis[my_basis$semaine %in% "semaine_t0-4", "dc"] <- pred_dc_d

On va représenter l’évolution du nombre de décès dans un intervalle de temps de 5 semaines :

  • les 7 derniers jours passés : [08 février 2021; 14 février 2021]
  • la semaine à venir : [15 février 2021; 21 février 2021]
  • la 2ème semaine à venir : [22 février 2021; 28 février 2021]
  • la 3ème semaine à venir : [01 mars 2021; 07 mars 2021]
  • la 4ème semaine à venir : [01 mars 2021; 07 mars 2021]

On aggrège les données à la France entière:

Soit un nombre de décès par jour de :

## # A tibble: 5 x 2
##   semaine                 dc
##   <fct>                <dbl>
## 1 [08 févr.; 14 févr.]  322.
## 2 [15 févr.; 21 févr.]  298.
## 3 [22 févr.; 28 févr.]  292.
## 4 [01 mars; 07 mars]    293.
## 5 [08 mars; 14 mars]    302.