Choisir la langue :

Imputation multiple par analyse factorielle

Institutional tag: 

Les données manquantes constituent un problème incontournable
dans la pratique de la statistique. Une solution commune pour
gérer ces données manquantes consiste à remplacer chacune d'entre
elles par plusieurs valeurs plausibles. On parle alors d'imputation multiple.

Cet exposé porte sur de nouvelles méthodes d'imputation multiples
basées sur des techniques d'analyse factorielle. Les méthodes factorielles,
ici en tant que méthodes d'imputation, offrent de grandes perspectives
en termes de diversité du type de données imputées d'une part,
et en termes de dimensions de jeux de données imputés d'autre part.
Leur propriété de réduction de la dimension limitant en effet le nombre
de paramètres à estimer.

Dans un premier temps, une méthode d'imputation simple par
analyse factorielle de données mixtes sera présentée. Les performances
de cette méthode seront éprouvées via une comparaison à l'imputation
par forêts aléatoires. Ceci permettra de mettre en évidence les propriétés
générales des méthodes d'imputation basées sur les méthodes d'analyse factorielle,
en particulier leurs capacités à gérer la diversité des liaisons mises en jeu,
à prendre en compte les modalités rares ou encore à s'appliquer
sur des jeux de dimensions variées.

Dans un second temps, nous verrons deux extensions de cette méthode
d'imputation simple à des méthodes d'imputation multiples.
D'abord une méthode d'imputation multiple pour des données quantitatives,
basée sur une approche Bayésienne du modèle d'analyse en composantes principales.
Celle-ci permet notamment d'inférer en présence de données manquantes y compris
quand le nombre d'individus est petit devant le nombre de variables,
ou quand les corrélations entre variables sont fortes. Ensuite,
une méthode d'imputation multiple pour des données qualitatives
par analyse des correspondances multiples (ACM) sera proposée.
La variabilité de prédiction des données manquantes est ici
reflétée via un bootstrap non-paramétrique. L'imputation multiple
par ACM offre une réponse au problème de l'explosion combinatoire
limitant les méthodes concurrentes dès lors que le nombre de variables
ou de modalités est élevé.

Cet exposé sera conclu par une présentation des principales fonctions du
package R missMDA permettant l'application de ces différentes méthodes.

Dates: 
Tuesday, November 22, 2016 - 14:00 to 16:00
Location: 
Inria Lille - Nord Europe, bâtiment A, salle plénière
Speaker(s): 
Vincent Audigier
Affiliation(s): 
INSERM