Centre de recherche facultaire STATQAM

Statistique et science des données à l’UQAM

La statistique et la science des données sous-tendent de nombreux efforts dans la société. Que ce soit à partir de données spatiales pour la reconnaissance d’images, de données d’études cliniques pour déterminer l’effet d’un traitement biomédical ou de données administratives pour l’élaboration de politiques publiques, la méthodologie statistique est à la base de la recherche en sciences naturelles, sociales et de la santé. La statistique connaît actuellement des changements importants dans ses techniques et ses approches. Cette (r)évolution est motivée par la nécessité d’analyser des ensembles de données de plus en grands et complexes. Ces défis statistiques sont approchés de diverses manières (théorique, méthodologique et computationnelle) ayant toutes leur pertinence pour la résolution de ceux-ci.

Si vous voulez en savoir plus sur STATQAM, téléchargez une récente présentation du centre facultaire lors de la journée de la recherche de la Faculté des sciences. [pdf]

 


Nouvelles

  • Journée  « Modélisation stochastique et équations différentielles : applications et inférence » en l’honneur de Sorana Froda.
  • Conférence organisée par les étudiants de STATQAM (voir plus bas)
  • Bourses de recrutement pour étudiants à la maîtrise pour l’automne 2019 : [lien]

Journée  « Modélisation stochastique et équations différentielles : applications et inférence » en l’honneur de Sorana Froda.
Le jeudi 2 mai, STATQAM organise une journée de conférence, suivie d’un coquetel en l’honneur du départ à la retraite de notre collègue Sorana Froda.


Les conférences auront lieu au PK-1140. 

  • 14h00 Hugues Leduc, UQAM.
    Estimation du basic reproduction number à partir des données de surveillance d’épidémies passées.
    Le basic reproduction number (R0) est un paramètre qui caractérise le potentiel de transmission d’une épidémie. Une nouvelle façon d’estimer ce paramètre est proposée. Nous introduisons un modèle stochastique qui prend comme point de départ les modèles classiques SIR (susceptibles-infectés-retirés) déterministes et stochastiques. La méthode d’estimation repose sur une propriété du modèle déterministe SIR et pourrait être appliquée aux données de surveillance disponibles sur les épidémies, données recueillies annuellement dans diverses régions. Nos estimateurs prennent en compte certaines limitations pratiques, notamment le fait que les données sont collectées à des moments prédéfinis. Nous dérivons les propriétés asymptotiques des estimateurs et réalisons une étude de simulation pour évaluer le comportement d’échantillons de petite taille. Nous illustrons enfin la méthode sur des données réelles (provenant du site web des US Centers for Disease Control and Prevention).
  • 14h45 – 15h30: Sévérien Nkurunziza, Windsor University
    Quelques modélisations prédictives et méthodes d’inférence optimales.
    Dans cet exposé, on présente un aperçu des récents modèles étudiés ainsi que  les résultats statistiques établis. Brièvement, les procédures statistiques établies ont les applications dans  l’analyse de la dynamique des populations cycliques de type proie-prédateurs, dans l’analyse des marchés financiers ainsi que dans l’analyse des données de survie. Plus spécifiquement, dans le scénario où le paramètre d’intérêt pourrait satisfaire une contrainte imprécise, on présente une famille d’estimateurs à rétrécissement qui comprend aussi bien l’estimateur sans restriction  que l’estimateur restreint ainsi que les estimateurs de type James-Stein. Pour étudier les  performances des estimateurs établis, on généralise quelques identités remarquables classiques dans le contexte des échantillons générés par la loi gaussienne multivariée ou plus  généralement dans ceux générés par la distribution elliptique multivariée. Par ailleurs, on discute de la plus récente application de nos méthodes dans certains  modèles avec plusieurs points de rupture inconnus. Finalement, on présente un résultat asymptotique qui permet d’étudier l’optimalité des estimateurs matriciels à dimensions aléatoires.
  • 15h30 – 16h : Pause café
  • 16h – 17h: Jim Ramsay, Michelle Carey, Juan Li. McGill University
    From Brain to Hand to Statistics with Dynamic Smoothing

    Systems of differential equations are often used to model buffering processes that modulate a non-smooth high-energy input so as to produce an output that is smooth and that distributes the energy load over time and space. Handwriting is buffered in this way.  We show that the smooth complex script that spells `”statistics” in Chinese can be represented as buffered version of a series of 46 equal-interval step inputs.  The buffer consists of three undamped oscillating springs, one for each orthogonal coordinate.  The periods of oscillation vary slightly over the three coordinate in a way that reflects the masses that are moved by muscle activations.   Our analyses of data on juggling three balls and on lip motion during speech confirm that this model works for a wide variety of human motions.

    We use the term  “dynamic smoothing” for the estimation of a structured input functional object along with the buffer characteristics.


Conférence organisée par les étudiants de STATQAM
Le Sommet étudiant de la statistique à Montréal est une journée de conférences et d’activités dédiée aux étudiant-es francophones de la région. À l’affiche : conférences invitées de Sahir Bhatnagar (université McGill) et de Jeffrey Rosenthal (Professeur à l’université de Toronto), conférences étudiantes, dîner et 5 à 7. Inscription sur sesam2019.ca
 
Nous invitons tous les membres de STATQAM à soutenir cette initiative ainsi qu’à participer aux conférences données par Sahir Bhatnagar et Jeffrey Rosenthal.
 
Sahir Bhatnagar (11h15 à 12h15 au PK-1140).
Titre: Miser sur la sparsité
Résumé: Avec des données de grande dimension, où le nombre de covariables (p) dépasse largement le nombre d’observations (n), l’estimation peut profiter du principe «miser sur la sparsité», c’est à dire, seulement un petit nombre de prédicteurs de la variable réponse sont réellement pertinents. Cette hypothèse permet d’obtenir des modèles interprétables, améliore leur précision et facilite l’implémentation d’algorithmes efficaces sur le plan des calculs. Dans les études d’imagerie génomique et cérébrale, où la taille des échantillons est particulièrement faible en raison des coûts élevés associés à la collecte de données, nous devons souvent supposer un modèle «sparse» car l’information est insuffisante pour estimer les p paramètres. Pour ces raisons, les méthodes de régression pénalisées telles que lasso et group lasso ont suscité un intérêt considérable, car elles permettent d’obtenir des estimés des coefficients du modèle égaux à zéro. Cette présentation fera un survol de ces méthodes ainsi que leurs applications dans de nombreux domaines scientifiques.
 
Jeffrey Rosenthal (15h15 à 16h15 au PK-1140).
Titre: L’adaptation de l’algorithme Metropolis.
Résumé : L’algorithme Metropolis est le plus utilisé de tous les algorithmes Markov chain Monte Carlo (MCMC). Mais, il ne réussit pas si la distribution instrumentale n’est pas bien choisie. L’adaptation est l’idée de modifier la distribution instrumentale automatiquement pendant que l’algorithme marche. Ces modifications détruisent la propriété markov de l’algorithme, alors ce n’est plus garanti qu’il va converger à la bonne distribution cible. Nous proposons des conditions accessibles qui assurent que les algorithmes adaptatifs vont toujours bien converger. Nous illustrons les algorithmes et les idées avec des simulations graphiques Javascript.