Les séminaires de STATQAM ont lieu à 15h30 (Heure de l’Est), certains seront en présentiel au PK-5115 et d’autres en ligne via Zoom.

Session Automne 2021

Titre : Problèmes d’imputation dans les études génétiques de méthylation : spline de lissage et modèle de corrégionalisation linéaire.

Résumé :

La méthylation de l’ADN est un processus qui modifie les sites CpG de l’ADN par l’addition d’un groupement méthylé. Ce phénomène est nécessaire au bon fonctionnement du corps. Cependant, l’altération généralisée de ce processus de méthylation peut-être, par exemple, une caractéristique des cellules cancéreuses. C’est pourquoi l’étude de ce phénomène est primordial dans la prévention et la compréhension de certaines maladies. 
 
Les données étudiées correspondent au niveau de méthylation sur les sites CpG pour différents échantillons. Ce niveau est mesuré par séquençage (26 millions de sites) ou par array (800-400 K sites). Les échantillons correspondent à des sujets ou à des cellules. Le niveau de méthylation dépend de la position du site sur l’ADN ainsi que des variables décrivant les échantillons. 
 
En pratique la méthylation est mesurée par séquençage pour un petit nombre d’échantillons et par arrays pour la plupart des échantillons. L’objectif est d’imputer le niveau de méthylation sur les sites manquants. Nous nous retrouvons face à un problème d’imputation en grande dimensions avec variables explicatives.
 
Dans cette présentation, nous proposons une méthode en deux étapes permettant de prédire le niveau de méthylation en se basant sur les autres sites et sur les informations liées aux échantillons. D’une part nous modélisons la partie fixe par splines de lissage et d’autre part la partie aléatoire est modélisée par un modèle de corrégionalisation linéaire (processus Gaussien non séparable).

Title : Stochastic approximations for discrete optimal transport 

Abstract :

Optimal transport is now a popular tool in statistics, machine learning, and data science. A major challenge in applying optimal transport to large-scale problems is its excessive computational cost. We propose a simple resampling scheme for fast randomised approximate computation of optimal transport distances on finite spaces. This scheme operates on a random subset of the full data and can use any exact algorithm as a black-box back-end, including state-of-the-art solvers and entropically penalized versions. We give non-asymptotic bounds for the expected approximation error. Remarkably, in many important instances such as images (2D-histograms), the bounds are independent of the size of the full problem. Our resampling scheme can also be employed for the barycentre problem, namely computing Fréchet means with respect to the optimal transport metric. We present numerical experiments demonstrating very good approximations can be obtained while decreasing the computation time by several orders of magnitude.

Title : Deep down, everyone wants to be causal

Abstract : Most researchers in the social, behavioral, and health sciences are taught to be extremely cautious in making causal claims. However, causal inference is a necessary goal in research for addressing many of the most pressing questions around policy and practice. In the past decade, causal methodologists have increasingly been using and touting the benefits of more complicated machine learning algorithms to estimate causal effects. These methods can take some of the guesswork out of analyses, decrease the opportunity for “p-hacking,” and may be better suited for more fine-tuned tasks such as identifying varying treatment effects and generalizing results from one population to another. However, should these more advanced methods change our fundamental views about how difficult it is to infer causality? In this talk I will discuss some potential advantages and disadvantages of using machine learning for causal inference and emphasize ways that we can all be more transparent in our inferences and honest about their limitations.

Titre : Problèmes d’identification dans les modèles de régression pour l’échantillonnage fondé sur les répondants 

Résumé : L’échantillonnage fondé sur les répondants (EFR) est une technique d’échantillonnage pour populations difficiles à rejoindre, qui vise à tirer parti des relations sociales entre les individus pour recruter des participants. Les approches analytiques actuelles pour les données EFR se concentrent principalement sur l’estimation des moyennes/proportions et n’accordent que peu de considération technique à la modélisation multivariée. Les progrès dans ce domaine sont limités par un problème de données manquantes: le réseau social EFR observé révèle des informations partielles sur les liens sociaux entre les individus de l’échantillon. Dans cette présentation, nous montrerons que les paramètres des modèles de régression ne sont pas en général identifiables car différentes distributions de probabilité pour les données complètes donnent la même distribution de probabilité pour les données observées. Ce nouveau paradigme d’absence d’identification par design implique que des méthodes d’inférence standard telles que le maximum de vraisemblance ne seront pas en général valides. Nous discuterons d’alternatives semi-paramétriques d’estimation sous certaines conditions sur la topologie du réseau social EFR. 

Titre : Loi de Pareto généralisée étendue pour la modélisation des excédents au-dessus d’un seuil sous-asymptotique. Application aux intensités des vagues de chaleur.

Résumé : Pour les applications environnementales, les queues de distribution jouent un rôle prépondérant car elles sont associées à des risques extrêmes. Une approche classique pour caractériser les queues consiste à modéliser les excédents au-dessus d’un seuil suffisamment élevé par la loi de Pareto généralisée. Pour certaines applications, le choix du seuil est difficile et les conditions asymptotiques ne sont pas satisfaites. Lorsque le seuil n’est pas suffisamment élevé, les lois de Pareto généralisées étendues peuvent être utilisées. Cependant, les extensions existantes possèdent une densité infinie ou nulle à l’origine, ce qui les rend inadaptées pour modéliser les excédents. Une nouvelle extension de la loi de Pareto généralisée étendue est développée pour modéliser les excédents au-dessus d’un seuil sous-asymptotique possédant une densité finie et non nulle au seuil. Cette nouvelle extension est utilisée pour modéliser l’intensité des vagues de chaleur.

Session Hiver 2022