2021-2022

Les séminaires de STATQAM ont lieu à 15h30 (Heure de l’Est), certains seront en présentiel au PK-5115 et d’autres en ligne via Zoom.

Session Automne 2021

Jeudi 16 septembre : Mélina Ribaud (UQAM)

Titre : Problèmes d’imputation dans les études génétiques de méthylation : spline de lissage et modèle de corrégionalisation linéaire.

Résumé :

La méthylation de l’ADN est un processus qui modifie les sites CpG de l’ADN par l’addition d’un groupement méthylé. Ce phénomène est nécessaire au bon fonctionnement du corps. Cependant, l’altération généralisée de ce processus de méthylation peut-être, par exemple, une caractéristique des cellules cancéreuses. C’est pourquoi l’étude de ce phénomène est primordial dans la prévention et la compréhension de certaines maladies. 

Les données étudiées correspondent au niveau de méthylation sur les sites CpG pour différents échantillons. Ce niveau est mesuré par séquençage (26 millions de sites) ou par array (800-400 K sites). Les échantillons correspondent à des sujets ou à des cellules. Le niveau de méthylation dépend de la position du site sur l’ADN ainsi que des variables décrivant les échantillons. 

En pratique la méthylation est mesurée par séquençage pour un petit nombre d’échantillons et par arrays pour la plupart des échantillons. L’objectif est d’imputer le niveau de méthylation sur les sites manquants. Nous nous retrouvons face à un problème d’imputation en grande dimensions avec variables explicatives.

Dans cette présentation, nous proposons une méthode en deux étapes permettant de prédire le niveau de méthylation en se basant sur les autres sites et sur les informations liées aux échantillons. D’une part nous modélisons la partie fixe par splines de lissage et d’autre part la partie aléatoire est modélisée par un modèle de corrégionalisation linéaire (processus Gaussien non séparable).

En présentiel et disponible par zoom.

Jeudi 23 septembre : — ANNULÉ — REMIS AU 2 DÉCEMBRE — Yoav Zemel (University of Cambridge)

Title : Stochastic approximations for discrete optimal transport 

Abstract :

Optimal transport is now a popular tool in statistics, machine learning, and data science. A major challenge in applying optimal transport to large-scale problems is its excessive computational cost. We propose a simple resampling scheme for fast randomised approximate computation of optimal transport distances on finite spaces. This scheme operates on a random subset of the full data and can use any exact algorithm as a black-box back-end, including state-of-the-art solvers and entropically penalized versions. We give non-asymptotic bounds for the expected approximation error. Remarkably, in many important instances such as images (2D-histograms), the bounds are independent of the size of the full problem. Our resampling scheme can also be employed for the barycentre problem, namely computing Fréchet means with respect to the optimal transport metric. We present numerical experiments demonstrating very good approximations can be obtained while decreasing the computation time by several orders of magnitude.

Vendredi 24 septembre à 15h (colloque du CRM) : Jennifer Hill (NYU Steinhardt)

Title : Deep down, everyone wants to be causal

Abstract : Most researchers in the social, behavioral, and health sciences are taught to be extremely cautious in making causal claims. However, causal inference is a necessary goal in research for addressing many of the most pressing questions around policy and practice. In the past decade, causal methodologists have increasingly been using and touting the benefits of more complicated machine learning algorithms to estimate causal effects. These methods can take some of the guesswork out of analyses, decrease the opportunity for “p-hacking,” and may be better suited for more fine-tuned tasks such as identifying varying treatment effects and generalizing results from one population to another. However, should these more advanced methods change our fundamental views about how difficult it is to infer causality? In this talk I will discuss some potential advantages and disadvantages of using machine learning for causal inference and emphasize ways that we can all be more transparent in our inferences and honest about their limitations.

Jeudi 30 septembre : Mamadou Yauck (UQAM)

Titre : Problèmes d’identification dans les modèles de régression pour l’échantillonnage fondé sur les répondants 

Résumé : L’échantillonnage fondé sur les répondants (EFR) est une technique d’échantillonnage pour populations difficiles à rejoindre, qui vise à tirer parti des relations sociales entre les individus pour recruter des participants. Les approches analytiques actuelles pour les données EFR se concentrent principalement sur l’estimation des moyennes/proportions et n’accordent que peu de considération technique à la modélisation multivariée. Les progrès dans ce domaine sont limités par un problème de données manquantes: le réseau social EFR observé révèle des informations partielles sur les liens sociaux entre les individus de l’échantillon. Dans cette présentation, nous montrerons que les paramètres des modèles de régression ne sont pas en général identifiables car différentes distributions de probabilité pour les données complètes donnent la même distribution de probabilité pour les données observées. Ce nouveau paradigme d’absence d’identification par design implique que des méthodes d’inférence standard telles que le maximum de vraisemblance ne seront pas en général valides. Nous discuterons d’alternatives semi-paramétriques d’estimation sous certaines conditions sur la topologie du réseau social EFR. 

En présentiel et disponible par zoom.

Jeudi 7 octobre : Jonathan Jalbert (Polytechnique Montréal)

Titre : Loi de Pareto généralisée étendue pour la modélisation des excédents au-dessus d’un seuil sous-asymptotique. Application aux intensités des vagues de chaleur.

Résumé : Pour les applications environnementales, les queues de distribution jouent un rôle prépondérant car elles sont associées à des risques extrêmes. Une approche classique pour caractériser les queues consiste à modéliser les excédents au-dessus d’un seuil suffisamment élevé par la loi de Pareto généralisée. Pour certaines applications, le choix du seuil est difficile et les conditions asymptotiques ne sont pas satisfaites. Lorsque le seuil n’est pas suffisamment élevé, les lois de Pareto généralisées étendues peuvent être utilisées. Cependant, les extensions existantes possèdent une densité infinie ou nulle à l’origine, ce qui les rend inadaptées pour modéliser les excédents. Une nouvelle extension de la loi de Pareto généralisée étendue est développée pour modéliser les excédents au-dessus d’un seuil sous-asymptotique possédant une densité finie et non nulle au seuil. Cette nouvelle extension est utilisée pour modéliser l’intensité des vagues de chaleur.

En présentiel et disponible par zoom.

Jeudi 21 octobre : Ismaïla Ba (UQAM)

Titre : Estimation de la fonction d’interaction de paires des processus ponctuels de Gibbs en utilisant la méthode par projection. 

Résumé : ​La classe des processus ponctuels de Gibbs (PPG) est une large classe de processus ponctuels spatiaux dans le sens où ils peuvent modéliser des motifs de points attractifs et réguliers. Ils sont souvent spécifiés par leur intensité conditionnelle qui, pour une configuration x et un emplacement u, est grosso modo la probabilité qu’un évènement se produise dans une boule infinitésimale autour de u étant donné le reste de x. La classe de modèles la plus simple, naturelle et facile à interpréter est celle des processus ponctuels d’interaction de paires où l’intensité conditionnelle dépend du nombre de points et des distances par paires entre eux. L’estimation de cette fonction de manière non paramétrique n’a presque jamais été envisagée dans la littérature. Nous abordons cette question et proposons une procédure d’estimation du logarithme de la fonction d’interaction de paires par projection orthogonale. Nous présenterons la méthodologie, ses propriétés asymptotiques et une étude de simulation montrant son efficacité. Une application à des jeux de données réelles sera également proposée.

En présentiel et disponible par zoom.

Jeudi 28 octobre : Eric Rose (McGill University)

Title : Sample Size Calculations for Precision Medicine

Abstract : There has been significant attention given to developing data-driven methods for tailoring patient care based on individual patient characteristics. Dynamic treatment regimes formalize this through a sequence of decision rules that map patient information to a suggested treatment. The data for estimating and evaluating treatment regimes are usually gathered through longitudinal observational studies or through the use of Sequential Multiple Assignment Randomized Trials (SMARTs).  These studies are typically sized for simple comparisons of fixed treatment sequences or in the case of observational studies sometimes not at all. We develop sample size procedures for the estimation of treatment regimes that ensure we have sufficient power for comparing the value of the optimal regime with standard of care and the value of the estimated optimal treatment regime is within a set range of the value of the true optimal regime with a high probability.

Par zoom.

Jeudi 4 novembre : Alexandre Bouchard-Côté (University of British-Columbia)

Titre : Approximation d’intégrales intraitables grâce aux méthodes irréversibles

Résumé :

PT (Parallel Tempering) est une famille d’algorithmes MCMC utilisée pour faire l’approximation d’espérances sous des lois intraitables. Ces algorithmes sont populaires pour résoudre des problèmes complexes, par exemple pour la reconstruction d’arbres phylogénétiques.

Dans cette présentation je vais décrire une nouvelle perspective sur ces algorithmes, basée sur l’irréversibilité. Nos travaux démontrent qu’une simple modification de l’algorithme PT permet des gains en parallélisme considérable et permet de complètement automatiser le déploiement de ces méthodes.

Nous avons aussi identifié une limite théorique fondamentale qui s’applique aux algorithmes PT, aussi bien réversibles qu’irréversibles. Je vais expliquer comment un continuum de distributions « non-linéaire » peut être utilisé pour briser cette limite.

Finalement, je vais décrire un langage de modélisation similaire à BUGS/JAGS/Stan qui permet d’appliquer ces méthodes à des problèmes d’inférence bayésienne.

Par zoom.

Jeudi 11 novembre : Grace Yi (University of Western Ontario)

Title : Boosting Learning of Censored Survival Data

Abstract : Survival data frequently arise from cancer research, biomedical studies, and clinical trials. Survival analysis has attracted extensive research interests in the past five decades. Numerous modeling strategies and inferential procedures have been developed in the literature. In this talk, I will start with a brief introductory overview of classical survival analysis which centers around statistical inference, and then discuss a boosting method which focuses on prediction. While boosting methods have been well known in the field of machine learning, they have also been broadly discussed in the statistical community for various settings, especially for cases with complete data. This talk concerns survival data which typically involve censored responses. Three adjusted loss functions are proposed to address the effects due to right-censored responses where no specific model is imposed, and an unbiased boosting estimation method is developed. Theoretical results, including consistency and convergence, are established. Numerical studies demonstrate the promising finite sample performance of the proposed method. 

Par zoom.

Jeudi 18 novembre : — ANNULÉ — REMIS AU 3 FÉVRIER — Laurent Charlin (HEC Montréal)

Titre : L’Apprentissage Continu (Continual Learning)

Résumé : L’apprentissage continu consiste à apprendre sur des données non iid qui changent à travers le temps sans pour autant oublier le passé. Dans cette présentation, nous introduirons ce domaine de recherche très actif en apprentissage automatique. Nous explorerons les techniques de bases et les grands enjeux du domaine (catastrophic forgetting, backward- et forward-transfer) en étudiant certains de nos travaux récents.

Jeudi 2 décembre : Yoav Zemel (University of Cambridge)

Title : Stochastic approximations for discrete optimal transport

Abstract :

Optimal transport is now a popular tool in statistics, machine learning, and data science. A major challenge in applying optimal transport to large-scale problems is its excessive computational cost. We propose a simple resampling scheme for fast randomised approximate computation of optimal transport distances on finite spaces. This scheme operates on a random subset of the full data and can use any exact algorithm as a black-box back-end, including state-of-the-art solvers and entropically penalized versions. We give non-asymptotic bounds for the expected approximation error. Remarkably, in many important instances such as images (2D-histograms), the bounds are independent of the size of the full problem. Our resampling scheme can also be employed for the barycentre problem, namely computing Fréchet means with respect to the optimal transport metric. We present numerical experiments demonstrating very good approximations can be obtained while decreasing the computation time by several orders of magnitude.

Par zoom.

Session Hiver 2022

Jeudi 20 janvier : –ANNULÉ — Jesse Gervais (UQAM)

Titre : Sélection de variables en médiation causale : méthodes basées sur le changement d’estimation et sur la différence en erreur quadratique moyenne

Les méthodes de sélection de variables basées sur les données pour l’estimation de l’effet total de l’exposition sur la réponse, comme le changement d’estimation (CIE) et la différence de l’erreur quadratique moyenne (MSE), sont fréquemment employées dans plusieurs domaines de recherche lorsque la connaissance du domaine d’application est insuffisante pour identifier un ensemble d’ajustement adéquat pour l’analyse des données. Alors que des défis de modélisation sont similairement présents en analyse de médiation causale, il n’y a actuellement que très peu de connaissances et d’outils pour la sélection de variables basées sur les données dans ce cadre d’analyse de plus en plus populaire. Dans cette présentation, nous allons proposer des modifications aux procédures CIE et MSE pour qu’elles soient adaptées à la sélection de variables en médiation causale. Les résultats d’une étude de simulation Monte-Carlo pour évaluer la performance de ces méthodes de sélection de variables dans le contexte de médiation, ainsi qu’un exemple d’application sur des données réelles,seront également présentés.

Vendredi 28 janvier (colloque du CRM) Gilles Stupfler (ENSAI)

Title : Risk assessment, heavy tails, and asymmetric least squares techniques

Abstract : Statistical risk assessment, in particular in finance and insurance, requires estimating simple indicators to summarize the risk incurred in a given situation.  Of most interest is to infer extreme levels of risk so as to be able to manage high-impact rare events such as extreme climate episodes or stock market crashes.  A standard procedure in this context, whether in the academic, industrial or regulatory circles, is to estimate a well-chosen single quantile (or Value-at-Risk).  One drawback of quantiles is that they only take into account the frequency of an extreme event, and in particular do not give an idea of what the typical magnitude of such an event would be.  Another issue is that they do not induce a coherent risk measure, which is a serious concern in actuarial and financial applications. In this talk, after giving a leisurely tour of extreme quantile estimation, I will explain how, starting from the formulation of a quantile as the solution of an optimization problem, one may come up with two alternative families of risk measures, called expectiles and extremiles, in order to address these two drawbacks.  I will give a broad overview of their properties, as well as of their estimation at extreme levels in heavy-tailed models, and explain why they constitute sensible alternatives for risk assessment using real data applications.  This is based on joint work with Abdelaati Daouia, Irène Gijbels, Stéphane Girard, Simone Padoan and Antoine Usseglio-Carleve.

Jeudi 3 février : Laurent Charlin (HEC Montréal)

Titre : L’Apprentissage Continu modulaire (Continual Learning)

Résumé : L’apprentissage continu consiste à apprendre sur des données non iid qui changent à travers le temps sans pour autant oublier le passé. Dans cette présentation, nous introduirons ce domaine de recherche très actif en apprentissage automatique. Nous explorerons les techniques de bases et les grands enjeux du domaine (catastrophic forgetting, backward- et forward-transfer) en étudiant nos travaux récents proposant une architecture modulaire.

Par zoom.

Jeudi 10 février : Alexandre Bureau (ULaval)

Titre : Extension à des traits corrélés de la régression pénalisée avec statistiques récapitulatives pour construire des scores de risques polygéniques

Résumé : L’addition des observations sur des milliers d’allèles pondérés par leur effet sur le risque d’une maladie (estimé dans des études d’association pangénomiques) produit ce qu’on appelle un score de risque polygénique. La moyenne de tels scores est plus élevée chez des atteints de la maladie en question que des témoins. La recherche actuelle se concentre sur l’amélioration de la capacité prédictive de ces scores, mais traite peu l’identification des variants causalement impliqués dans la maladie. Par ailleurs, des corrélations génétiques entre des maladies comme la schizophrénie et le trouble bipolaire sont bien établies, et des améliorations de capacité prédictive ont déjà été obtenues en combinant l’information de plusieurs traits. Nous étendons cette idée à une approche de régression pénalisée de type Lasso implantée avec des statistiques récapitulatives, où les coefficients de régression des multiples traits ou maladies sont traités comme des effets aléatoires corrélés. Une deuxième extension consiste à pondérer la pénalité de chaque coefficient selon le principe du Lasso adaptatif. Ces nouvelles approches sont implantées dans le module R multivariateLassosum et sont comparées à Lassosum et à LDpred2 dans des simulations de maladies reproduisant l’architecture génétique de la schizophrénie et du trouble bipolaire. L’approche multivariée avec Lasso adaptatif s’avère la meilleure autant en termes de capacité à prédire les vrais scores de risque que de sensibilité et spécificité dans la détection des variants causalement impliqués dans les maladies simulées. Les différentes approches sont illustrées sur les données de l’Étude familiale de la schizophrénie et du trouble bipolaire de l’Est du Québec.

En présentiel et disponible par zoom.

Jeudi 17 février : Jason Poulos (Harvard University)

Title : Counterfactual Imputation via Matrix Completion with Staggered Treatment Implementation

Abstract : An important problem in the social sciences is estimating the causal effect of a binary treatment on a continuous outcome over time. A recently proposed matrix completion method for counterfactual imputation decomposes observed outcomes into matrices of latent factors and factor loadings and imputes missing potential outcomes based on the estimated factors and loadings. The estimator uses matrix norm regularization to produce a low-dimensional representation of the observed outcomes and thereby improve generalizability when imputing the missing (counterfactual) values. I focus on a novel “retrospective” framework that uses units exposed to treatment throughout the panel (always-treated) to form a control group when never-treated units are unavailable. The target population consists of switch-treated units that enter treatment after an initial time, which varies across units. Two extensions to the estimator are proposed: (i.) weighting the loss function by the propensity score to correct for imbalances in the covariate distributions between the observed and missing values; and (ii.) imputing endogenous covariate values when estimating potential outcomes. An evaluation of the effect of European integration on cross-border employment illustrates the method and framework. This talk is based on joint work with Andrea Albanese (LISER), Andrea Mercatanti (University of Verona), and Fan Li (Duke).

Par zoom.

Jeudi 10 mars : Tim Hesterberg (Google)

Title : Bootstrap Surprises

Abstract : Resampling methods are easier to use and more accurate than classical formula-based statistical methods, but computationally expensive. Whoa – wait a minute. You can go wrong if you don’t understand the idea behind the bootstrap. You might think of the bootstrap for small samples where you don’t trust the central limit theorem, but the most common bootstrap methods are less accurate in small samples than classical methods. There are simple variations that are dramatically more accurate, and these show that the old n > 30 rule is just wrong; try n > 5000 instead (theory confirms this). Finally, we bootstrap for big data at Google because it is faster than using formulas. I hope to change not only the way you think about the bootstrap, but about statistical practice.

Par zoom.

Jeudi 17 mars : Janie Coulombe (McGill University)

Titre : Règle de traitement individuelle optimale en présence d’observation irrégulière

Résumé : Une règle de traitement individuelle (RTI) optimale est une règle permettant de choisir un traitement pour un individu donné, selon ses caractéristiques personnelles, afin d’optimiser une mesure clinique d’intérêt. Les RTI sont souvent développées à partir de données provenant d’études observationnelles, comme celles des dossiers médicaux électroniques. Ces données contiennent de l’information importante sur les traitements prescrits dans le temps, les mesures cliniques observées et les modificateurs d’effet pouvant être utilisés dans la construction des RTI. Dans la plupart des études observationnelles, cependant, les temps d’observation des mesures cliniques d’intérêt sont irréguliers, ce qui peut biaiser les estimateurs classiques pour les RTI.

Dans cette recherche, nous étendons la méthode des moindres carrés pondérés dynamiques au contexte où les temps d’observation sont irréguliers et dépendent des caractéristiques du patient. La robustesse double de la méthode proposée est démontrée à partir d’une grande étude de simulations. La méthode proposée est utilisée pour développer une RTI optimale permettant de choisir entre deux antidépresseurs communément prescrits chez les patients de la Clinical Practice Research Datalink (CPRD) au Royaume-Uni. La RTI est construite de façon à minimiser les variations de poids détrimentales chez les patients souffrant de dépression.

En présentiel et disponible par zoom.

Jeudi 24 mars : Jean-François Coeurjolly (Université Grenoble Alpes)

Titre du mini cours : Introduction aux tests multiples (13h30 à 15h30 dans la salle PK-7210)

Résumé : Lorsque l’on effectue simultanément un grand nombre de tests
d’hypothèses, on fait face à un problème de multiplicité  qui doit être
pris en compte afin d’éviter un mauvais contrôle du risque d’erreur. Ce
champ disciplinaire d’une importance capitale en pratique, est très
vaste. Il s’est largement développé depuis les années 1990/2000 et
demeure encore un champ de recherche important.

Dans cette introduction aux tests multiples, je présenterai le
formalisme standard des tests d’hypothèse, les concepts et principes
généraux, les principales mesures d’erreur considérées dans la
littérature ainsi que les principaux algorithmes permettant de les
contrôler. L’approche adoptée sera (pour l’essentiel) « model-free » :
nous supposons disposer uniquement de m p-valeurs liées à m tests
d’hypothèses et pas nécessairement aux données ayant permis de calculer
ces p-valeurs.

Jeudi 31 mars : Marie-Hélène Descary (UQAM)

Titre : Analyse de données fonctionnelles appliquée à des problèmes de cartographie génétique?

Résumé : L’objectif de la cartographie génétique est d’identifier des gènes ayant un effet sur un phénotype d’intérêt. Traditionnellement, le phénotype d’intérêt était binaire (cas vs témoin) ou quantitatif, mais il arrive de plus en plus qu’il prenne une forme fonctionnelle, par exemple il pourrait être une courbe ou une image. Le terme «données fonctionnelles» est employé afin de décrire de tels objets (courbe, surface, etc.) qui peuvent en fait être vus comme les réalisations d’une fonction aléatoire. Il existe une vaste littérature sur l’analyse statistique de telles données, qu’on appelle l’Analyse de Données Fonctionnelles (ADF). Dans cette présentation, je vais explorer ce que peut nous apporter l’utilisation de l’ADF dans des problèmes de cartographie génétique où le phénotype d’intérêt est fonctionnel. Dans un premier temps, je vais faire une revue de littérature des méthodes existantes et ensuite une nouvelle mesure d’association fonctionnelle sera définie. Finalement, la performance de la mesure proposée sera étudiée à l’aide d’une étude de simulations et d’une application à de vraies données.

En présentiel et disponible par zoom.

Jeudi 7 avril : Ismaïla Baldé (UQAM)

Title : Reader Reaction to «  Outcome-adaptive lasso: Variable selection for causal inference  » by Shortreed and Ertefaie (2017)

Abstract : Shortreed and Ertefaie (2017, Biometrics 73(4), 1111-1122) introduced a clever propensity score variable selection approach for estimating average causal effects, namely the outcome adaptive lasso (OAL). OAL aims to select desirable covariates, confounders and predictors of outcome, to build an unbiased and statistically efficient propensity score estimator. Due to its design, a potential limitation of OAL is how it handles the collinearity problem, which is often encountered in high-dimensional data. As seen in Shortreed and Ertefaie (2017), OAL’s performance degraded with increased correlation between covariates. In this note, we propose the generalized outcome adaptive lasso (GOAL) that combines the strengths of the adaptively weighted L1 penalty and the elastic net to better handle the selection of correlated covariates. Two different versions of GOAL, which differ in their procedure (algorithm), are proposed. We compared OAL and GOAL in simulation scenarios that mimic those examined by Shortreed and Ertefaie (2017). While all approaches performed equivalently with independent covariates, we found that both GOAL versions were more performant than OAL in low and high dimensions with correlated covariates.

En présentiel et disponible par zoom.