2020-2021

À moins d’indication contraire, tous les séminaires de STATQAM ont lieu à 15h30 (Heure de l’Est) dans une salle Zoom.

Session Automne 2020

Title : Bounding local average treatment effects in studies of engagement with mobile interventions 

Abstract : Estimation of local average treatment effects in randomized trials typically requires an assumption known as the exclusion restriction in cases where we are unwilling to rule out unmeasured confounding. Under this assumption, any benefit from treatment would be mediated through the post-randomization variable being conditioned upon, and would be directly attributable to neither the randomization itself nor its latent descendants. Recently, there has been interest in mobile health interventions to provide healthcare support; such studies can feature one-way content and/or two-way content, the latter of which allowing subjects to engage with the intervention in a way that can be objectively measured on a subject-specific level (e.g., proportion of text messages receiving a response). It is hence highly likely that a benefit achieved by the intervention could be explained in part by receipt of the intervention content and in part by engaging with/responding to it. When seeking to characterize average causal effects conditional on post-randomization engagement, the exclusion restriction is therefore all but surely violated. We propose a conceptually intuitive sensitivity analysis procedure for this setting that gives rise to sharp bounds on local average treatment effects. A wide array of simulation studies reveal this approach to have very good finite-sample behavior and to recover local average treatment effects under correct specification of the sensitivity parameter. We apply our methodology to a randomized trial evaluating a text message-delivered intervention for Type 2 diabetes self-care.

Title : Estimating the Effects of Copy Number Variants on Intelligence using Hierarchical Bayesian Models

Abstract : It is challenging to estimate the phenotypic impact of the structural genome changes known as Copy Number Variations (CNVs), since there are many unique CNVs which are non-recurrent, and most are too rare to be studied individually.  We propose the use of hierarchical Bayesian models to estimate individual effects of rare CNVs on measures of intelligence, where the hyperparameters depend on genomic annotation information. Using carefully constructed hierarchical models, we analyzed CNV deletions and duplications in three datasets and identified several genomic regions containing CNVs demonstrating significant deleterious effects on IQ.

Title : Smooth modeling of covariate effects in bisulfite sequencing-derived measures of DNA methylation

Abstract : Identifying disease-associated changes in DNA methylation can help us gain a better understanding of disease etiology. Bisulfite sequencing allows the generation of high-throughput methylation profiles at single-base resolution of DNA. However, optimally modeling and analyzing these sparse and discrete sequencing data is still very challenging due to variable read depth, missing data patterns, long-range correlations, data errors, and confounding from cell type mixtures.  In this talk, I will first present our novel SmOoth ModeliNg of BisUlfite Sequencing method (called SOMNiBUS) to detect differentially methylated regions. Specifically, SOMNiBUS is a hierarchical binomial regression model, which allows covariate effects to vary smoothly along genomic position, and simultaneously addresses regional testing, estimation of multiple covariate effects, adjustment for read depth variability and experimental errors. In the second part of the talk, I will introduce an extension of SOMNiBUS (called dSOMNiBUS), which explicitly allows the variability in regional methylation counts to exceed or fall short of what a parametric model permits. I will show how dSOMNiBUS addresses both multiplicative and additive sources of dispersion in the data and provides accurate assessments of regional statistical significance. Simulations show that the proposed methods provide accurate estimates of covariate effects and capture the major underlying methylation patterns with excellent power. We also apply our methods to analyze a small subsample from the CARTaGENE cohort in Quebec. Both approaches have been implemented in R package SOMNiBUS.

Titre : Identifiabilité dans les méthodes de régression pour l’échantillonnage dirigé par les répondants

Résumé : L’échantillonnage dirigé par les répondants (RDS) est une forme d’échantillonnage par traçage de liens, une technique d’échantillonnage des populations difficiles à rejoindre qui vise à tirer parti des relations sociales des individus pour atteindre les participants potentiels. Les approches analytiques actuelles pour les données RDS se concentrent principalement sur l’estimation des moyennes et des proportions mais ne donnent aucune considération technique à la modélisation multivariée. Les progrès dans ce domaine sont limités par un problème de données manquantes : le réseau RDS observé révèle des informations partielles sur les liens sociaux entre les individus de l’échantillon. Dans cette présentation, nous supposons que la population peut être partitionnée en une infinité de grappes (finies et) disjointes, et montrons que les paramètres des modèles de régression ne sont pas en général identifiables car différentes distributions de probabilité pour les données complètes donnent la même distribution de probabilité pour les données observées. L’absence d’identification implique qu’une inférence valide ne peut être effectuée sans des contraintes topologiques strictes sur le réseau RDS. Nous discuterons (brièvement) de la reconstruction du réseau social des répondants, de la collecte de données supplémentaires et de la réduction du modèle en tant qu’étapes pratiques prometteuses vers l’identification.

Titre : Auto-encodeur variationnel: vers des implémentations rigoureuses pour de nouvelles applications.

Résumé : Dans cette présentation nous discutons des auto-encodeurs variationnels, un modèle à variables latentes émergeant de la communauté d’apprentissage automatique. Pour débuter, nous introduisons les fondations théoriques de ce modèle et nous discutons d’une application de ce modèle à un problème classique de statistique: l’analyse de survie. Par la suite, nous abordons notre plus récent projet de recherche: la collecte et l’analyse d’une nouvelle base de donnés d’images. Celle-ci offre de nouvelles opportunités de recherche, entre autres, nous explorons des applications des auto-encodeurs variationnels telles que la classification semi-supervisée et la génération de nouvelles images. Dans ce dernier contexte, ce modèle nous permet de contrôler certaines caractéristiques des images générées. Finalement, nous faisons la démonstration que les implémentations populaires de ce modèle ne respectent pas la théorie. Nous discutons des problèmes que cela cause et nous suggérons des pistes de solution.

 

Titre: Avances dans les modèles mixtes pour la prévision et la sélection des variables dans les données de grande dimension

Résumé: Les modèles mixtes (MLM) constituent un puissant outil statistique capable de modéliser les données groupées, longitudinales et spatiales mais ne s’applique pas directement aux données haute dimension, c.-à-d. lorsque le nombre de paramètres à estimer dépasse de loin la taille de l’échantillon. En effet, en raison de leur lourde charge en calcul, les MLM se sont surtout limités aux analyses univariées, souvent trop simples pour modéliser les relations complexes que recèlent les données biologiques. Cette approche univariée peut ne pas reconnaître les véritables associations en raison des seuils de signification rigoureux requis pour réduire le nombre de faux positifs et elle ne tient pas compte des corrélations entre variables. Dans ce cadre nous proposons un modèle mixte pénalisé L1 appelé ggmix pour la sélection et l’estimation de variables avec un effet aléatoire. Nous démontrons la performance de notre méthode à travers des simulations et trois jeu de données. Par la suite, on propose une extension vers les fonctions de pénalité non convexes. Nous terminerons la présentation en évoquant les principaux enjeux entourant ces méthodes ainsi que leurs orientations futures.

Titre : Modélisation de la dépendance pré-extrême

Résumé : Les évènements à fort impact tels que les inondations et les vagues de chaleur résultent souvent d’une combinaison rare de plusieurs variables, et une erreur de spécification de la dépendance entre celles-ci peut engendrer une sous-estimation dangereuse du risque, en particulier au niveau extrême. Les outils classiques d’analyse de valeurs extrêmes ont recours à des justifications asymptotiques, où l’utilisateur doit faire le choix entre un biais dû à cette approximation et une variabilité due au peu d’observations conservées. Nous proposons une alternative qui consiste à employer un modèle pré-asymptotique, permettant ainsi la modélisation simultanée de risques joints aux niveaux moyen et extrême. Cette approche repose sur une famille de copules dites Archimax, qui sont connues pour leur flexibilité dans le régime extrême. Pour ajuster ce modèle à des données, nous proposons une méthode semi-paramétrique dont la validité est garantie par un théorème central limite et dont la performance est étudiée pour des échantillons finis via un plan de simulations. Cette approche est mise en pratique sur un jeu de données de précipitations et révèle une dépendance extrême asymétrique entre les stations météorologiques, ce qui reflète le déplacement des orages dans la région étudiée. Nous aborderons pour conclure d’autres projets connexes, comme l’extension des copules Archimax vers un modèle permettant de gérer la dépendance en grappes.

Title : The shapes of an epidemic: using Functional Data Analysis to characterize COVID-19 in Italy

 

Abstract : We investigate patterns of COVID-19 mortality across 20 Italian regions and their association with mobility, positivity, and socio-demographic, infrastructural and environmental covariates. Notwithstanding limitations in accuracy and resolution of the data available from public sources, we pinpoint significant trends exploiting information in curves and shapes with Functional Data Analysis techniques. These depict two starkly different epidemics; an « exponential » one unfolding in Lombardia and the worst hit areas of the north, and a milder, « flat(tened) » one in the rest of the country — including Veneto, where cases appeared concurrently with Lombardia but aggressive testing was implemented early on. We find that mobility and positivity can predict COVID-19 mortality, also when controlling for relevant covariates. Among the latter, primary care appears to mitigate mortality, and contacts in hospitals, schools and work places to aggravate it. The techniques we describe could capture additional and potentially sharper signals if applied to richer data.

Work done in collaboration with T. Boschi, J. Di Iorio, L. Testa and F. Chiaromonte

Titre : Quantification de l’impact des cartons rouges au soccer

Résumé : Durant cette présentation, nous discuterons de l’impact des cartons rouges du point de vue des taux auxquels les buts sont comptés durant les matchs de soccer. Les modèles standards employés pour la prédiction des résultats des matchs seront présentés, ainsi qu’une généralisation simple permettant d’étudier l’impact des cartons rouges. Notre analyse est basée sur 15 saisons complètes de l’English Premier League, incluant les résultats complets de plus de 5 700 matchs. Nous discuterons de la collecte des données utilisées pour l’analyse et de quelques applications intéressantes des modèles présentés. En particulier, nous présenterons quelques conclusions menant à de nouvelles perspectives quant à la quantification de l’avantage pour les équipes de jouer à domicile.

Session Hiver 2021

Title : Parameter Restrictions for the Sake of Identification: Is there Utility in Asserting that Perhaps a Restriction Holds?

Abstract : Statistical modeling can involve a tension between assumptions and statistical identification. The law of the observable data may not uniquely determine
the value of a target parameter without invoking a key assumption, and, while plausible, this assumption may not be obviously true in the scientific context at hand. Moreover, there are many instances of key assumptions which are untestable, hence we cannot rely on the data to resolve the question of whether the target is legitimately identified. Working in the Bayesian paradigm, we consider the grey zone of situations where a key assumption, in the form of a parameter space restriction, is scientifically reasonable but not incontrovertible for the problem being tackled. Specifically, we investigate statistical properties that ensue if we structure a prior distribution to assert that « maybe » or « perhaps » the assumption holds. Technically this simply devolves to using a mixture prior distribution putting just some prior weight on the assumption, or one of several assumptions, holding. However, while the construct is straightforward, there is very little literature discussing situations where Bayesian model averaging is employed across a mix of fully identified and partially identified models.

Title : Spatio-temporal methods for estimating subsurface ocean thermal response to tropical cyclones

Abstract : Tropical cyclones (TCs), driven by heat exchange between the air and sea, pose a substantial risk to many communities around the world. Accurate characterization of the subsurface ocean thermal response to TC passage is crucial for accurate TC intensity forecasts and for understanding the role TCs play in the global climate system, yet that characterization is complicated by the high-noise ocean environment, correlations inherent in spatio-temporal data, relative scarcity of in situ observations and the entanglement of the TC-induced signal with seasonal signals. We present a general methodological framework that addresses these difficulties, integrating existing techniques in seasonal mean field estimation, Gaussian process modeling, and nonparametric regression into a functional ANOVA model. Importantly, we improve upon past work by properly handling seasonality, providing rigorous uncertainty quantification, and treating time as a continuous variable, rather than producing estimates that are binned in time. This functional ANOVA model is estimated using in situ subsurface temperature profiles from the Argo fleet of autonomous floats through a multi-step procedure, which (1) characterizes the upper ocean seasonal shift during the TC season; (2) models the variability in the temperature observations; (3) fits a thin plate spline using the variability estimates to account for heteroskedasticity and correlation between the observations. This spline fit reveals the ocean thermal response to TC passage. Through this framework, we obtain new scientific insights into the interaction between TCs and the ocean on a global scale, including a three-dimensional characterization of the near-surface and subsurface cooling along the TC storm track and the mixing-induced subsurface warming on the track’s right side. Joint work with Addison Hu, Ann Lee, Donata Giglio and Kimberly Wood.

Title : Functional Peaks-over-threshold Analysis and its Applications

Abstract : Estimating the risk of single occurrences of natural hazards has become impor- tant in recent decades, but up until now it has been largely limited to re-using catalogues of historical events, which usually do not exceed 40 to 50 years in length, and to numerical models, which require heavy computation and are often unreliable for extrapolation. Extreme value theory provides statistical methods for estimating the frequency of past extreme events as well as for extrapolating beyond observed severities, but it has mostly been focused on studying univari- ate quantities. Consequently the majority of its applications to natural hazards have neglected their spatio-temporal characteristics.

We present an extension of peaks-over-threshold analysis to functions which allows one to define complex extreme events as special types of exceedances, and then obtain their limit tail distribution, namely the generalized r-Pareto process. We focus on a specific model based on log-Gaussian random functions using classical covariance structures to characterize extremal dependence. Then, we describe a stochastic weather generator for extreme events, capable of quan- tifying the recurrence of past events as well as generating completely new ones. The methodology is applied to several natural hazards such as windstorms and rainfall.

Title : Nonparametric tests for informative selection in complex surveys

Abstract : Informative selection, in which the distribution of response variables given that they are sampled is different from their distribution in the population, is pervasive in complex surveys. Failing to take such informativeness into account can produce severe inferential errors, including biased and inconsistent estimation of population parameters. While several parametric procedures exist to test for informative selection, these methods are limited in scope and their parametric assumptions are difficult to assess. We consider two classes of nonparametric tests of informative selection. The first class is motivated by classic nonparametric two-sample tests. We compare weighted and unweighted empirical distribution functions and obtain tests for informative selection that are analogous to Kolmogorov-Smirnov and Cramer-von Mises. For the second class of tests, we adapt a kernel-based learning method that compares distributions based on their maximum mean discrepancy. The asymptotic distributions of the test statistics are established under the null hypothesis of noninformative selection. Simulation results show that our tests have power competitive with existing parametric tests in a correctly specified parametric setting, and better than those tests under model misspecification. A recreational angling application illustrates the methodology. 

Titre : Analyser les tweets de chefs politiques canadiens grâce à l’Analyse Topologique de Données

Résumé : Le texte est une source de données de plus en plus fréquente en statistique et en apprentissage machine. La récupération d’information est un exemple bien connu, mais les données textuelles peuvent aussi aider à mesurer le pouls des utilisateurs sur les médias sociaux, prédire les mouvements des marchés boursiers, découvrir des menaces pour la sécurité, ou extraire l’information des dossiers médicaux. Or, les données textuelles sont difficiles à analyser avec des outils traditionnels. D’une part, il y a plusieurs façons non-équivalentes de transformer les données de textuelles à numériques, et ces approches produisent des données éparses de haute dimension. D’autre part, il est clair que les données textuelles sont fortement structurées: un texte n’est pas qu’une combinaison aléatoire de lettres et de mots. Cette structure complexe peut être utilisée à notre avantage pour mitiger la malédiction de la dimensionnalité. Je discuterai d’outils d’Analyse Topologique de Données (TDA) qui peuvent nous aider à comprendre et analyser cette structure. Pour illustrer cette approche, j’utiliserai les tweets publiés par les chefs des principaux partis politiques canadiens durant la dernière élection générale fédérale d’octobre 2019.

Title : Genealogies and DNA sharing

Abstract : Related individuals share segments of their genome, derived from the DNA of a common ancestor in a genealogy. Variation in the DNA sequences of individuals reflects their underlying genealogical relationships and can tell us about our ancestry and origins. They can also tell us about individual predisposition to inherited traits, and so are of use in mapping the genomic location of DNA variants that contribute to disease. I will provide an overview pertaining to our work in the area of disease trait mapping and present recent progress in exploring these ideas with data.

Title : Outcome-adaptive lasso for causal mediation analysis: Variable selection for direct and indirect effects

Abstract : Causal inference strives for constructing unbiased estimators of the effect of treatment on the outcome. When seeking to estimate the total effect, propensity score (PS) methods are widely used to control for confounding bias from observational data. Today, it is well established that only the confounders and the predictors of the outcome are necessary to avoid bias and improve accuracy. However, for causal mediation analysis, the appropriate variables to include in the models are not clearly known in the literature. We propose the outcome adaptive lasso for causal mediation analysis (MOAL) that combines the strengths of the methods OAL (Shortreed and Ertefaie, 2017) and Sequential g-estimator (Vansteelandt, 2009) to select appropriate variables. Unlike many existing methods in causal mediation, MOAL can be used in the presence or absence of intermediate confounders. Simulation results show that for the direct effect, MOAL selects the PS model that includes the confounders (treatment-response and mediator-response) and the predictors of the response, while excluding the remaining variables. The indirect effect is deduced by the difference method. We also illustrate variable selection using the MOAL approach using data from the Harvard School of Public Health College Alcohol Study, 1999.

Titre : Analyse pangénomique lorsque le phénotype est une courbe

Résumé :  Les analyses pangénomiques impliquent de tester l’association entre un phénotype et un nombre très élevé de variants génétiques. J’aborderai le problème statistique posé lorsque le phénotype ne correspond pas à une seule mesure par individu, mais plutôt à une courbe composée de plusieurs observations par individu. Je ferai un survol des méthodes disponibles pour l’analyse de ce type de données dans le cadre d’une étude pangénomique qui impose des contraintes computationnelles. Je présenterai une adaptation de la méthode d’analyse de variance en haute dimensionalité (HANOVA) proposée par Fan & Lin. À l’aide de simulation, je discuterai de la robustesse de cette méthode, et illustrerai son utilisation pour l’analyse de profils de lipides obtenus par centrifugation par gradient de densité dans l’étude Diabetes Control and Complications Trial. (Travail en collaboration avec Laurence Boulanger, PhD)

Contenu d’accordéon