2023-2024
Les séminaires de STATQAM ont lieu à 15h30 (Heure de l’Est), certains seront en présentiel au PK-5115 et d’autres en ligne via Zoom.
Merci de contacter Marie-Hélène Descary (descary.marie-helene@uqam.ca) si vous voulez être ajouté à la liste de diffusion des séminaires.
Session Automne 2023
Jeudi 21 septembre : Mariia Samoilenko (UQAM)
Titre : Approches de médiation basées sur la régression avec réponse binaire : contourner l’hypothèse de la réponse rare ou commune
Résumé : Dans le cadre de la médiation causale simple, un certain nombre d’approches d’estimation basées sur la régression logistique ont été proposées pour estimer les effets naturels (EN) pour une réponse binaire sur l’échelle du rapport de cotes. Ces approches ont invoqué lesdites hypothèses de la réponse rare (VanderWeele et Vansteelandt (2010); Valeri et VanderWeele (2013)) ou commune (Gaynor et al. (2019)) afin d’obtenir des expressions approximatives simples et fermées pour les EN. Toutefois, l’évaluation de l’hypothèse de la réponse rare est problématique compte tenu de la difficulté à proposer des lignes directrices explicites permettant de faire cette vérification en pratique. Quant à l’approche de Gaynor et al. (2019), une performance adéquate des estimateurs proposés n’a été démontrée que pour un intervalle de prévalences de la réponse assez limité.
En lien avec ces travaux, nous introduirons des estimateurs exacts des EN basés sur la régression logistique pour la réponse, mais dérivés sans invoquer aucune hypothèse théorique simplificatrice, ce qui permet de surmonter les difficultés inhérentes à l’application des approches approximatives susmentionnées. Nos estimateurs sont développés pour des expositions et des médiateurs binaires ou continus, et ils accommodent trois échelles binaires standards (le rapport de cotes, le rapport de risques et la différence de risques). Nous illustrerons la performance de nos estimateurs dans des scénarios de simulation où la réponse est rare ou commune.
Jeudi 28 septembre : Roland Dossa (UQAM)
Titre : Tests d’association basés sur les copules pour un phénotype binaire et un ensemble de variants génétiques en présence de données familiales
Résumé : De nos jours, plusieurs études d’association à l’échelle du génome (Genome-Wide Association Study, GWAS) sont proposées dans le domaine de la statistique génétique. Face au flux de données génomiques générées par les nouvelles techniques de séquençage, les tests statistiques d’association analysant un variant génétique à la fois se sont avérés non-puissants. Afin d’augmenter la puissance statistique des tests d’association génétiques, des tests qui regroupent les informations provenant de plusieurs variants dans une région génomique donnée ont été développés. Ces tests calculent une statistique de test qui résume l’association globale entre les variants génétiques et le phénotype d’intérêt (ex: le statut de la maladie). Bien que les tests basés sur la région soient plus puissants, la majorité des modèles ne sont pas adéquats en présence de données familiales et phénotype binaire.Dans ce travail, nous présentons deux principales contributions dans ce contexte. Tout d’abord, nous proposons un test d’association flexible, basé sur la région, qui modélise la distribution conjointe du trait binaire au sein de chaque famille sur la base d’un modèle logistique marginal en intégrant des copules pour modéliser la dépendance entre les membres de la même famille. Dans la deuxième contribution, nous procédons à la modélisation de la distribution conjointe du trait binaire au niveau de chaque famille sur la base d’un modèle fonctionnel marginal en utilisant toujours des copules pour capturer la dépendance intrafamiliale. Nous illustrons la performance de la méthodologie proposée à l’aide de simulations et d’une étude d’association de la schizophrénie et le trouble bipolaire dans une cohorte familiale composée de 17 familles élargies de l’est du Québec.
Jeudi 5 octobre : Widemberg da Silva Nobre (Universidade Federal do Parana) par ZOOM : https://uqam.zoom.us/j/82455316664
Title : Modelling Death Probability among Hospitalisations due to Respiratory Diseases: A Causal Mediation Approach
Abstract : We present a causal mediation analysis framework designed to address time-varying observations in the presence of exogenous exposure. Our proposed approach involves modeling the mediator and outcome variables separately, while accounting for the temporal nature of the data. The proposed method is applied to model hospitalisation data for inpatient admissions with a primary diagnosis of respiratory disease recorded between January 2015 and October 2020. This time frame encompasses the onset of the first wave of the COVID-19 pandemic in Brazil, which we consider as the exogenous exposure of interest. We model the weekly number of deaths, with the average age of weekly inpatient admissions serving as the mediator variable. Our findings indicate higher estimates of natural indirect effects on the inpatient probability of death within the pandemic context. This is a joint work with Helio Migon and Alex Schmidt.
Keywords: Bayesian methods, Dynamic Generalized Linear Models, Inpatient admissions, Patient safety.
Jeudi 12 octobre : Philipp Ratz (UQAM)
Titre : Cherry-Picking by Design: Algorithmic Pricing in Risk Markets
Résumé : Like many other sectors, the risk industry is undergoing a rapid transformation due to increased usage of Artificial Intelligence. Given its crucial role in the functioning of an economy, regulators are increasingly concerned about the effects that the introduction of algorithmic pricing has on market outcomes. However, there is no consensus whether this will lead to beneficial or detrimental outcomes for the consumers. Empirical investigations have so far remained elusive, due to the absence of publicly available data and models. To bridge this gap, we conducted a large-scale online field experiment, where we collected a wide range of pricing models made by industry experts. We find that under standard market settings, algorithmic pricing leads firms to cherry-pick their customers, and only serve the least-risky part of the population. This in turn exerts a significant pressure on other market participants to adapt their models as well. A widespread adaption of such models then leads to higher prices for most of the population, in contradiction to what many standard arguments would predict. Whereas much of the recent discussion on algorithmic pricing has focused on issues related to data hoarding and privacy, our findings suggest that there needs to be a more fundamental discussion about the usage of ever more granular models.
Jeudi 19 octobre : Pankaj Bhagwat (University of Alberta) par ZOOM : https://uqam.zoom.us/j/84408907866
Titre : Predictive density estimators with integrated L1 loss
Résumé : https://statqam.uqam.ca/wp-content/uploads/sites/31/2023/10/Abstract_Pankaj-Bhagwat.pdf
Jeudi 2 novembre : Vladimir Reinharz (UQAM)
Titre : Modules structuraux d’ARN de taille arbitraire et exploration de leurs voisinages
Résumé : L’acide ribonucléique (ARN) est une biomolécule essentielle présente dans chaque organisme vivant qui adopte des structures tridimensionnelles complexes pour assurer ses fonctions. Même si l’éventail des configurations possibles de l’ARN est immense, des modules structuraux similaires ont été identifiés dans divers spécimens. Ces modules sont cruciaux pour appréhender les fonctions biologiques de l’ARN et peuvent être efficacement modélisés à l’aide de graphes. Ces derniers, annotés par les interactions entre nucléotides selon les 12 géométries de type Leontis-Westhof, fournissent une perspective inédite sur la structure de l’ARN.
Je discuterai d’abord de la pertinence des graphes dans la modélisation des structures d’ARN et des enjeux liés à l’analyse d’une grande quantité de données pour extraire automatiquement les modules pertinents. Ensuite, je présenterai une méthode d’échantillonnage s’appuyant sur des principes de physique statistique pour identifier l’ensemble des variants d’un module structurel au sein d’un ARN. Cette méthode considère les variations géométriques ainsi que les interactions absentes, offrant de ce fait une vision exhaustive des modules structurels.
Jeudi 9 novembre : Emily Berg (Iowa State University) par ZOOM : https://uqam.zoom.us/j/82022800557
Titre : Small Area Prediction for Exponential Dispersion Families under Informative Sampling
Résumé : Small area estimates are usually constructed from complex survey data. If the design is informative for the model, then procedures that ignore the design can suffer from important biases. Past work on small area estimation under informative sampling has focused heavily on linear models or on prediction of means. We propose to generalize existing small area procedures for an informative sample design. We develop procedures in the context of a broad class of exponential dispersion families with random small area effects. We consider two models for the survey weights. We construct predictions of means as well as more general parameters that are nonlinear functions of the model response variable. We evaluate the procedures through simulation using a logistic mixed model. We then apply the methods to construct small area estimates of several functions of a wetlands indicator using data from a large-scale survey called the National Resources Inventory.
Jeudi 16 novembre : Renaud Alie (Université McGill)
Titre : Bayesian Density Estimation Using a Nearest-Neighbor Gaussian Process Approximation
Résumé : Gaussian processes are ubiquitous in spatial statistics and many other fields. Their properties are well studied and understood. However, they can be challenging to work with from a computational standpoint because likelihood evaluations require a quantity of operations that scales with the number of observations cubed. Many approximating methods have been proposed to curb the computational cost and allow for the analysis of larger datasets. One such approach is the nearest-neighbor Gaussian process model which approximates the likelihood by a product of easier to compute conditional factors.
In this talk, we discuss the Gaussian process density sampler: a prior based on the method of rejection sampling. Via data augmentation, this model is used to conduct Bayesian non-parametric estimation of densities. We propose a new MCMC algorithm that relies on the theory of point processes. In its basic form, the nearest-neighbor approximation is not suited for this procedure. We introduce an alternative formulation that preserves the linear computational scaling of the original. Finally, we evaluate the performance of our new method both quantitatively and qualitatively.
Jeudi 23 novembre : Gracia Dong (University of Toronto and University of Victoria) par ZOOM : https://uqam.zoom.us/j/85453387054
Titre : Using Capture-Recapture methods with data extracts from healthcare records to estimate population sizes of vulnerable populations: an application to Vancouver Island
Résumé : Most attempts to enumerate the homeless population rely on point-in-time or shelter counts, which can be costly and inaccurate. As an alternative, we use electronic health data from the Vancouver Island Health Authority, British Columbia, Canada from 2013 to 2022 to identify adults contending with homelessness based on their self-reported housing status. We estimate the annual population size of this population using a flexible open-population capture-recapture model that considers 1) the age and gender structure of the population, including aging across detection occasions, 2) annual recruitment into the population, 3) behavioural-response, and 4) apparent survival in the population, including emigration and incorporating known deaths. We then compare our estimates of annual population size with reported point-in-time counts of homeless populations on Vancouver Island over the same period and find that using data extracts from electronic health records gives comparable estimates when data quality is good. We then discuss data requirements, data quality issues with administrative health data, and potential ways to remedy estimates when data is insufficient, while keeping into consideration constraints imposed by computational data privacy restrictions.
Session Hiver 2024
Jeudi 25 janvier : Marie Michaelides (UQAM)
Titre : A non-parametric estimator for Archimedean copulas under flexible censoring scenarios and an application to claims reserving
Résumé : With insurers benefiting from ever-larger amounts of data of increasing complexity, we explore a data-driven method to model dependence within multilevel claims in this paper. More specifically, we start from a non-parametric estimator for Archimedean copula generators introduced by Genest and Rivest (1993), and we extend it to diverse flexible censoring scenarios using techniques derived from survival analysis. We implement a graphical selection procedure for copulas that we validate using goodness-of-fit methods applied to complete, single-censored, and double-censored bivariate data. We illustrate the performance of our model with multiple simulation studies. We then apply our methodology to a recent Canadian automobile insurance dataset where we seek to model the dependence between the activation delays of correlated coverages. We show that our model performs quite well in selecting the best-fitted copula for the data at hand, especially when the dataset is large, and that the results can then be used as part of a larger claims reserving methodology.
Jeudi 1 février : Sidi Wu (Simon Fraser University) par ZOOM
Titre : Functional Autoencoder for Smoothing and Representation Learning
Résumé : A common pipeline in functional data analysis is to first convert the discretely observed data to smooth functions, and then represent the functions by a finite-dimensional vector of coefficients summarizing the information. Existing methods for data smoothing and dimensional reduction mainly focus on learning the linear mappings from the data space to the representation space, however, learning only linear representations may not be sufficient. In this study, we propose to learn the nonlinear representations of functional data using neural network autoencoders designed to process data in the form it is usually collected without the need of preprocessing. We design the encoder to employ a feature layer that computes the weighted inner product of the functional data and functional weights across the observed timestamp, and the decoder to apply a coefficient layer that maps the finite-dimensional vector extracted from the functional data back to functional space using a set of predetermined basis functions. Our approach is dedicated to simultaneously conducting unsupervised representation learning and direct curve smoothing for discrete functional observations. The developed architecture can accommodate both regularly and irregularly spaced data. Our experiments demonstrate that the proposed method outperforms functional principal component analysis in prediction and classification, and it maintains superior smoothing ability and better computational efficiency compared to the conventional autoencoders in both linear and nonlinear settings.
Jeudi 8 février : Russell Steele (Université McGill)
Titre : The Philosophy of Intervening in Dynamic Causal Systems
Résumé : Most modern causal statistical methodological challenges result from analyzing data coming from dynamic causal systems. Standard approaches for time-varying confounding, non-compliance, mediation, moderation, dynamic regimes, and many others extend point exposure models and counterfactuals to the repeated observation setting. However, these models become quite strained under certain types of data generating mechanisms. In this mostly foundational seminar, I will discuss some recent work where my colleagues and I have tried to use different ways to identify interventions that lead to not only more precise definitions of effects, but also would aid in designing data collection and, potentially, different strategies for estimation. Our work leverages research from statistics and philosophy to identity potential issues with standard assumptions and to propose new ways of defining causal effects for models which are challenging to examine using standard approaches.
This work has been done in conjunction with Dr. Naftali Weinbeger (Munich Center for Mathematical Philosophy) and Dr Ian Shrier (McGill and the Lady Davis Institute).
Jeudi 15 février : Anthony Coache (Université de Toronto)
Titre : Une introduction à l’apprentissage par renforcement sensible au risque avec des mesures de risque dynamiques
Résumé : La plupart des approches d’apprentissage par renforcement, ou « reinforcement learning » (RL), cherchent à optimiser des récompenses actualisées pour un agent neutre face au risque. Bien qu’il existe des travaux sur l’apprentissage par renforcement sensible au risque, ils fournissent généralement des stratégies de pré-engagement optimales, sont adaptés à une mesure de risque spécifique, ou ne sont applicables qu’à de petits espaces état-action ou à d’autres contextes simplifiés. Dans cette présentation, nous explorons des mesures de risque dynamiques pour évaluer le risque d’une séquence de coûts, et proposons des algorithmes RL profonds où l’agent optimise une mesure de risque dynamique. Nous présentons ces approches RL sensibles au risque pour optimiser les stratégies et illustrons leur efficacité dans diverses applications. Travaux conjoints avec Sebastian Jaimungal et Álvaro Cartea.
Jeudi 7 mars : Ewen Gallic (Aix-Marseille Université)
Titre : From Uncertainty to Precision: Enhancing Binary Classifier Performance through Calibration
Résumé : The assessment of binary classifier performance traditionally centers on discriminative ability using metrics, such as accuracy. However, these metrics often disregard the model’s inherent uncertainty, especially when dealing with sensitive decision-making domains, such as finance or healthcare. Given that model-predicted scores are commonly seen as event probabilities, calibration is crucial for accurate interpretation. In our study, we analyze the sensitivity of various calibration measures to score distortions and introduce a refined metric, the Local Calibration Score. Comparing recalibration methods, we advocate for local regressions, emphasizing their dual role as effective recalibration tools and facilitators of smoother visualizations. We apply these findings in a real-world scenario using Random Forest classifier and regressor to predict credit default while simultaneously measuring calibration during performance optimization.
Co-auteurs : Agathe Fernandes Machado (UQÀM), Arthur Charpentier (UQÀM), Emmanuel Flachaire (AMSE), Ewen Gallic (AMSE), François Hu (UdeM)
Jeudi 14 mars : Yanbo Tang (Imperial College London)
Titre : Vraisemblances composites pondérées aléatoirement
Résumé : La définition de la vraisemblance composite est étendue pour inclure les poids aléatoires dépendants sur les données et nous étudions les propriétés asymptotiques sous cette nouvelle définition; cette nouvelle classe est nommée vraisemblances composites pondérées aléatoirement. Nous proposons des conditions de régularité suffisantes pour la convergence et la normalité asymptotique des estimateurs basés sur la vraisemblance composite pondérée aléatoirement. Par la suite, nous développons un théorème de type Bernstein von-Mises sur la densité a posteriori obtenue à partir de cette nouvelle vraisemblance composite. Les résultats obtenus nous permettent d’analyser plusieurs objets existants dans la littérature tels que la vraisemblance tempérée, la vraisemblance pondérée pour les changements de covariables, et celle basée sur les « core sets ». Nos exemples se concentrent sur la vraisemblance composite marginale et la vraisemblance composite par paire, mais les théorèmes généraux sont applicables à toutes les vraisemblances composites.
Jeudi 21 mars : Simone Brugiapaglia (Université Concordia)
Titre : Practical existence theorems for deep learning approximation in high dimensions
Résumé : Deep learning is having a profound impact on industry and scientific research. Yet, while this paradigm continues to show impressive performance in a wide variety of applications, its mathematical foundations are far from being well understood. Motivated by deep learning methods for scientific computing, I will present new practical existence theorems that aim at bridging the gap between theory and practice in this area. Combining universal approximation results for deep neural networks with sparse high-dimensional polynomial approximation theory, these theorems identify sufficient conditions on the network architecture, the training strategy, and the size of the training set able to guarantee a target accuracy. I will illustrate practical existence theorems in the contexts of high-dimensional function approximation via feedforward networks, reduced order modeling based on convolutional autoencoders, and physics-informed neural networks for high-dimensional PDEs.
Jeudi 28 mars : Frédéric Ouimet (UQAM et Université McGill)
Titre : Une revisite des formules de Samuel S. Wilks pour les moments joints de mineurs principaux des matrices aléatoires de Wishart
Résumé : Dans cette présentation, nous rappellerons quelques définitions et résultats préliminaires sur l’analyse matricielle dans un contexte statistique. Nous procéderons ensuite à une revisite de certaines formules relativement méconnues développées par le statisticien Samuel S. Wilks en 1934, concernant les moments joints de mineurs principaux, imbriqués et disjoints, des matrices aléatoires de loi Wishart. Nous présenterons en avant-première (ce résultat n’étant pas encore pré-publié sur arXiv) une nouvelle formule explicite pour l’espérance d’un produit de deux puissances de mineurs disjoints dans ce contexte, apportant ainsi une solution partielle à un problème plus général posé par Wilks, resté ouvert depuis 1934. Un des outils cruciaux sera l’utilisation des fonctions hypergéométriques à argument matriciel et leur transformée de Laplace. Nous en profiterons également pour souligner l’importance de ce résultat en le connectant à la conjecture de l’inégalité du produit gaussien, un sujet qui attire l’attention récemment et qui reste un champ fertile pour la recherche.
Jeudi 4 avril : Ashley Buchanan (University of Rhode Island)
Titre : Power and sample size for spillover effects in networks with non-randomized interventions
Résumé : Network studies are crucial for understanding social and epidemiological phenomena, particularly for infectious diseases. The spillover (indirect) effect exists if an individual’s treatment can affect another’s outcome. The spillover effects in these networks can be assessed and leveraged to improve the delivery of public health interventions. We motivate our work using the Transmission Reduction Intervention Project (TRIP), a sociometric study of people who inject drugs (PWID) and their contacts with a network-based intervention conducted in Athens, Greece, from 2013 to 2015. PWID are part of social, sexual, or drug use (i.e., HIV risk) networks, and the treatment of one individual can affect the outcomes of other network members. Recent work introduces methods for assessing spillover in network studies, but their statistical power implications remain unclear. In this work, we conducted a simulation study to investigate the impact of different design parameters on the statistical power to detect spillover effects. The parameters include number of components, number of nodes, node degree, transitivity (i.e., global clustering coefficient), and effect size (i.e., true spillover effect). The results suggested that (1) power increased with more nodes or larger effect size, as well as with more components; (2) power decreased with a higher node degree or transitivity; and (3) power decreased significantly in a network with a dominant giant component (i.e., a group of nodes that contains a substantial portion of the network) compared to a more evenly distributed network. These findings will provide researchers with resources to design adequately powered sociometric network studies for assessing spillover.
Vendredi 19 avril : Jiguo Cao (Simon Fraser University)
Titre : Functional Neural Networks
Résumé : Functional data analysis (FDA) is a growing statistical field for analyzing curves, images, or any multidimensional functions, in which each random function is treated as a sample element. Functional data is found commonly in many applications such as longitudinal studies and brain imaging. In this talk, I will present a methodology for integrating functional data into deep neural networks. The model is defined for scalar responses with multiple functional and scalar covariates. A by-product of the method is a set of dynamic functional weights that can be visualized during the optimization process. This visualization leads to greater interpretability of the relationship between the covariates and the response relative to conventional neural networks. The model is shown to perform well in a number of contexts including prediction of new data and recovery of the true underlying relationship between the functional covariate and scalar response; these results were confirmed through real data applications and simulation studies.