2024-2025

Les séminaires de STATQAM ont lieu à 15h30 (Heure de l’Est), certains seront en présentiel au PK-5115 et d’autres en ligne via Zoom.

Merci de contacter Michaël Lalancette (lalancette.michael@uqam.ca) si vous voulez être ajouté à la liste de diffusion des séminaires.

Session Automne 2024

12 septembre : Ryan Campbell (Lancaster University)

Titre : New developments for a geometric approach to multivariate extremal inference.

Résumé : Multivariate extreme value inference focuses on modelling several simultaneous processes while taking into account their extremal dependence. That is, considering the behaviour of all combinations of processes as their values grow large. Until recently, different types of extremal dependence required different modelling procedures, resulting in a lack of a unifying approach to tackle multivariate extremes. A recent development in multivariate extremes remedies this by using the geometry of the dataset to perform inference on the multivariate tail. A key quantity in this inference is the gauge function, whose values define this geometry. Inference for the geometric approach relies on a pseudo radial-angular decomposition of random vectors in light-tailed margins: modelling radii conditioned upon angles, the gauge function appears as a rate parameter in a truncated gamma model. In this talk, I’ll present two methods to estimate the gauge function given data. The first relies on parametric assumptions on the form of the gauge function. The second is semi-parametric, interpolating the domain of the gauge function in a piecewise-linear fashion. This results in a simple construction that is flexible on data with extremal dependence behaviour that is difficult to parameterise, and works better in high-dimensions. The piecewise-linear gauge function can be used to define both a radial and an angular model, allowing for the joint fitting of extremal pseudo-polar coordinates. This new methodology is applied to environmental datasets, a setting where classical multivariate extremes methods often struggle due to the potential combination of dependence and independence in the joint tails.

This is joint work with my PhD supervisor, Jennifer Wadsworth.

19 septembre : Mufan Li (Princeton University)

Titre : The Proportional Scaling Limit of Neural Networks

Résumé : Recent advances in deep learning performance have all relied on scaling up the number of parameters within neural networks, consequently making asymptotic scaling limits a compelling approach to theoretical analysis. However, current research predominantly focuses on infinite-width limits, unable to adequately analyze the role of depth in deep networks. In this talk, we explore a unique approach by studying the proportional infinite-depth-and-width limit.

Firstly, we show that large depth networks necessarily require a shaping of the non-linearities to achieve a well-behaved limit. We then characterize the limiting distribution of the shaped network at initialization via a stochastic differential equation (SDE) for the feature covariance matrix. Furthermore, in the linear network setting, we can characterize the spectrum of the covariance matrix in the large data limit via a geometric variant of Dyson Brownian motions.

26 septembre :

Titre :

Résumé :

3 octobre : Marouane Il Idrissi (Université du Québec à Montréal)

Titre : Interprétabilité des modèles boîtes-noires avec variables dépendantes

Résumé : Comment peut-on interpréter un modèle boîte-noire, sans en connaître la forme ? Cette question est au centre de nombreux problèmes liés, en particulier, à l’utilisation des algorithmes d’apprentissage automatique dans les domaines sensibles. Dans cette présentation, nous nous intéresserons aux indices de Sobol’, qui ont pour but de quantifier l’importance des variables aléatoires d’un modèle. Cependant, ces indices, issus de la décomposition fonctionnelle d’Hoeffding, perdent leur sens dès lors que les variables ne sont pas mutuellement indépendantes. Les valeurs de Shapley, et en particulier la théorie des jeux coopératifs promettent d’offrir une solution à ce manquement. Cependant, nous verrons, par le biais d’exemples concrets issus du monde industriel, que ces solutions peuvent être trompeuses. Enfin, nous ouvrirons sur de récent développements, permettant de généraliser la décomposition d’Hoeffding, et qui ouvrent sur de nouvelles manières d’appréhender l’interprétation des modèles boîtes-noires.

10 octobre : Arthur Chatton (Université Laval)

Titre : Vérification de la présupposition causale de positivité

Résumé : L’inférence causale est un processus en deux étapes. D’abord vient l’identification qui permet de faire correspondre une association estimable avec les données à un effet causal conceptuel. Ensuite vient l’estimation. La présupposition causale de positivité — tout individu doit pouvoir recevoir les différentes modalités de traitement étudiées — est nécessaire pour ces deux étapes. Malheureusement, elle est souvent mise de côté dans les études observationnelles, vraisemblablement à cause de difficulté à la vérifier. Une violation de la positivité survient lorsque certains individus de l’échantillon présentent une probabilité trop extrême d’avoir une modalité de traitement.  Nous avons développé un algorithme basé sur une succession d’arbres de régression de complexité croissante qui modélisent l’allocation du traitement selon les caractéristiques de l’échantillon afin d’identifié ces individus. Nous avons réanalysé quatre études publiées par notre équipe où des violations de positivité étaient suspectées pour en confirmer deux et infirmer une. L’algorithme a été récemment étendu au contexte longitudinal, où l’allocation du traitement varie avec le temps. Une étude sur l’initiation des traitement antirétroviraux chez les enfants positifs aux VIH a été réanalysée à son tour. Cet algorithme est un moyen facile et rapide de vérifier la positivité des études causales et peut s’adapter à des contextes plus complexes.

17 octobre : Sophie Dabo-Niang (Université de Lille)

Titre : Functional Data Analysis in Complex Dependencies: A PCA Approach for Learning Models

Résumé : Functional data, representing observations from complex processes, present significant challenges in modeling non-stationary time or spatially dependent phenomena such as curves, shapes, images, and other intricate structures. This talk focuses on Principal Component Analysis (PCA) tailored for complex functional datasets, including case-control studies, time series, and spatial data. We will explore the interplay between the functional characteristics and the inherent dependencies in the data, revealing underlying structures and patterns in stratified, spatial, or space-time datasets.

We will provide an overview of complex functional data, emphasizing their prevalence across diverse domains like environmental monitoring, geostatistics, and biomedical research. A key focus will be on the theoretical foundations of Functional Principal Component Analysis, highlighting its flexibility in analyzing dependent data.

We will present practical applications of functional PCA, particularly in identifying temporal or spatial dependencies, capturing variability, and reducing dimensionality. Real-world case studies will demonstrate the effectiveness of these techniques in various contexts.

Finally, we will address challenges associated with applying PCA to learning from complex functional data, such as managing infinite sample properties, data dependency, large datasets, computational demands.

24 octobre : Alex Stringer (University of Waterloo)

Titre : Two New Methods for Nonlinear Regression in Epidemiology and Environmental Toxicology

Résumé : I discuss two new methods involving additive models that are relevant to environmental epidemiology and toxicology. The first is a new cumulative exposure additive model for overdispersed count data in which the covariate being smoothed is the integrated weighted exposure to a pollutant. The weight function and the regression function are both unknown and modelled using penalized splines. The method is used to analyze several years of daily health outcome counts and their association with cumulative exposure to three air pollutants in various regions across Canada, as part of an active collaboration with Health Canada in support of the Air Health Trend Indicator project. The second is a new approach to the determination of allowable doses in environmental toxicology. The dose-response curve is fit using monotone splines and the benchmark dose and lower limit are obtained using fast implementations of Newton’s method that make use of de Boor’s algorithm for spline curve evaluation. The method is applied to the study of prenatal alcohol exposure and child cognition using data from six NIH-funded longitudinal cohort studies. The common theme of efficient computation with splines unites these two seemingly unrelated methodologies. If time permits, I will also discuss ongoing efforts to develop general hypothesis tests for linearity in multiple-component additive models and of zero variance components in random effects models more generally. Based on joint work with Tianyi Pan, Glen McGee, Tugba Akkaya Hocagil, Richard Cook, Louise Ryan, Sandra and Joseph Jacobson, and Jeffrey Negrea.

31 octobre :

Titre :

Résumé :

7 novembre : Andrew McCormack (Technical University of Munich)

Titre : The Unbiasedness Threshold

Résumé : Applications of linear algebra in statistics abound, such as those in linear regression and principal components analysis. Moving beyond linearity, the field of algebraic statistics leverages tools from computational algebra and algebraic geometry to solve statistical problems that involve polynomial functions. In this work I examine statistical hypothesis testing for discrete data from an algebraic perspective, with a focus on questions of the existence of unbiased tests. The sample size needed for the existence of a strictly unbiased test, termed the unbiasedness threshold, is shown to be the minimum degree of a polynomial that separates the null and alternative hypothesis sets. In particular, this result implies that null hypothesis sets must be semialgebraic for there to exist a strictly unbiased test. Explicit sample size requirements for various hypotheses in a multinomial model, such as hypotheses of independence in contingency tables, are given. It is demonstrated that upper bounds for the unbiasedness threshold can be found by computing Gröbner bases, and that such upper bounds are tight when all polynomial power functions can be written as sums of squares.

14 novembre :

Titre :

Résumé :

21 novembre : Lawrence McCandless (Simon Fraser University)

Titre : A comparison of Bayesian and conventional quantile regression for modelling the effect of chronic medical conditions on depression symptoms in Canadian adolescents

Résumé : Bayesian quantile regression is an emerging alternative to conventional quantile regression with important computational advantages.  However, it has been rarely used in epidemiology research because of the difficulties of doing Bayesian posterior simulation and, additionally, because the method involves an unusual form of model misspecification.  In this paper, I investigate Bayesian quantile regression using the Stan programming environment and compare the results with conventional quantile regression.  I apply the method in a data example that estimates the effect of chronic medical conditions on depression symptoms in Canadian adolescents.  This data is well-suited to demonstrating the properties of quantile regression because it has an unusual outcome variable that is interval scale continuous but taking values on the integers from 0, 1, 2, …, 27.  This work makes new methodological contributions to our understanding of Bayesian quantile regression.  First, I develop a novel Bayesian method for assessing the presence of heteroscedastic errors in the outcome variable.  Second, I show the surprising result that Bayesian quantile regression may give dramatically different results compared to the conventional quantile regression estimator, even in large samples. This occurs because the point estimator from conventional quantile regression is calculated using the simplex algorithm of Barrodale and Roberts, which is heavily affected by discreteness of the outcome variable.  In contrast, Bayesian quantile regression explores a continuous range of values for the unknown model parameters.  I illustrate the advantages of inference using the full posterior distribution for inference rather than the conventional quantile regression point estimator by using a logarithmic scoring rule for probabilistic prediction.  I demonstrate that inference based on the full posterior distribution for unknown parameters will often yield a better overall fit for the data compared to conventional quantile regression.  

28 novembre : Julien Trufin (Université Libre de Bruxelles)

Titre : Predictive Modeling and Balance Property through Autocalibration

Résumé : Machine learning techniques provide actuaries with predictors exhibiting high correlation with claim frequencies and severities. However, these predictors generally fail to achieve financial equilibrium and thus do not qualify as pure premiums. Autocalibration effectively addresses this issue since it ensures that every group of policyholders paying the same premium is on average self-financing. This talk proposes to look at recent results concerning autocalibration. In particular, we present a new characterization of autocalibration which enables to identify whether a predictor is autocalibrated or not, we study a method (called balance correction) for obtaining an autocalibrated predictor from any regression model, we highlight the effect of balance correction on resulting pure premiums, and finally we go trough some performances criteria that are particularly relevant for autocalibrated predictors.

5 décembre : Luke Anderson-Trocmé (University of Chicago)

Titre : Des génomes aux géographies : études spatiales en génétique des populations

Résumé : Cette présentation explore comment le contexte spatial façonne la distribution de la variation génétique à travers divers systèmes biologiques. En prenant l’exemple de la population canadienne-française, nous verrons comment les rivières et montagnes ont influencé les voies migratoires et la dispersion génétique actuelle. Ces approches s’étendent également à des espèces non humaines, comme les jaguars d’Amérique du Sud, où des analyses spatiales éclairent les stratégies de conservation face à la fragmentation de l’habitat. En combinant génomique et modélisation spatiale, cette recherche ouvre de nouvelles perspectives sur les forces évolutives à l’origine de la diversité génétique.

Session Hiver 2025

23 janvier :

Titre :

Résumé :

30 janvier : Samuel Valiquette (Université McGill)

Titre :

Résumé :

6 février : Mélina Mailhot (Université Concordia)

Titre : Allocation de risque basé sur la dépendance codale

Résumé : Dans cette présentation, il sera question de l’usage de la dépendance codale, dans le but d’attribuer le risque de chacune des composantes d’un portefeuille composé de risques dépendants, assurables et financiers. Dans un premier lieu, nous nous intéresseront à l’identification automatisée de valeurs extrêmes, avec une application aux réserves actuarielles. Ensuite, nous verrons comment la dépendance codale peut être utilisée afin de réduire la dimension lors de modélisation multivariée, appliquée l’assurance agricole. Nous terminerons avec l’utilisation des coefficients de dépendance codaux afin d’allouer du capital de risque d’un portefeuille de cryptomonnaie.

13 février : Josée Dupuis (Université McGill)

Titre :

Résumé :

20 février :

Titre :

Résumé :

27 février :

Titre :

Résumé :

13 mars :

Titre :

Résumé :

20 mars : Stanislav Volgushev (University of Toronto)

Titre :

Résumé :

27 mars :

Titre :

Résumé :

3 avril :

Titre :

Résumé :

10 avril :

Titre :

Résumé :

17 avril :

Titre :

Résumé :

25 avril : Nancy Reid (University of Toronto)

Titre :

Résumé :