2022-2023

Les séminaires de STATQAM ont lieu à 15h30 (Heure de l’Est), certains seront en présentiel au PK-5115 et d’autres en ligne via Zoom.

Session Automne 2022

Jeudi 22 septembre : Debbie J. Dupuis (HEC Montréal)

Titre : Régression à fréquences mixtes pour valeurs extrêmes : estimation de l’effet des complexes convectifs de méso-échelle sur l’intensité des précipitations extrêmes

Résumé : Comprendre et modéliser les déterminants de l’intensité des précipitations horaires extrêmes est très importante pour la gestion du risque de crue éclair. Les données montrent que les complexes convectifs de méso-échelle (MCS) sont le principal moteur de l’intensité extrême des précipitations aux États-Unis. Nous utilisons des statistiques de valeurs extrêmes pour étudier la relation entre l’activité MCS et l’intensité des précipitations horaires extrêmes dans la grande région de Saint-Louis, une zone particulièrement vulnérable aux crues éclair. En utilisant une approche de maximum de blocs avec des blocs mensuels, nous constatons que l’impact de l’activité MCS sur les maximums n’est pas homogène au sein du mois/bloc. Pour capturer de manière appropriée cette relation, nous développons un cadre de régression à fréquences mixtes pour valeurs extrêmes prenant en compte une variable explicative échantillonnée à une fréquence supérieure à celle de l’observation extrême. Ouvrage en collaboration avec L. Trapin (Université de Bologne).

Jeudi 6 octobre : Abraham Escobar-Gutierrez (INRAE)

Titre : Comparaison multiple de courbes de réponse de semences à la température au cours de la germination

Résumé :  Dans le contexte du changement climatique actuel, nous avons constaté que les bouleversements des conditions environnementales (contraintes thermiques et hydriques) pour les prairies sont beaucoup plus rapides que la capacité d’adaptation des espèces végétales les constituant. Nous nous intéressons à l’étude de la diversité génétique des principales espèces prairiales pour accélérer la sélection de populations adaptés au conditions climatiques présentes et futures en zone tempéré. Nous avons mis en évidence que la réponse à la température de germination peut être reliée au lieu d’origine des populations étudiées. De nombreuses questions de recherche sur ce sujet n’ont pas encore de réponse. Une de ces questions de recherche concernant la méthodologie est : Quel test statistique peut-on utiliser pour comparer des courbes de réponse de semences à la température au cours de la germination ? A l’INRAE de Lusignan, nous avons aujourd’hui une base de données contenant des courbes de réponses de plus de 500 accessions. Chaque courbe est établie sur une gamme de température entre 5 et 35°C avec quatre répétitions (24-28 points). Sur certains de ces courbes, nous avons exploré une méthode de comparaison. Nous nous questionnons sur une méthode statistiquement robuste pour des comparaisons nombreuses.

Jeudi 13 octobre : Félix Foutel Rodier (Oxford University) par ZOOM : https://uqam.zoom.us/j/84911163250

Titre : Un modèle stochastique pour étudier l’impact de la vaccination sur
l’endémicité

Résumé :  En épidémiologie, une maladie est dite endémique lorsqu’elle se maintient dans
le temps de manière stable dans une population. Une question de santé publique
importante est de comprendre les facteurs qui influencent l’établissement d’un
tel équilibre endémique. Dans ce travail nous nous intéressons à l’impact
de la vaccination.

Pour cela, nous considérons un modèle d’épidémie stochastique où les individus
sont vaccinés de manière récurrente, et l’immunité conférée par l’infection ou
la vaccination est temporaire. Lorsque la taille de la population tend vers
l’infini, ce modèle converge vers un système déterministe qui généralise un
modèle proposé par Kermack et McKendrick (1932). Nous donnons alors un critère
simple pour l’existence d’un équilibre endémique pour cette limite et, en se
basant sur ce critère, nous étudions l’effet de la distribution de la durée
entre deux doses de vaccin consécutives sur l’endémicité.

Ces travaux ont été réalisés en collaboration avec Arthur Charpentier et
Hélène Guérin.

Jeudi 20 octobre : Chi Tran (Université Gustav Eiffel)

Titre : Exploration of a dense SBM graphon by a random walk

Résumé : ​We are interested in recovering information on a stochastic block model from the subgraph discovered by an exploring random walk. Stochastic block models correspond to populations structured into a finite number of types, where two individuals are connected by an edge independently from the other pairs and with a probability depending on their types. We consider here the dense case where the random network can be approximated by a graphon. The random walk is attracted to hubs and we discuss how to de-bias the graph obtained by the random walk exploration. This problem is motivated from the study of chain-referral surveys where each interviewee provides information on her/his contacts in the social network. This is a joint work with VO Thi Phuong Thuy.

Jeudi 27 octobre : Claire Guerrier (Université Côte d’Azur)

Titre : Détecter l’activité synaptique dans les données de ‘calcium imaging’

Résumé : ​I will present a model for simulating fluorescence dynamics in a neuronal dendritic arbor, based on electrodiffusion equations coupled to the capacitive effect of the membrane. The model is then decoupled to allow for fast simulations at the scale of morphometric experiments. Stereotypical patterns of synaptic activity in the dendritic arbor were observed in simulation results coming from our simplified model. These patterns were also present in in vivo experimental data generated from ultra-fast two-photon microscopy of dendritic arbors expressing fluorescence-based genetically encoded calcium sensors. We then derived an algorithm to detect such patterns. Using this algorithm, we predicted the locations of synapses across the dendritic arbor in our fluorescence-based Ca 2+ dataset.

Jeudi 3 novembre : Samuel Perreault (University of Toronto)

Titre : Structures de dépendance et processus cyclostationnaires

Résumé : La présentation porte sur l’apprentissage de structures de dépendance pour données cyclostationnaires. Après avoir brièvement introduit le jeu de données hydrométriques que j’utilise à titre d’exemple, je définis la notion d’autocorrélation (cyclique) de Kendall. La reste de la présentation concerne des techniques de régularisation et de tests d’hypothèse pour de telles matrices d’autocorrélation.

Jeudi 10 novembre : Jean-Michel Loubes (Université Toulouse Paul Sabatier)

Titre : Transport optimal pour l’étude des biais algorithmiques

Résumé : L’étude des biais en IA ou plus précisément des algorithmes de Machine Learning, est un thème de recherche actuel. Il existe de nombreuses manières de quantifier les biais qui peuvent être soit globaux soit locaux. Nous montrons que ces problématiques sont liées à des problèmes de transport optimal, tout particulièrement nous étudierons la méthode qui consiste à contraindre un algorithme à ne pas être influencé par une variable et étudierons les liens avec les barycentres des distributions conditionnelles, par rapport à la distance de Monge-Kantorovich.

Jeudi 17 novembre : Patrick Fournier (UQAM)

Titre : Score de risque polygénique et épistasie: une approche “model free” basée sur le processus de coalescence

Résumé : Le score de risque polygénique constitue un des outils de prédilection de la médecine personnalisée. Il ne s’agit ni plus ni moins que du risque, pour un individu donné, de développer une maladie. Le calcul de ce risque est basé sur les données massives provenant d’études d’association pangénomiques et traditionnellement effectué à l’aide de modèles linéaires généralisés. Une des faiblesses de ces modèles est la difficulté de la prise en compte de l’interaction entre les marqueurs génétiques (i.e. de l’épistasie). Nous proposons une méthode alternative qui vise à résoudre ce problème en évitant la spécification d’un modèle pour l’interaction.


Jeudi 1er décembre : Olivier Binette (Duke University) par ZOOM (https://uqam.zoom.us/j/83398998172)

Title : Estimating the Performance of Entity Resolution Algorithms: Lessons Learned Through PatentsView.org

Abstract : This paper introduces a novel evaluation methodology for entity resolution algorithms. It is motivated by PatentsView.org, a U.S. Patents and Trademarks Office patent data exploration tool that disambiguates patent inventors using an entity resolution algorithm. We provide a data collection methodology and tailored performance estimators that account for sampling biases. Our approach is simple, practical and principled — key characteristics that allow us to paint the first representative picture of PatentsView’s disambiguation performance. This approach is used to inform PatentsView’s users of the reliability of the data and to allow the comparison of competing disambiguation algorithms.

Session Hiver 2023

Jeudi 19 janvier : Mohamed Ouhourane (UQAM)

Titre : La régression asymétrique quantile et expectile en grande dimension

Résumé : Dans le cadre général de la régression pénalisée en présence de données de grande dimension, on s’intéresse à l’extension des modèles de régression asymétrique, quantile et expectile, avec plusieurs pénalités de sélection de variables par groupe afin de sélectionner des groupes de variables importantes/informatives pour une variable d’intérêt. Nous avons proposé deux nouvelles approches.

Premièrement, nous avons introduit la régression quantile régularisée avec la pénalité group-Lasso et les pénalités non convexes (group-SCAD et group-MCP) ainsi que leurs approximations locales. L’approche proposée permet de sélectionner les groupes de variables importantes et fournit une estimation de leurs effets sur la variable dépendante/d’intérêt simultanément. Nous avons démontré que le vitesse de convergence de notre approche avec la pénalité group-Lasso est linéaire.

Deuxièmement, nous avons généralisé les pénalités de sélection de variables par bloc aux modèles de la régression des moindres carrés asymétriques, à savoir la régression expectile et la régression expectile couplée. D’un point de vue théorique, nous avons démontré que nos modèles possèdent des propriétés oracles.

Pour les deux approches, nous avons mené des études de simulations exhaustives dans lesquelles les résultats ont montré que nos nouvelles approches ont une performance supérieure par rapport à d’autres méthodes existantes. Finalement, nous avons démontré l’utilité des deux approches en analysant des données réelles de grande dimension.

Jeudi 26 janvier : Jill Vandermeerschen (UQAM)

Titre : Stratégie de choix d’une analyse statistique dans un milieu de recherche

Résumé : La question du meilleur choix de tests statistiques pour répondre à une problématique de recherche est une préoccupation courante et importante parmi les chercheurs et les statisticiens travaillant dans les milieux de recherche. Tout bon livre de statistique vous enseigne à effectuer des analyses de façon rigoureuse pour répondre à une problématique donnée. Cette présentation vous présentera le travail de réflexion à poser en amont de l’exécution d’un ou plusieurs tests afin de s’assurer de répondre concrètement aux problématiques de recherche.

Jeudi 2 février : Alejandro Murua (Université de Montréal)

Titre : Un modèle bayésien semi-paramétrique pour la découverte des bi-grappes

Résumé : Nous proposons un modèle bayésien semi-paramétrique permettant de détecter les bi-grappes (biclusters) dans des données d’expression génique. Le bi-grappes sont de sous-ensembles d’observations partageant des patrons similaires sur un ensemble de conditions. Notre approche est basée sur le modèle plaid ou des carrés écossais et un a priori de type bâton tronqué qui nous aide à trouver le nombre de bi-grappes présents dans les données dans le cadre de l’inférence. Les preuves fournies par une étude de simulation montrent que le modèle est capable de détecter correctement les bi-grappes et fonctionne bien par rapport à certaines approches concurrentes. L’approche est appliquée aux données d’expression génique (réponses continues) et aux données de modification des histones (réponses de comptage).

Jeudi 9 février : Lucile Laulin (Laboratoire de Mathématiques Jean Leray, Nantes)

Titre : Comment estimer le paramètre de mémoire de la marche aléatoire de l’éléphant

Résumé : La marche de l’éléphant est une marche aléatoire discrète sur les entiers et dont le comportement est dirigé par un paramètre de mémoire. Elle été introduite au début des années 2000 par des physiciens. L’étude de son comportement asymptotique peut se faire via une approche martingale et l’influence importante du paramètre de mémoire permet de différencier trois régimes. On commencera par présenter le processus et les résultats connus tels que la convergence presque sûre ou la normalité asymptotique. On proposera ensuite une manière d’estimer le paramètre de mémoire de l’éléphant via un estimateur consistant.

Jeudi 16 février : Arthur Charpentier (UQAM)

Titre : Optimal Transport for Counterfactual Estimation: A Method for Causal Inference

Résumé : Many problems ask a question that can be formulated as a causal question: “what would have happened if…?” For example, “would the person have had surgery if he or she had been Black?” To address this kind of questions, calculating an average treatment effect (ATE) is often uninformative, because one would like to know how much impact a variable (such as skin color) has on a specific individual, characterized by certain covariates. Trying to calculate a conditional ATE (CATE) seems more appropriate. In causal inference, the propensity score approach assumes that the treatment is influenced by x, a collection of covariates. Here, we will have the dual view: doing an intervention, or changing the treatment (even just hypothetically, in a thought experiment, for example by asking what would have happened if a person had been Black) can have an impact on the values of x. We will see here that optimal transport allows us to change certain characteristics that are influenced by the variable we are trying to quantify the effect of. We propose here a mutatis mutandis version of the CATE, which will be done simply in dimension one by saying that the CATE must be computed relative to a level of probability, associated to the proportion of x (a single covariate) in the control population, and by looking for the equivalent quantile in the test population. In higher dimension, it will be necessary to go through transport, and an application will be proposed on the impact of some variables on the probability of having an unnatural birth (the fact that the mother smokes, or that the mother is Black). Along this presentation, we will discuss the use of counterfactual techniques to model discrimination and discuss the fairness of predictive models.

Mercredi 22 février à 15h : Mehdi Dagdoug (Université d’Ottawa)

Titre : Statistical learning for high-dimensional sampling

Résumé : In surveys, the interest lies in estimating finite population parameters such as population totals and means. In most surveys, some auxiliary information is available at the estimation stage. In this talk, we will consider the problem of estimating finite population totals in presence of a large number of auxiliary variables. In case of full response, statistical learning models can be used to improve the efficiency of estimation strategies with an approach called model- assisted estimation. We will investigate the influence of the dimension through a mixture of high-dimensional asymptotic results and simulations. Parametric procedures such as linear and penalized linear models as well as nonparametric ones with regression trees and random forests will both be considered. A special attention will be given to variance estimation in presence of high-dimensional covariates and with statistical learning procedures.

Jeudi 9 mars : Kuan Liu (University of Toronto) par ZOOM (https://uqam.zoom.us/j/84860403576)

Title : Bayesian methods for causal inference with longitudinal data

Abstract : Bayesian statistical methods are becoming increasingly popular in clinical and public health research. In the context of comparative effectiveness studies, Bayesian methods propagate estimation uncertainty, allow direct probability summaries of the treatment effectiveness, and most importantly, afford us the ability to incorporate prior clinical/expert beliefs. Despite their unique estimation features and wide applicability, Bayesian causal inference methods for handling longitudinal data under observational designs have received limited attention in the statistical literature. In this talk, I will present two novel Bayesian causal methods to account for time-dependent confounding and time-dependent treatment in longitudinal observational studies and demonstrate their use using a real-world clinical data. The first method extends the Bayesian marginal structural models to estimate visit-specific treatment effects with repeatedly measured outcomes. The second method introduces a Bayesian latent class approach to achieve causal inference from the joint model of time-dependent covariates, treatment and an end of study outcome. I will discuss a few ongoing projects building on these works including Bayesian causal inference with clustered data, Bayesian sensitivity analysis with unmeasured time-dependent confounding, and Bayesian confounding structure learning of interpretable subgroups.

Jeudi 16 mars à 15h : Michaël Lalancette (Technical University of Munich)

Titre : Apprentissage de modèles graphiques extrémaux en grande dimension

Résumé : Une multitude de caractérisations et de modèles existent pour la dépendance extrémale, c’est-à-dire la structure de dépendance de données multivariées dans les queues. Cependant, l’inférence statistique pour ce type de dépendance n’utilise qu’une fraction des données, réduisant ainsi la taille échantillonnale et compliquant l’estimation même en dimension modérée. Récemment introduits, les modèles graphiques extrémaux permettent d’imposer une parcimonie sous forme d’un graphe d’indépendance conditionnelle, réduisant ainsi la dimension effective. Nous proposons la première méthode d’apprentissage de modèles graphiques extrémaux qui ne requiert aucune hypothèse sur le graphe sous-jacent. Elle exploite des outils existants pour l’apprentissage de modèles graphiques gaussiens, tels que le lasso graphique et la sélection de voisinage. Utilisant une inégalité de concentration novatrice, l’exactitude asymptotique de la méthode est établie, même lorsque la dimension est exponentiellement plus élevée que la taille échantillonnale. La méthodologie est finalement appliquée à un problème concernant le débit fluvial dans le bassin supérieur du Danube.

Mercredi 22 mars à 15h au PK-R220: Mohamad Elmasri (Université de Toronto)

Titre : Inférence prédictive pour le temps de trajet sur les réseaux de transport – et nouveau travail sur la tarification

Résumé : Récemment, des méthodes statistiques appliquées à des données GPS à grande échelle peuvent fournir des estimations précises du temps de trajet prévu entre deux points. Cependant, on sait peu de choses sur la distribution du temps de trajet, qui est essentielle pour la prise de décision dans un certain nombre de problèmes logistiques. Avec des données suffisantes, le temps de trajet d’un seul segment de route peut être bien approché. Le défi consiste à comprendre comment agréger ces informations sur un itinéraire pour obtenir la distribution du temps de trajet sur cet itinéraire. Nous développons des outils statistiques pour comprendre ce problème. Nous montrons que, sous des conditions générales, sans supposer une distribution de vitesse, le temps de trajet divisé par la distance de l’itinéraire suit une distribution gaussienne avec une moyenne et une variance de population invariantes sur l’itinéraire. Nous développons des méthodes d’inférence efficaces pour de tels paramètres et proposons des intervalles de prédiction de population asymptotiquement serrés pour le temps de trajet. Nous développons en outre une distribution prédictive basée sur une gaussienne spécifique au trajet, ce qui donne des intervalles de prédiction serrés pour les trajets courts et longs. Nos méthodes sont illustrées dans une étude de cas réelle à l’aide de données GPS mobiles.

Dans la seconde partie de cet exposé, je discuterai de la manière dont nos méthodes développées peuvent conduire à des outils de tarification nouveaux et robustes pour les systèmes de transport et comment résoudre les problèmes de stabilité de tarification existants.

Jeudi 30 mars à 15h : Sahir Bhatnagar (Université McGill)

Titre : Variable selection and prediction in high-dimensional data analysis

Résumé : In high-dimensional data, where the number of covariates greatly exceeds the number of observations, estimation can benefit from the bet-on-sparsity principle, i.e., only a small number of predictors are relevant in the response. This assumption can lead to more interpretable models, improved predictive accuracy, and algorithms that are computationally efficient. There has been a particular interest in variable selection methods and their application to datasets in the health sciences, where sample sizes are small relative to the number of measured features. In this talk, I will first introduce several analytical challenges that arise in large-scale genetics data, followed by some of our proposed solutions and their software implementations. I then share some recent applications of these methods for variant discovery, polygenic risk scores, and gene-environment interactions. This will be followed by a discussion of future directions with a particular focus on statistical fine-mapping, optimization techniques, and incorporation of deep learning annotations in rare variant association models.

Jeudi 6 avril : Lyubov Doroshenko (Université Laval) par ZOOM (https://uqam.zoom.us/j/82971543824)

Title : Functional motif discovery in stock market prices

Abstract : Financial asset prices display recurrent patterns over time. However, such time series are usually noisy and volatile, making the identification of repetitive patterns particularly difficult. These motifs are rarely exploited for price prediction, even though some of them, such as the surge of a financial bubble, occur periodically and feature similar shapes. In this study we embed asset prices in a functional data analysis framework, by extending and using probabilistic K-means with local alignment to discover functional motifs in stock prices time series. We then exploit the information of the discovered motifs to perform the price forecasts with a novel motif-based algorithm we introduce. After illustrating our technique on simulations of mixed causal-noncausal autoregressive process, we apply it to the prices of SP500 top components and perform the motif-based forecasting. Finally, we compare its performance to some traditional forecasting models.