High-Dimensional Variable Selection in Mixed-Data Sampling Models: An Application to U.S. GDP Growth

Translated title

High-Dimensional Variable Selection in Mixed-Data Sampling Models

Author

Ranum, Anders Hoff

Term

4. term

Education

Mathematics-Economics, Master

Publication year

2026

Submitted on

2026-05-27

Abstract

This thesis examines how to choose useful predictors when there are many candidates and the data arrive at different frequencies. We study variable selection in high-dimensional mixed-data sampling models—that is, models that combine monthly indicators with quarterly U.S. GDP growth. We compare penalized regularization methods (ridge regression, LASSO, elastic net, threshold ridge, post-threshold ridge) with testing-based procedures (OCMT and BMT) in a rolling-window forecasting exercise that mimics real-time use. Each method is assessed by how well it identifies leading indicators and by its out-of-sample forecast accuracy, summarized by the root mean squared forecast error (RMSFE), a standard measure of average forecast error size. We find notable differences in how aggressively the methods reduce the set of predictors: LASSO, elastic net, and BMT usually yield very sparse models with only a few variables kept, whereas OCMT and threshold ridge tend to retain more predictors. Overall, using monthly predictors offers only limited gains over a simple autoregressive benchmark that forecasts GDP growth from its own past values. At the one-quarter-ahead horizon, LASSO attains the lowest RMSFE, but the improvement is small; at longer horizons, several methods select no monthly predictors and effectively revert to the autoregressive benchmark.

Dette speciale undersøger, hvordan man udvælger de mest nyttige forklarende variable, når der er mange kandidater, og data har forskellige frekvenser. Vi ser på variabeludvælgelse i høj-dimensionelle mixed-data sampling-modeller, dvs. modeller der kombinerer månedlige indikatorer med kvartalsvis amerikansk BNP-vækst. Vi sammenligner penaliserede regulariseringsmetoder (ridge regression, LASSO, elastic net, threshold ridge, post-threshold ridge) med testbaserede procedurer (OCMT og BMT) i en rullende vindues-forecasting, som efterligner realtidsbrug. Hver metode vurderes på evnen til at finde foranliggende indikatorer og på out-of-sample prognosenøjagtighed målt ved root mean squared forecast error (RMSFE), et standardmål for den gennemsnitlige prognosefejl. Resultaterne viser tydelige forskelle i, hvor meget metoderne skærer antallet af variable ned: LASSO, elastic net og BMT giver typisk meget sparsomme modeller med få udvalgte variable, mens OCMT og threshold ridge oftere beholder flere prædiktorer. Samlet set giver brugen af månedlige prædiktorer kun begrænsede forbedringer i forhold til en simpel autoregressiv benchmark, der forudsiger BNP-vækst ud fra egne fortilfælde. Ved en en-kvartal-forud horisont opnår LASSO den laveste RMSFE, men forbedringen er lille; ved længere horisonter vælger flere metoder slet ingen månedlige prædiktorer og falder dermed tilbage til benchmarken.

[This abstract has been rewritten with the help of AI based on the project's original abstract]

Keywords

variable selection methods ; mixed-data sampling ; applied econometrics ; mixed-frequency forecasting

Documents

Download PDF
View record in AAU Student Projects

A master's thesis from Aalborg University

High-Dimensional Variable Selection in Mixed-Data Sampling Models: An Application to U.S. GDP Growth