IrregularDB: A model-based time series DBMS for regular & irregular time series data
Authors
Manojlovic, Simon Teodor ; Nedergaard, Esben Kaa ; Nørholm, Kenneth Ljunggren
Term
4. term
Education
Publication year
2022
Submitted on
2022-06-28
Pages
73
Abstract
Mængden af tidsseriedata fra sensorer vokser, hvilket skaber behov for systemer, der effektivt kan indlæse, komprimere, lagre og analysere både regelmæssige og uregelmæssige tidsserier. Dette projekt undersøger, hvordan et tidsseriesystem kan designes til at opnå effektiv komprimering og effektiv indlæsning ved hjælp af multi-modell-baseret komprimering af værdier for begge typer tidsserier. Vi designer, implementerer og tester IrregularDB, som introducerer Multi-Timestamp Multi-Value Model Compression (MTVMC): en tilgang, der vælger blandt flere tidsstempel- og værdimodeller for et givent tidsinterval og gemmer disse som segmenter i en PostgreSQL-database med fuld SQL-understøttelse. Systemet adskiller indlæsning (via TCP eller CSV) fra behandlingen gennem baggrundstråde med brugerdefinerede parametre (fx fejlgrænse og tærskel), og en proof-of-concept PL/Java-funktion muliggør dekomprimering ved forespørgsler. Vi evaluerer mod ModelarDB og InfluxDB på både et real-world datasæt (REDD) og syntetiske data (TSBS) med fokus på kompression, indlæsning og forespørgselshastighed. Resultaterne viser 1,03-2,69 gange bedre komprimering og 0,61-27,39 gange indlæsningshastighed sammenlignet med disse systemer, mens forespørgselshastigheden halter bagefter; to åbenlyse forbedringer er at omskrive dekomprimeringsfunktionen i C og at udvide segmenternes summeringsoplysninger.
The growing volume of sensor-generated time series data calls for systems that can efficiently ingest, compress, store, and analyze both regular and irregular time series. This project investigates how to design a time series system that achieves effective compression and efficient ingestion using multi-model value compression for both data types. We design, implement, and evaluate IrregularDB, which introduces Multi-Timestamp Multi-Value Model Compression (MTVMC): an approach that selects among multiple timestamp and value models for each interval and stores them as segments in a PostgreSQL database with full SQL support. The system decouples ingestion (via TCP or CSV) from processing using background workers with user-configurable parameters (e.g., error bound and threshold), and a proof-of-concept PL/Java function enables decompression during queries. We benchmark against ModelarDB and InfluxDB using a real-world dataset (REDD) and synthetic data (TSBS), measuring compression, ingestion, and query performance. Results show 1.03-2.69 times better compression and 0.61-27.39 times the ingestion speed compared to these systems, while query performance lags; two clear avenues for improvement are rewriting the decompression function in C and adding richer per-segment summary information.
[This summary has been generated with the help of AI directly from the project (PDF)]
Documents
