AAU Student Projects - visit Aalborg University's student projects portal
A master's thesis from Aalborg University
Book cover


Classification of High Vegetation in an Urban environment: A Performance Comparison of Machine Learning Methods in a LiDAR dataset

Author

Term

4. term

Publication year

2018

Submitted on

Pages

82

Abstract

Denne afhandling undersøger, hvordan høj vegetation i et bymiljø kan kortlægges ved hjælp af maskinlæring baseret på fjernmålingsdata. I et case study fra København sammenlignes tre udbredte, superviserede klassifikationsmetoder – Support Vector Machines (SVM), Random Forest (RF) og en kernel-baseret model – med henblik på at identificere, hvilken tilgang der giver den bedste præcision. Datagrundlaget omfatter luftbåren LiDAR-punktsky (bl.a. intensitet, returnummer og antal returns) suppleret med ortofoto i RGB samt et infrarødt bånd. Der arbejdes med to tilgange, hvor den ene kun anvender LiDAR og den anden kombinerer LiDAR og ortofoto, og modellerne vurderes ved k-fold krydsvalidering og testdatasæt, herunder en analyse af følsomheden over for mindre træningsdatasæt. Resultaterne viser, at den kernel-baserede klassifikator opnår den højeste nøjagtighed (85,25 %), mens Random Forest er mindst følsom over for reduceret træningsmængde (med mindre ændringer i nøjagtighed på tværs af datasæt og tilgange). Arbejdet peger på, at modellerne kan skaleres til større områder og potentielt anvendes i andre byer, hvor formålet er at forbedre og effektivisere overvågning og planlægning af høj vegetation.

This thesis examines how high vegetation in an urban setting can be mapped using machine learning on remote sensing data. In a Copenhagen case study, three widely used supervised classifiers—Support Vector Machines (SVM), Random Forest (RF), and a kernel-based model—are compared to identify which approach yields the best performance. The dataset combines airborne LiDAR point cloud features (including intensity, return number, and number of returns) with orthophoto information (RGB and an infrared band). Two setups are evaluated—LiDAR only and LiDAR plus orthophoto—and models are assessed with k-fold cross-validation and a test set, including an analysis of sensitivity to reduced training set sizes. Results show that the kernel-based classifier achieves the highest accuracy (85.25%), while Random Forest is the least sensitive to smaller training datasets (exhibiting smaller accuracy changes across sets and approaches). The study indicates that the models can be scaled to larger areas and potentially transferred to other cities to support more efficient monitoring and planning of high vegetation.

[This summary has been generated with the help of AI directly from the project (PDF)]