AAU Student Projects - visit Aalborg University's student projects portal
A master's thesis from Aalborg University
Book cover


Learner-Aware Instance Generation for Classical Planning via Neural Networks

Authors

;

Term

4. term

Publication year

2025

Submitted on

Pages

8

Abstract

Denne afhandling undersøger, om domæneuafhængig automatisk instansgenerering kan understøtte træning af generaliserbare politikker til klassisk planlægning. Vi evaluerer NeSIG som generator i samspil med CPDDL og Action Schema Networks og finder, at politikker trænet udelukkende på NeSIG-instancer har tendens til at overfitte: de klarer sig godt på lignende genererede problemer, men har svært ved eksterne benchmarks. For at afhjælpe dette introducerer vi to politikbevidste sværhedsmetrikker, Optimality Gap og Multi-Policy Consensus, som erstatter NeSIGs oprindelige planlægger-centrerede metrik og indgår i en lukket feedbacksløjfe mellem politiklæring og instansgenerering. Den iterative proces genererer målrettet sværere problemer, der fremhæver svagheder i den aktuelle politik. I indledende forsøg i Miconic-domænet observerer vi begrænsede forbedringer på eksterne tests (formentlig pga. beregningsmæssige begrænsninger), men øget robusthed på stadig mere udfordrende i-distributionssæt. Vores bidrag omfatter en kvantitativ afdækning af NeSIGs begrænsninger og en domæneuafhængig, sværhedsstyret instansgenereringsramme, der sigter mod at forbedre politikers generalisering.

This thesis examines whether domain-independent automatic instance generation can support learning generalizable policies for classical planning. We evaluate NeSIG as a generator paired with CPDDL and Action Schema Networks and find that policies trained solely on NeSIG instances tend to overfit: they perform well in-distribution but struggle on external benchmarks. To address this, we introduce two policy-aware difficulty metrics, Optimality Gap and Multi-Policy Consensus, replacing NeSIG’s original planner-centric metric and integrating them into a closed feedback loop between policy learning and instance generation. The iterative procedure steers NeSIG toward harder problems that expose policy weaknesses. In initial experiments on the Miconic domain, we observe limited improvements on external tests (likely due to computational constraints) but increased robustness on progressively harder in-distribution sets. Our contributions include quantifying NeSIG’s limitations and proposing a domain-independent, difficulty-guided instance generation framework aimed at improving policy generalization.

[This abstract was generated with the help of AI]