Text classification with generic Logistic-Regression classifier
Author
Moreaux, Marc Maurice Roland
Term
3. term
Education
Publication year
2015
Pages
26
Abstract
This thesis explores whether a generic logistic-regression classifier can be trained on a dataset of unknown nature using standard, reusable methods and minimal feature assumptions. The case study is Tradeshift's Kaggle competition on multi-label classification of text-document elements, where each element is represented by 145 mixed features (content, parsing, spatial, relational) and may take any of 33 labels; the training and test files contain about 1.7M and 0.4M rows, respectively. The work details quantification of non-numeric inputs (mapping YES/NO to -1/1, empty values to 0, and hashed content to integer indices; 986,837 unique hashes across the data) and an exploratory analysis suggesting that the 145 features repeat in five blocks, with the last block always present and interpreted as the focal element surrounded by neighbors. Building on this, the thesis presents a specific implementation of logistic regression that handles large input dimensionality and selects useful, automatically derived features through regularization, together with the training criterion. Predictions are evaluated with LogLoss (average negative log-likelihood over samples and 33 labels), which rewards well-calibrated probabilities and penalizes over-confident errors. This excerpt covers the problem setup, data understanding, preprocessing pipeline, and model design; empirical results are reported later and are not included here.
Denne afhandling undersøger, om man kan træne en generisk logistisk regressionsklassifikator på et datasæt af ukendt natur med minimale antagelser om features. Som case anvendes Tradeshifts Kaggle-konkurrence om multietiket-klassifikation af tekstdokumentelementer, hvor hvert element beskrives af 145 blandede features (indhold, parsing, spatial og relationelle) og kan få tildelt 1-33 labels; trænings- og testdata leveres som ca. 1,7 mio. hhv. 0,4 mio. rækker. Arbejdet beskriver en kvantificering af ikke-numeriske input (YES/NO til -1/1, tomme værdier til 0, hash-koder til heltalsindeks; 986.837 unikke hasher på tværs af datasættet) og en eksplorativ dataanalyse, der peger på, at de 145 features gentager sig i fem blokke, hvor den sidste blok altid er udfyldt og tolkes som det element, der skal klassificeres, omgivet af naboblokke. På denne baggrund præsenteres en specifik implementering af logistisk regression, der kan håndtere mange input og vælge nyttige, automatisk afledte features via regularisering, samt den anvendte træningskriteriefunktion. Modellens prædiktioner evalueres med LogLoss (gennemsnitligt negativt log-likelihood over prøver og 33 labels), som belønner velkalibrerede sandsynligheder og straffer sikre fejl. Uddraget dækker problemformulering, dataforståelse, forbehandling og modeldesign; empiriske resultater omtales senere i rapporten og fremgår ikke af dette uddrag.
[This apstract has been generated with the help of AI directly from the project full text]
Other projects by the authors
Moreaux, Marc Maurice Roland:
