GAMON discovering M-of-N hypotheses for text classification by a lattice-based genetic algorithm

Pietramala, Adriana; Leone, Nicola; Rullo, Pasquale

Mostra/Apri

PHD-thesis-Adriana Pietramala.pdf (913.0Kb)

Creato da

Pietramala, Adriana

Leone, Nicola

Rullo, Pasquale

Metadata

Mostra tutti i dati dell'item

URI

http://hdl.handle.net/10955/877
http://dx.doi.org/10.13126/UNICAL.IT/DOTTORATI/877

Descrizione

Formato

Dottorato di Ricerca in Matematica ed Informatica, XXV Ciclo, a.a. 12013-2014; Lo sviluppo delle moderne tecnologie informatiche, nonch´e la diffusione dei servizi per il Web, ha portato ad una considerevole produzione di informazioni e dati di diversa natura: documenti testuali (dati non strutturati), basi di dati (dati strutturati) e pagine Html (dati semi-strutturati). La disponibilit` a, sempre pi`u crescente, di considerevoli quantit`a di dati ha posto, di conseguenza, il problema della loro memorizzazione, della loro organizzazione e del loro reperimento. Inoltre, se non ci fossero strumenti idonei a trattare le sole informazioni di interesse, tutti questi dati rischierebbero di essere inutilizzabili. Le informazioni, infatti, rappresentano il punto di partenza per l’estrazione di conoscenza, attivit`a che, in passato, ha fatto riferimento all’analisi e all’interpretazione manuale, fondata sull’attivit`a di uno o pi`u esperti addetti a prendere le decisioni sul caso corrente. L’analisi manuale, chiaramente, presenta molteplici aspetti negativi. Prima tra tutti essa `e caratterizzata da lunghi tempi di analisi e da alti costi di realizzazione; infine, risulta altamente soggettiva e in accurata. Tali aspetti negativi vengono ulteriormente aggravati dall’enorme mole di dati da dover trattare. Aggregare, classificare e recuperare le informazioni di interesse con tempestivit`a, efficacia e a costi ridotti `e sicuramente pi`u vantaggioso rispetto ai tradizionali approcci di analisi manuale. In particolare, la possibilit`a di poter classificare automaticamente enormi quantit`a di documenti, potendoli poi ritrovare facilmente sulla base dei concetti espressi e sulle tematiche trattate, piuttosto che affidarsi ad un’analisi manuale, `e una necessit`a che viene sentita non solo dalla comunit`a scientifico/accademica, ma anche da quella aziendale, commerciale e finanziaria. Il Text Classification (TC) o Text Categorization `e una disciplina che coniuga diverse aree di ricerca, dall’Information Retrieval (IR), al Machine Learning (ML), al Natural Language Processing (NLP) e mira alla costruzione di sistemi per la classificazione automatica dei dati in categorie tematiche di interesse. In particolare, nel TC, i dati sono costituiti da una collezione di documenti testuali non strutturati, i quali vengono suddivisi in gruppi sulla base del contenuto, attraverso l’assegnamento del testo ad una o pi`u categorie tematiche predefinite. Le prime ricerche nell’ambito del TC risalgono all’inizio degli anni ‘60. Tuttavia, `e solo nell’ultimo decennio che tale problema sta suscitando un interesse crescente sia nel settore della ricerca scientifica che in contesti industriali. Possibili applicazioni del TC spaziano dall’indicizzazione automatica di articoli scientifici, all’organizzazione delle e-mail, al filtraggio dello spam, ecc. Negli ultimi decenni, sono stati proposti un gran numero di sistemi per la classificazione di documenti testuali suddivisibili, principalmente, in tre macro-tipologie sulla base dell’approccio seguito nella costruzione dei classificatori: • approccio di tipo Expert Systems (ES); • approccio di tipo Machine Learning (ML); • approccio di tipo Ibrido. Ibrido. Il primo approccio, affermatosi all’inizio degli anni ’60 prevede l’impiego di esperti di dominio (classificazione manuale) nella definizione dei classificatori per le categorie di interesse. Questo tipo di approccio ha consentito la definizione di classificatori molto efficaci. Di contro, per`o, l’approccio di tipo ES presenta due svantaggi principali: risulta molto dispendioso in termini di risorse umane utilizzate e poco flessibile. Infatti, nel momento in cui cambia il contesto di riferimento, i nuovi classificatori devono essere nuovamente definiti manualmente. Per questo motivo, a partire dagli anni ’90, l’approccio di tipo ES `e stato quasi completamente sostituito dall’approccio di tipo ML, il cui obiettivo principale non `e la definizione dei classificatori, quanto la costruzione di sistemi in grado di generare automaticamente i classificatori. Pi`u in particolare, nell’ambito di questo paradigma, l’obiettivo `e la definizione di sistemi capaci di apprendere automaticamente le caratteristiche di una o pi`u categorie, sulla base di un insieme di documenti precedentemente classificati (training set). Questo approccio presenta numerosi vantaggi rispetto a quello di tipo Expert Systems. I sistemi di apprendimento, infatti, mostrano generalmente un’elevata efficacia, consentono un considerevole risparmio in termini di risorse umane impiegate nel processo di definizione dei classificatori e garantiscono una immediata portabilit`a verso nuovi domini. Negli ultimi anni sono stati proposti svariati sistemi per la classificazione automatica di documenti testuali basati, essenzialmente, su processi di tipo induttivo. Tali sistemi sfruttano, generalmente, misure statistiche e, talvolta, vengono importati nell’ambito del TC da altre aree dell’Information Retrieval e del Data Mining. Un esempio emblematico `e il caso delle Support Vector Machine (SVM) utilizzate, dapprima, per la risoluzione di problemi di regressione e, attualmente, considerate allo stato dell’arte per il Text Categorization. Un posto di rilievo nel paradigma dell’induzione di classificatori `e occupato dagli algoritmi di apprendimento ”a regole” o ”rule-based”, dove i classificatori vengono specificati come insiemi di regole. Tali classificatori hanno la propriet`a desiderabile di essere comprensibili da un lettore umano, mentre la maggior parte degli altri approcci esistenti, come SVM e Neural Network, producono classificatori che difficilmente un lettore umano riesce ad interpretare. Classificatori con queste caratteristiche vengono spesso chiamati di tipo black-box. Infine, l’approccio di tipo Ibrido combina il metodo Expert System con quello Machine Learning, per ottenere un sistema di categorizzazione che sfrutta sia i benefici derivanti da una conoscenza di dominio, sia i benefici derivanti dalla costruzione di sistemi automatici. Ultimamente, la comunit`a scientifica sta adottando tecniche di TC sempre pi`u innovative che, generalmente, si discostano di molto dagli approcci classici di tipo deterministico. In effetti, una recente tendenza nell’ambito del TC `e quella di sfruttare tecniche di apprendimento basate su metaeuristiche, come gli Algoritmi Evoluzionistici o Genetici. Tecniche di questo tipo sono, general mente, costituite da tre componenti essenziali: • un insieme di soluzioni candidate, chiamato popolazione, costituito da individui o cromosomi. Questi evolvono durante un certo numero di iterazioni (generazioni) generando, alla fine dell’evoluzione, la soluzione migliore; • una funzione obiettivo, chiamata funzione di fitness, usata per assegnare a ciascun individuo un peso (score) che indica la bont`a dell’individuo stesso; • un meccanismo evolutivo, basato su operatori evoluzionistici come crossover, mutazione ed elitismo, che consentono di modificare il materiale genetico degli individui che costituiscono la popolazione. Approcci di questo tipo introducono notevoli vantaggi rispetto alle tecniche classiche. Ad esempio, il meccanismo evolutivo `e noto per essere un metodo robusto e di successo, infatti, `e utilizzato per la risoluzione di molti problemi di ottimizzazione intrinsecamente difficili da risolvere. Inoltre, il meccanismo evolutivo riduce sensibilmente lo spazio di ricerca delle soluzioni ammissibili e molte tecniche evolutive riescono a risolvere problemi complessi senza conoscere il preciso metodo di soluzione. In questo lavoro di tesi proponiamo un modello di classificazione a regole, denominato GAMoN, basato sull’utilizzo di Algoritmi Genetici per l’induzione delle regole di classificazione. Un classificatore H generato dal sistema GAMoN per una data categoria c assume la forma di una disgiunzione di atomi Hic del tipo:Hc = H1 c ∨ · · · ∨ Hr c dove ciascun atomo Hic `e una quadrupla < Pos,Neg,mi, ni >, dove: • Pos = {t1, .., tn} `e l’insieme dei termini positivi, ovvero l’insieme dei termini che sono rappresentativi per la categoria c di riferimento; • Neg = {tn+1, , tn+m} `e l’insieme dei termini negativi, ovvero l’insieme dei termini che sono indicativi della non appartenenza alla categoria; • mi e ni sono numeri naturali, chiamati soglie, tali che mi >= 0 e ni > 0. Intuitivamente, il significato attribuito a ciascun atomo Hic `e il seguente: “classifica il generico documento d sotto la categoria c se almeno mi termini positivi compaiono in d e meno di ni termini negativi compaiono in d”. Infatti, il linguaggio delle ipotesi introdotto da GAMoN `e chiamato MofN+, una estensione dei classificatori di tipo MofN con la componente dei termini negativi. Da qui nasce l’acronimo “GAMoN”, che sta ad indicare un sistema di classificazione testuale basato su “Algoritmi Genetici” di tipo “M of N”. GAMoN `e un sistema di classificazione che nasce come estensione di “Olex-GA”, un modello di classificazione “a regole” basato sul paradigma evoluzionistico e realizzato in precedenti lavori di ricerca. Un classificatore generato da GAMoN coincide con quello di Olex-GA quando mi=1 e ni = 1. Infatti, un classificatore Olex-GA assume il significato “se almeno uno dei termini positivi t1, ..., tn appare nel documento d e nessuno dei termini negativi tn+1, , tn+m appare in d, allora classifica d sotto la categoria c”. Il sistema GAMoN `e stato testato su 13 corpora di benchmark (Reuters-21578, Ohsumed, OH5, OH0, OH10, OH15, Blogs Gender, Ohscale, 20 Newsgroups, Cade, SRAA, ODP e Market) e messo a confronto con altri 5 sistemi di classificazione: BioHEL [18, 48] e Olex-GA [101], che sono sistemi di classificazione a-regole basati sul paradigma evoluzionistico; Ripper [37] e C4.5 [105], che sono sistemi di classificazione a-regole non evoluzionistici; infine, SMO che `e una implementazione di SVM lineare [76]. Gli studi sperimentali mettono in evidenza come GAMoN induca classificatori che sono, al tempo stesso, accurati e compatti. Tale propriet`a `e stata osservata su tutti i corpora utilizzati nella sperimentazione, dove GAMoN ha mostrato sempre un comportamento uniforme. Poich´e i corpora utilizzati si riferiscono a contesti applicativi notevolmente diversi, possiamo affermare che GAMoN ha dato prova di essere un sistema robusto. Complessivamente, GAMoN ha dimostrato un buon bilanciamento tra accuratezza e complessit`a del modello generato; inoltre, `e risultato molto efficiente per la classificazione di corpora di grandi dimensioni. Il seguito della tesi `e organizzato in tre parti principali di seguito elencate: • nella Parte I verr`a definito formalmente il problema del Text Categorization e verranno rivisitati i principali contesti applicativi nei quali sono sfruttate tecniche di questo tipo; • nella Parte II verranno presentati diversi metodi e sistemi di classificazione documentale, al fine di realizzare una valutazione comparativa delle loro peculiarit`a nell’ambito della tematica di interesse; • nella Parte III verr`a presentato dettagliatamente il sistema GAMoN. In particolare, verranno riportate alcune definizioni formali quali, ad esempio, il linguaggio e lo spazio delle ipotesi, gli operatori di crossover utilizzati dal sistema e verranno descritti e mostrati i risultati sperimentali ottenuti, attraverso un’analisi comparativa con i sistemi di learning s`u citati; Università della Calabria

Soggetto

Informatica; Algoritmi genetici

Relazione

INF/01;