Olex Effective Rule Learning for Text Categorization

Policicchio, Veronica Lucia; Canino, Annamaria; Rullo, Pasquale

Please use this identifier to cite or link to this item: https://hdl.handle.net/10955/505

Title:	Olex Effective Rule Learning for Text Categorization
Authors:	Policicchio, Veronica Lucia Canino, Annamaria Rullo, Pasquale
Keywords:	Informatica Induzione Matematica
Issue Date:	1-Apr-2014
Series/Report no.:	INF/01;
Abstract:	Le prime ricerche nell’ambito del Text Categorization, una sotto-area dell’ Information Retrieval il cui obiettivo `e la classificazione automatica di documenti rispetto a un insieme di categorie predefinite, risalgono ai primi anni ‘60. Tuttavia `e nell’ultimo decennio che tale problema ha ricevuto interesse crescente sia nel settore della ricerca scientifica che in contesti applicativi. Infatti, la disponibilit`a di grandi quantit`a di dati, resa possibile dallo sviluppo delle moderne tecnologie informatiche e dei servizi web affermatisi di recente, ha posto il problema della loro memorizzazione e organizzazione. Nell’ambito della comunit`a scientifica, l’approccio dominante `e basato sull’applicazione di tecniche di tipo Machine Learning, il cui obiettivo `e la definizione di sistemi capaci di “apprendere” automaticamente le caratteristiche di una o pi`u categorie, sulla base di un insieme di documenti precedentemente classificati (training set). Questo approccio presenta numerosi vantaggi rispetto a quello di tipo Expert Systems (in cui esperti di dominio sono impiegati nella definizione manuale dei classificatori per le categorie di interesse). I sistemi di apprendimento, infatti, mostrano generalmente un’elevata efficacia, consentono un considerevole risparmio in termini di risorse umane impiegate nel processo di definizione dei classificatori e garantiscono una immediata portabilit`a verso nuovi domini. Negli ultimi anni sono stati proposti numerosi metodi, basati su processi di tipo induttivo, per l’apprendimento automatico di classificatori. Questi sistemi sono generalmente basati su tecniche statistiche e spesso sono stati importati nell’ambito del Text Categorization da altre aree dell’Information Retrieval e del Data Mining, come nel caso delle Support Vector Machine, dapprima utilizzate per problemi di regressione e attualmente considerate allo stato dell’arte per il Text Categorization. Un posto di rilievo nel paradigma dell’induzione di classificatori `e occupato dagli algoritmi di apprendimento rule-based. I classificatori, specificati come insiemi di regole, hanno la propriet`a desiderabile di essere comprensibili da un lettore umano, al contrario della maggior parte degli altri approcci esistenti, come Support Vector Machine, Neural Network, che sono di tipo black-box, tali, cio`e, che un umano non possa interpretare i classificatori prodotti, n´e intervenire nel processo di apprendimento. 2 Nell’ambito del Text Categorization, il problema dell’induzione di regole pu`o essere in generale formulato come segue. Dati: 1. Una conoscenza pregressa (background knowledge) B, rappresentata come un insieme di fatti logici ground del tipo T 2 d che indicano la presenza del termine t nel documento d (anche altri fatti possono far parte di B); 2. un insieme di esempi positivi, rappresentati come fatti logici ground del tipo d 2 C , che individuano l’insieme dei documenti manualmente classificati sotto la categoria c, cio`e la classificazione ideale di c (l’insieme degli esempi negativi `e definito implicitamente secondo la ClosedWorld Assumption, per cui se un documento d non `e esplicitamente definito come esempio positivo per c, allora esso `e un esempio negativo.); costruire un insieme di ipotesi (il classificatore di c) che, insieme alla background knowledge, soddisfi tutti gli esempi (positivi e negativi). Un problema di questo tipo `e computazionalmente complesso, a meno che non si rilassi il vincolo per il quale l’algoritmo di learning deve rappresentare con esattezza il concetto target e si consentano, invece, delle approssimazioni. Il teorema di Valiant della PAC-learnability (Probably Approximately Correct) fornisce un modello di “learning polinomiale” per un sottoinsieme della logica preposizionale. Nel framework PAC, la quantit`a di risorse polinomialmente limitate (sia in termini di numero di esempi che di tempo computazionale) `e controbilanciata dall’accuratezza delle ipotesi indotte. Le regole indotte a partire dalla background knowledge e dagli esempi (sia positivi che negativi) consentiranno predizioni sull’appartenenza di un documento a una categoria, sulla base della presenza/assenza di un insieme di termini nel dato documento. Comunque, mentre nella teoria computazionale del learning si assume che gli esempi di input siano consistenti con qualche ipotesi nello spazio delle ipotesi, nel Text Categorization ci`o non `e necessariamente vero. Infatti, in generale, non `e possibile classificare un documento sotto una data categoria solo sulla base dei termini che appaiono in esso. L’ipotesi indotta, in tal caso, `e una tra quelle che massimamente soddisfa sia gli esempi positivi che quelli negativi. In questa tesi presentiamo Olex, una nuova tecnica per l’induzione di regole di classificazione di testi. Il problema dell’apprendimento di classificatori in Olex `e definito come un problema di ottimizzazione, in cui la F-misura `e utilizzata come 3 funzione obiettivo. In particolare, obiettivo del task di ottimizzazione `e quello di determinare un insieme ottimo Xc di termini discriminanti (d-terms) capaci di caratterizzare i documenti del training set della categoria c. Un termine discriminante Ts `e una congiunzione di termini “semplici” con un segno (positivo o negativo). Diciamo che Ts appare nel documento d se tutti i termini di cui Ts `e composto appaiono in d. Intuitivamente, un termine positivo che appare in un documento d `e indicativo dell’appartenenza di d alla categoria c; dualmente, un termine negativo `e indicativo di non appartenenza. Quindi, un documento che contenga almeno un d-term positivo e non contiene alcun d-term negativo `e classificabile sotto c, secondo Xc. Il task di ottimizzazione, quindi, pu`o essere definito informalmente come il problema di trovare un insieme Xc di termini tali che l’insieme dei documenti del training set classificabili sotto c, secondo Xc, massimizzi la funzione obiettivo (intuitivamente, aderisca quanto pi`u possibile al training set della categoria c). Dato un insieme (ottimo) di termini Xc, l’ipotesi corrispondente (il classificatore di c) ha la forma seguente: c Ã T1 2 d; Tn+1 =2 d; ¢ ¢ ¢ ; Tn+m =2 d ::::: c Ã Tn 2 d; Tn+1 =2 d; ¢ ¢ ¢ ; Tn+m =2 d: e stabilisce la classificazione del documento d sotto la categoria c, se d contiene almeno uno dei termini positivi T1; ::::; Tk e non contiene alcun termine negativo Tk+1; :::; Tn. Quindi, la presenza di un d-term positivo richiede la contestuale assenza di tutti d-term negativi. I classificatori indotti contengono una regola per ogni d-term positivo e tutte le regole condividono la stessa parte negativa, costituita da un letterale negativo per ogni termine negativo in Xc. Notiamo che il linguaggio delle ipotesi di Olex, costituito essenzialmente da clausole di Horn estese da congiunzioni negative di termini, non `e PAC-learnable. Siccome l’insieme che massimizza la funzione obiettivo dipende dalla scelta del vocabolario (cio`e l’insieme dei termini selezionati per l’induzione dei classificatori), al fine di trovare i classificatori “migliori” l’algoritmo di ottimizzazione viene ripetuto con diversi vocabolari di input e infine i classificatori con le migliori prestazioni vengono scelti. 4 Il linguaggio delle ipotesi di Olex `e originale e, come dimostrato dalla sperimentazione, molto efficace nel produrre classificatori accurati e compatti. Gli esperimenti effettuati su due corpora di benchmark generalmente usati in letteratura al fine di confrontare algoritmi di learning, REUTERS-21578 e OHSUMED , hanno confermato le aspettative sul nostro modello. Infatti, su entrambi i data set, Olex ha prestazioni molto elevate, tra le migliori in letteratura; inoltre, a differenza di altri algoritmi di learning che mancano di interpretabilit`a, Olex ottieneinduce modelli di classificazione che possono essere facilmente letti, compresi e modificati da un essere umano. Le elevate prestazioni ottenute sui data set presi in considerazione mostrano che il paradigma “un letterale positivo, zero o pi`u letterali negativi” `e molto efficace. Intuitivamente, possiamo dire che esso consente di catturare gran parte dei documenti corretti (attraverso il letterale positivo) senza tuttavia commetter troppi errori (grazie ai letterali negativi). A differenza di altri sistemi di learning, Olex `e basato su idee molto semplici e dirette e perci`o fornisce una chiara intuizione del modello alla base del processo di apprendimento. Inoltre, Olex presenta diverse propriet`a desiderabili per l’apprendimento di classificatori: ² `e accurato anche per categorie piccole, cio`e con un basso numero di documenti manualmente associati a esse; ² non richiede tutto l’insieme di termini del training set per l’apprendimento ma, al contrario, lavora bene anche su piccoli vocabolari; ² `e robusto, in quanto mostra un comportamento simile su tutti i data set considerati. Inoltre, grazie al fatto di essere rule-based, Olex consente una semplice integrazione della conoscenza di dominio, racchiusa in thesauri, nel processo di apprendimento. L’utilit`a di tale conoscenza nel processo di learning `e stata sperimentata in Olex su due data set, relativi al settore assicurativo e fornitici da una societ`a americana, la FCSI (Full Capture Solutions, Inc). Questa prima sperimentazione ha mostrato che l’utilizzo di conoscenza di dominio d`a solo un piccolo contributo al miglioramento delle prestazioni dei classificatori prodotti. Tuttavia questo risultato deve ritenersi parziale; uteriori test saranno effettuati per stabilire se questo risultato pu`o essere generalizzato oppure l’utilizzo di tesauri pi`u appropriati possa effettivamente apportare un importante contributo nella classificazione documentale. 5 Infine, il sistema sviluppato supporta l’integrazione dell’approccio manuale nell’ apprendimento automatico di classificatori. Grazie all’interpretabilit`a dei classificatori prodotti, infatti, l’ingegnere della conoscenza pu`o partecipare alla costruzione di un classificatore, specificando un insieme di regole da utilizzare congiuntamente a quelle apprese automaticamente. Pi`u in dettaglio, al fine di supportare un approccio ibrido, il sitema Olex `e stato progettato in maniera tale che i classificatori prodotti automaticamente siano modificabili manualmente. Un’ulteriore funzionalit`a introdotta al fine di sfruttare la conoscenza di dominio `e quella che prevede il completamento automatico di un classificatore scritto manualmente. Questa funzionalit`a consente di: ² scrivere un insieme di regole di classificazione, sulla base delle indicazioni dell’ esperto del dominio, e verificarne l’accuratezza ² chiedere al sistema di completare automaticamente il classificatore manuale al fine di migliorarne l’accuratezza. I risultati sperimentali hanno mostrato che questa cooperazione pu`o avere effettivi sinergici, consentendo di ottenere prestazioni migliori sia rispetto all’approccio manuale che a quello automatico. In sintesi, in questa tesi vengono affrontatele questioni su riportate e in particolare: ² viene definito formalmente il problema del Text Categorization e vengono rivisitati i principali contesti applicativi nei quali sono sfruttate tecniche di questo tipo; ² vengono discussi i metodi e i sistemi di classificazione documentale, al fine di realizzare una valutazione comparativa delle loro peculiarit`a nell’ambito della tematica di interesse; ² viene presentato il sistema Olex; in particolare, dopo aver definito il problema di selezione dei termini discriminanti, che rappresenta il cuore del nostro metodo, viene dimostrato che tale problema `e computazionalmente difficile e viene poposta un’ euristica per la sua soluzione. ² vengono mostrati i risultati sperimentali ottenuti e viene effettuata una valutazione comparativa delle prestazioni del nostro sistema rispetto ad altri sitemi di learning esistenti in letteratura
Description:	Dottorato di Ricerca in Matematica ed Informatica,XX Ciclo,a.a. 2006-2007
URI:	http://hdl.handle.net/10955/505
Appears in Collections:	Dipartimento di Matematica e Informatica - Tesi di Dottorato

Files in This Item:

File	Description	Size	Format
Policicchio Veronica L. - PHD thesis.pdf		675,14 kB	Adobe PDF	View/Open

Show full item record

DSpace JSPUI

DSpace preserves and enables easy and open access to all types of digital content including text, images, moving images, mpegs and data sets