Please use this identifier to cite or link to this item: https://hdl.handle.net/10955/5471
Title: Mining and learning problems in complex graph data
Authors: Mandaglio, Domenico
Crupi, Felice
Greco, Sergio
Tagarelli, Andrea
Keywords: Graph mining
Complex networks
graph clustering
Community detection
Trust network
Issue Date: 10-May-2021
Publisher: Università della Calabria
Series/Report no.: ING-INF/05;
Abstract: I grafi sono modelli matematici che rappresentano oggetti, chiamati nodi o vertici, coinvolti in relazioni a coppia, detti archi. Tali modelli vengono impiegati per descrivere sistemi interconnessi tra cui reti tecnologiche (es. il World Wide Web), reti sociali e biologiche. A partire dal modello originario dei grafi, diverse estensioni del modello sono state proposte in letteratura: grafi pesati, multidimensionali, temporali e probabilistici permettono di esprimere, rispettivamente, l’intensità associata a ogni arco, rappresentare diverse tipologie di relazioni tra vertici, includere informazioni su quando le interazioni tra nodi avvengono, e assegnare a ogni possibile peso sugli archi la probabilità di osservare quello specifico peso. Lo scopo di questa tesi è definire modelli e metodi per problemi di mining e learning di relazioni forti e nascoste tra nodi su grafi complessi. In particolare, il focus di questo progetto di ricerca è la scoperta di relazioni a coppia come associazioni di gruppo e relazioni di trust. Il primo obiettivo consiste nel partizionare l’insieme dei nodi di un grafo in gruppi (detti cluster o community) tali che i nodi appartenenti allo stesso gruppo siano collegati più fortemente tra di loro rispetto che con il resto della rete. Questo obiettivo è anche noto in letteratura come graph clustering o community detection. Le community (o cluster) sono gruppi di entità che probabilmente condividono delle proprietà e/o hanno un ruolo simile all’interno del sistema a cui appartengono. Le relazioni di trust vengono tipicamente modellate attraverso un grafo pesato, detto rete di trust, che si riferisce a un grafo di individui collegati da relazioni di coppia asimmetriche corrispondenti a espressioni soggettive di fiducia, dove il peso associato a ogni arco viene interpretato come il grado di fiducia che un utente ha nei confronti di un altro individuo. Ogni modello di rappresentazione a grafo, indipendentemente dalla sua natura, permette di descrivere in diversi modi l’intrinseca natura multiforme dei sistemi reali che deve essere tenuta in considerazione quando si intende identificare relazioni tra i nodi come quelle di gruppo o di trust. Questo implica la necessità di un processo di aggregazione di informazioni che permette di considerare simultaneamente i diversi aspetti del sistema rappresentato. Tuttavia, l’aggregazione dei diversi aspetti di un sistema pone alcune problematiche aggiuntive al task considerato poiché le diverse dimensioni dei dati potrebbero essere inconsistenti tra di loro o l’informazione relativa a un qualche aspetto potrebbe rappresentare rumore per il raggiungimento dell’obiettivo prefissato. L’abbondanza e diversità di dati rappresentabili attraverso grafi che può essere estratta da sistemi online (es. il Web) o offline (es. interazioni sociali) favorisce la necessità di nuovi modelli e metodi che siano capaci di tenere in considerazione efficacemente l’eterogeneità nella tipologia di informazioni nella scoperta di pattern nel comportamento di entità appartenenti a un sistema complesso. Più specificatamente, quattro sono i temi di ricerca che possono essere indentificati in questa tesi. Primo, è stato studiato il problema di consensus community detection su reti multidimensionali: dato un insieme di partizionamenti dei nodi di una rete, ciascuno calcolato considerando separatamente una dimensione del grafo multidimensionale, trovare un nuovo partizionamento dei nodi (detto consensus clustering) che sia rappresentativo e, allo stesso tempo, filtri l’eventuale rumore dei vari partizionamenti in input. Come seconda linea di ricerca, è stato trattato il problema di consensus community detection dinamico su grafi temporali che consiste nel calcolare, per ogni stato di evoluzione di una rete, un consensus clustering che sia rappresentativo degli stati precedentemente osservati sulla rete e, quindi, rispecchi la sequenza delle strutture a community nei vari istanti di tempo. Chiaramente, la natura temporale di questo secondo problema pone alcune sfide aggiuntive nella sua risoluzione poiché i vari partizionamenti sono disponibili e devono essere processati in modo incrementale; inoltre, vi è il requisito che bisogna opportunamente pesare le informazioni sugli stati nella rete in modo da dare maggior rilievo agli stati più recenti piuttosto che quelli più remoti. Inoltre, la dimensione temporale delle interazioni tra utenti di una rete sociale può aiutare a inferire una rete di trust. Quest’ultimo obiettivo corrisponde alla terza linea di ricerca di questa tesi che ha come obiettivo la risoluzione del seguente problema: data una sequenza di grafi pesati corrispondenti agli stati di una rete in diversi istanti di tempo, derivare un grafo pesato e orientato, i cui nodi corrispondono alle entità del grafo temporale e gli archi rappresentano le relazioni di trust con associato grado di fiducia. Come quarta linea di ricerca è stato studiato un nuovo problema di clustering su grafi probabilistici in cui le interazioni tra i nodi sono caratterizzate da distribuzioni di probabilità e condizionate da fattori esterni ai nodi ma caratteristici dell’ambiente in cui interagiscono. Questo contesto include ogni scenario in cui una serie di azioni possono alterare le interazioni tra entità tra cui, ad esempio, i sistemi di raccomandazione su piattaforme di social media e task di team formation. In particolare, è stato considerato il caso in cui i fattori condizionanti le interazioni possono essere modellati attraverso un clustering dei nodi del grafo e l’obiettivo è trovare il clustering che massimizza l’interazione totale nel grafo. Per ciascuna linea di ricerca sono stati proposti degli algoritmi che sono stati confrontati, su dati reali e/o generati artificialmente, con lo stato dell’arte dei rispettivi problemi al fine di valutarne sia l’efficacia che l’efficienza.
Description: Dottorato di Ricerca in Information and Communication Technologies. CICLO XXXIII
URI: https://hdl.handle.net/10955/5471
Appears in Collections:Dipartimento di Ingegneria Informatica, Modellistica, Elettronica e Sistemistica - Tesi di Dottorato

Files in This Item:
File Description SizeFormat 
tesi Mandaglio.pdf4,64 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.