Facile Data Mining

Benvenuti sul nostro sito internet.
Il data mining è una disciplina molto recente, non ancora ben definita e soprattutto che non ha ancora delle procedure standardizzate. Tuttavia per i prossimi anni si prevede un interesse sempre maggiore da parte di ricercatori verso questa area: numerosi problemi emergono con l’aumentare della quantità delle informazioni, in particolare quelle disponibili sul web: per risolvere queste problematiche si rende sempre più necessario l’utilizzo delle nuove tecniche del data mining. In questo sito affronteremo gli argomenti in maniera facile, per principianti o esperti.

INTRODUZIONE PANORAMICA



  • Il ciclo di vita del data mining

  • Il Data Warehouse e i Data Mart

  • Condotta ottimale del visitatore generico del sito

  • Esempio di struttura di un sito con relativi collegamenti

Il ciclo di vita del Data Mining

Il data-mining è un processo, e non una semplice applicazione di software e tool statistici ai dati di partenza. Tale processo è iterativo, in quanto alcune delle fasi, e talvolta l’intero processo, vengono ripetute più di una volta prima di considerare concluse tutte le analisi. In particolare le tecniche di data cleansing e di pre-trattamento dei dati intervengono a diversi livelli del ciclo KDD, come nella formazione del data warehouse o nel mezzo delle analisi di data mining

Data Warehouse e Data Mart

Il data warehouse è costituito unendo diversi database tematici, o data mart, inizialmente non collegati, costruendo una struttura di integrazione. In ogni caso i dati del data warehouse possono essere collezionati con diverse applicazioni e diversi standard, ma esso deve ricodificare questi standard in maniera che essi siano perfettamente integrati e dialoghino in modo univoco

Condotta Ottimale del Visitatore

Nell'analisi della condotta ottimale di un generico visitatore del sito web è necessario osservare congiuntamente sia i tassi di microconversione delle visite che i tassi di abbandono delle pagine. Un’analisi di questo tipo può aiutare nella riprogettazione del sito e del catalogo dei prodotti offerti, aumentando l’efficacia generale del sito e il profitto dell’azienda.

Introduzione

L’insieme delle informazioni prodotte dalla società contemporanea cresce in maniera sempre più rapida. Una gran parte di queste informazioni ha la potenzialità di ricoprire un ruolo strategico nel campo del business e di essere utilizzata per finalità commerciali dalle aziende. Tuttavia le tecniche tradizionali di conservazione ed elaborazione dei dati appaiono incapaci di gestire con successo una mole di dati di dimensioni troppo estese. Il data mining è una disciplina che si sta affermando negli ultimi anni e che è in grado di offrire adeguati strumenti per analisi basate su grandi masse di dati. Una caratteristica di questa disciplina è che, al crescere del numero delle informazioni a disposizione, riesce a scoprire nuova conoscenza e nuove informazioni, con dei metodi rapidi ed innovativi. Il data mining non può essere considerata come una scienza a parte, ma una branca che utilizza strumenti di discipline già esistenti come le scienze statistiche, l’informatica, il marketing. La differenza sta nella quantità dei dati da elaborare nelle analisi, e dalla tendenza a scoprire, a partire da essi, relazioni, regolarità e caratteristiche non conoscibili a priori. Infine tutte le analisi del data mining hanno una finalità ben precisa, ossia quella di produrre informazioni di stretta utilità economica per il management dell’azienda che le ha commissionate. Il world wide web è uno dei luoghi dove le informazioni prodotti dalla nostra società hanno lo sviluppo più rapido, in termini di dimensioni. Le aziende hanno subito intuito il potenziale economico di tali informazioni e hanno cercato di utilizzarle per i propri fini commerciali. Un esempio è quello delle aziende che vendono prodotti direttamente on-line, che possono massimizzare il proprio profitto conoscendo il maggior numero possibile di informazioni sui propri clienti. Accanto ai dati raccolti in maniera diretta, ad esempio tramite intervista telefonica o questionari on-line, si possono raccogliere nuove informazioni sui clienti anche in maniera indiretta, ad esempio osservando le pagine visitate da essi o i prodotti acquistati in un periodo di riferimento. Vi sono tutte le premesse per utilizzare delle tecniche di data mining orientate al web, ossia quelle oggetto di studio del web-mining. Una volta conosciute da vicino le caratteristiche di questa disciplina si applicheranno le metodologie descritte su un caso di studio reale. Si analizzerà una gran mole di dati, prodotti dalla condotta degli utenti che navigano un sito web, al fine di suggerire decisioni strategiche da suggerire all’azienda per migliorare la propria immagine on-line e per incrementare il suo profitto.



Panoramica del Data Mining

La società in cui viviamo è spesso definita la società dell’informazione. Una gran mole di dati, crescente in maniera esponenziale anno dopo anno, è a disposizione di ogni individuo e di ogni organizzazione: questi dati costituiscono un potenziale fattore di sviluppo in tutti i campi, dall’economia alla scienza e all’ingegneria. Nel mondo degli affari i dati aziendali e dei clienti sono un’essenziale fonte di strategie finanziarie: per questo motivo negli ultimi anni sono state dedicate enormi risorse nel collezionare e conservare informazioni. In realtà fino ad ora non si è sfruttato tutto il potenziale di questi dati per diversi motivi: ad esempio essi sono stati spesso archiviati senza tenere conto delle finalità per i quali erano stati raccolti. Attualmente però lo sviluppo della tecnologia nell’informazione e della ricerca metodologica riesce a fronteggiare tali necessità: gli strumenti hardware e software più evoluti permettono di raccogliere ed organizzare i dati in modo che essi siano più direttamente fruibili, mentre gli sviluppi nei settori sia dell’informatica che della statistica permettono di avere procedure flessibili e scalabili che siano in grado di analizzare grandi basi di dati e ricavarne da essi sintesi efficaci e informazioni rilevanti. Alcuni autori definiscono il data mining come quella disciplina che è in grado di processare e ricavare informazioni da questa grande massa di dati (Kantardzic, 2003). Altri prendono in maggiore considerazione le finalità di business del data mining (Giudici, 2001). In quest’ottica lo scopo è quello di utilizzare tutte le risorse statistiche, informatiche, di marketing, ecc., affiancandole ai processi decisionali, per ricavare dai dati dei risultati da utilizzare per il supporto di decisioni aziendali. Proponiamo una definizione di data mining che tenga conto sia delle caratteristiche delle sue procedure sia delle finalità delle stesse.
il Data mining è un processo di descrizione, selezione, sintesi di una grande massa di dati, per scoprire in essi delle regolarità o delle relazioni non evidenti a priori, con lo scopo di ottenere un risultato rilevante a fini aziendali o di business.
Il data mining è una disciplina molto recente, non ancora ben definita e soprattutto che non ha ancora delle procedure standardizzate. Tuttavia per i prossimi anni si prevede un interesse sempre maggiore da parte di ricercatori verso questa area: numerosi problemi emergono con l’aumentare della quantità delle informazioni, in particolare quelle disponibili sul web: per risolvere queste problematiche si rende sempre più necessario l’utilizzo delle nuove tecniche del data mining.



Data Mining, Statistica e Informatica

Un’importante caratteristica del data mining è che le finalità delle analisi devono essere rilevanti dal punto di vista dei risultati economici ottenuti attraverso esse. Ciò impone che siano utilizzate metodologie di analisi non sempre disponibili in ambito statistico. Un altro tratto distintivo è che, attraverso il data mining, si cerca di ottenere dai dati, di natura strettamente osservazionale, informazioni precedentemente sconosciute (approccio esplorativo); i metodi statistici tradizionali all’opposto mirano a confermare fatti già ipotizzati o conosciuti, utilizzando per questo fine anche dati di natura sperimentale (Giudici, 2001). Con le tecniche di data mining si analizza una grande massa di dati: le applicazioni statistiche classiche falliscono nel tentativo di accedere a magazzini di dati così estesi e nell’essere informativi nell’analisi di essi. Si rende necessario l’utilizzo di nuove procedure statistiche ma anche informatiche, che tengano conto degli obiettivi aziendali anche nelle fasi di campionamento e ridimensionamento dei dati. Anticipiamo che un dato scartato dalle ipotesi statistiche tradizionali può rivelarsi un’informazione strategica essenziale, se valutato dal data mining. Viceversa senza misure statistiche appropriate un’estrazione di informazioni da un database non sarebbe basata su criteri oggettivi, tali cioè da permettere di valutare con rigore e razionalità la validità di una decisione presa. Anche per questo motivo il data mining è qualcosa in più di un data retrieval, ovvero di quell’attività che cerca di estrarre dai dati informazioni secondo criteri determinati a priori. Per gli obiettivi del data mining gli strumenti di query (richiesta di specifiche informazioni da un database) e di reportistica non sono esaustivi: riescono ad organizzare i dati aziendali e a recuperare determinate informazioni richieste ma non le informazioni strategiche non note a priori che il data mining riesce a “scavare” all’interno dei dati. L’SQL(il linguaggio di query strutturato che rappresenta uno standard dei database relazionali) è utile quando sappiamo esattamente cosa cercare dai dati e vogliamo descrivere quel qualcosa in maniera formale. I metodi di data-mining sono utilizzati quando sappiamo solo vagamente cosa cercare tra i dati. In definitiva le tecnologie dei database e delle query sono essenziali soprattutto per organizzare e ripulire i dati che saranno utilizzati nel data mining. Un altro importante strumento del business inteligence è l’Olap
l’OLAP (On-Line Analytical Processing) è uno strumento di tipo prevalentemente grafico che permette di visualizzare le relazioni multidimensionali delle variabili del database aziendale.
Tramite l’OLAP riusciamo a comprendere meglio le relazioni presenti nei nostri dati rispetto agli strumenti di query e di reporting e tramite un’analisi grafica avanzata riusciamo ad avere indicazioni sulla validità delle ipotesi fatte sulle relazioni tra le variabili. L’OLAP dunque assume un ruolo complementare alle altre tecniche di data mining soprattutto nelle fasi preliminari del lavoro, quando si evidenziano le relazioni tra le variabili più importanti a disposizione. Tuttavia nelle fasi successive, con il numero di variabili che cresce a dismisura, si renderanno necessarie ulteriori strategie. Inoltre l’OLAP è efficace nel dare risposte che derivano dai dati in esame ma non “apprendono” dai dati, non creano nuova conoscenza (Kantardzic, 2003). Infine esistono tecniche prettamente informatiche al supporto del data mining: le tecniche di calcolo parallelo permettono di velocizzare i processi di data mining per data set di larga scala, e l’infrastruttura del network-computing permette l’utilizzo di tecnologie “a distanza” o di data mining distribuito. L’OLAP, l’sql, le tecniche statistiche tradizionali possono essere utili al data-mining ma non sostituirlo. In conclusione ribadiamo il concetto che il data mining è una disciplina in evoluzione, non ancora formalizzata e dai confini spesso indefiniti, che coinvolge strumenti diversi fra loro e li utilizza sinergicamente per raggiungere dei traguardi rilevanti in termini di ritorno economico per l’azienda (Giudici, 2002).