I preziosi dati “sporchi”

big data L’analisi dei dati e delle informazioni che per esempio provengono dalle molteplici attività fatte online, attraverso il proprio computer e/o device mobile, consente alle imprese di conoscere in modo più approfondito i propri utenti e di poter quindi offrire loro soluzioni quali servizi e prodotti disegnati su reali esigenze e potendo perfino prevedere le stesse. Anche questa mole di dati può essere definita big data, fermo restando che è piuttosto complicato definire con precisione cosa siano o cosa non siano i big data.

La prima evidenza è che affinché i “data” possano essere definiti “big” è necessario si parli di un “certo” volume. Volume, varietà, velocità e veridicità, sono le quattro V che generalmente identificano i big data. Nel caso della “veridicità” dei dati, ci si riferisce alla loro attendibilità, ossia i dati non dovrebbero scaturire da errori di misurazione (GIGO garbage in garbage out) e quindi dovrebbero essere affidabili e di qualità.

Tuttavia è necessario dire che anche i dati apparentemente non affidabili possono, in determinate circostanze, certo, essere presi come riferimento assolutamente utile per l’analisi. Sono i cosiddetti dati “sporchi”, che per esempio hanno permesso al traduttore di Google di diventare uno strumento altamente affidabile, nonostante la sua giovane età, 10 anni ad aprile.
Il traduttore di Google viene utilizzato da oltre 500 milioni di persone, ogni giorno traduce circa 100 miliardi di parole e conta oltre 4 milioni di download come applicazione mobile (Android). Cifre che producono, come si può immaginare, dati consistenti, che Google utilizza e ha utilizzato nel modo migliore, non limitandosi ad accogliere solo dati di qualità. Google ha, infatti, utilizzato anche dati “sporchi”, ha usato, per esempio, anche gli errori di digitazione fatti dagli utenti e, diversamente dai primi traduttori che utilizzavano libri e testi con una qualità di scrittura elevata, Big G ha incluso nella raccolta di dati anche quelli provenienti da blog e articoli di minor spessore culturale.

Applicare questo “modus pensandi” all’analisi dei dati in generale, pensiamo anche ai dati prodotti dalla web analytics, può aiutarci a tracciare un quadro potenzialmente più esaustivo e non solo perché lo ha fatto e lo fa Google, (cosa che già può dire molto) ma perché ha una sua intrinseca logica.
Pensiamo, tornando alla web analytics, al fatto che utilizzando Google Analytics abbiamo la possibilità, per esempio, di escludere il traffico interno, rimuovere dalla visualizzazione i referral spam, isolare il traffico di un sottodominio. Sono però tutte informazioni che Google mette a nostra disposizione e che noi, liberamente, possiamo decidere di prendere o meno in considerazione, traendone eventuali indicazioni utili.

Articoli correlati