Big Data: facciamo un po’ di chiarezza? Di Anna Pompilio

Anna Pompilio
Anna Pompilio

Otto anni fa iniziava l’avventura del blog #6MEMES, un luogo di conversazione tra tematiche tecnico-scientifiche e temi considerati di tipo umanistico, ispirato alle Lezioni Americane di Calvino.

In questi otto anni molto è cambiato e in maniera sostanziale: la cultura dei dati e del digitale è ormai dominante e i relativi settori di riferimento – comprese le contaminazioni culturali che li riguardano – sono diventati di dominio comune.

Per questo, nel 2022, il progetto #6MEMES ha raggiunto il suo traguardo e salutato i lettori.

Per continuare a seguirci, visita la sezione News e collegati ai nostri canali social:

Il mondo, il nostro mondo, esiste dalla notte dei tempi, ma ogni giorno noi dobbiamo crearlo di nuovo.
Se noi non camminassimo sulla terra, essa non esisterebbe.

Breyten Breytenbach

Nel primo articolo di questa rubrica abbiamo cominciato ad esplorare i problemi legati alla complessità dei dati nelle organizzazioni. In questo secondo post la domanda è invece una sola: cosa è (o cosa non è) Big Data?
Dati (complessi) e Big Data hanno spesso lessico simile, radici comuni, iconografia quasi indistinguibile e rotte di confluenza semantica. Esiste dunque un “rischio di confusione” tra i due insiemi, che se pure dovesse infine sfociare in un approfondimento dei secondi rispetto ai primi non di rado porta a presunzioni del tipo: “le cose che facciamo nella nostra azienda non riguardano i Big Data”.
Una linea di pensiero che implica non solo la perdita di opportunità, di valorizzazione e di crescita dell’azienda o del Gruppo, ma che potrebbe condizionarne la stessa sopravvivenza. Se infatti le tecnologie digitali permettono oggi, a chi si è adeguatamente attrezzato, di prendere decisioni consapevolmente e velocemente, come si può pensare di competere nel mercato di riferimento utilizzando vecchie logiche e strumenti obsoleti? Non dimentichiamo che esistono interi settori della nostra economia il cui lessico comune è Ordine di Servizio .

Del resto l’abbiamo già detto: faremo sempre di più le stesse cose ma in modo diverso. Ma fare le stesse cose in modo diverso non è mai stata faccenda di poco conto.

I fondamenti di un progetto di Big Data

Big data is sexy dice Bernard Marr e in effetti sembrerebbero avere quel certo je ne sais quoi che li rende quasi irresistibili. Se non possiamo ignorarne il fascino e la portata innovativa, è vitale tuttavia interrogarsi sulla reale applicabilità al contesto specifico.

Quali sono dunque gli elementi (minimi) necessari da tenere in considerazione nell’analisi dei potenziali scenari di sviluppo in ambito Big Data, per la nostra organizzazione?

Ne abbiamo individuato due che ne chiariscono l’essenza (l’essenza delle cose, ciò che le cose sono, è costituita dalle proprietà che la caratterizzano) e la forma (l’insieme strutturato dei suoi caratteri essenziali):

  1. Scala. Quando parliamo di Big Data ci riferiamo a una gigantesca mole di dati eterogenei, non strutturati, prodotti da molte sorgenti differenti, le cui caratteristiche primarie sono: volume, velocità, varietà, variabilità, veridicità e complessità. I Big Data offrono dunque (attraverso piattaforme IT che raccolgono, aggregano, analizzano ed estraggono informazioni personalizzabili) la possibilità di accedere ad una serie molto ampia di dati provenienti da fonti diverse, interne ed esterne all’organizzazione (archivi aziendali, database e filesystem, blog  e social media, dati internet delle grandi web company), per l’analisi e il supporto alle decisioni.
  2. Ontologia. L’ontologia racchiude “una schematizzazione concettuale (rappresentazione di un modello di un dominio dato) di natura esplicita e non ambigua, formalmente espressa in un linguaggio conosciuto secondo una conoscenza condivisa”  (Dati, bigdata e città intelligenti. Riflessioni e caso studio per monitoraggi ambientali – Giacomo Chiesa, Dipartimento DAD, Politecnico di Torino).

In una modalità di elaborazione dati “tradizionale” basata su database strutturati, l’ontologia dei dati e delle variabili è fondamentale per poter procedere con l’analisi e il confronto tra le informazioni. È anche indispensabile che i dati siano omogenei e ordinati per poter essere utilizzati e processati. Tuttavia, gli strumenti che operano su grandi dataset non hanno necessariamente bisogno dell’operazione di estrazione, trasferimento e carico dei dati per l’analisi. In altre parole si presume  “che i dati non siano omogenei e ordinati – anzi, si assume che siano troppo ingenti per poterli ripulire prima di processarli” (Mayer-Schönberger and Cukier, 2013).

Non esiste dunque per i Big Data l’ontologia ma molteplici ontologie: a quella tradizionale si può aggiungere ad esempio un’ontologia capace di rappresentare e relazionare tra loro informazioni riguardanti le comunità online (blog, wiki, forum, mailing list, ecc.) oppure di descrivere dati riguardanti le persone e le loro relazioni (anagrafe).

Dal punto di vista IT esistono ontologie (informatiche) standard il cui uso permette di aumentare il livello di interoperabilità semantica – ossia “la capacità di elaborare informazioni da fonti esterne o secondarie senza perdere il reale significato delle informazioni stesse nel processo di elaborazione”.

Uno degli esempi a cui spesso si ricorre quando si parla di Big Data è il caso Wal-Mart che rappresenta una delle best practice più popolari nell’utilizzo di questi ultimi. Wal-Mart è la più grande catena di distribuzione di beni di consumo del mondo, nonché la prima azienda della classifica di Fortune 500. Ogni ora colleziona dati relativi a circa un milione di transazioni commerciali e li relaziona a fattori quali tempo, luogo, combinazione nel carrello, disponibilità a magazzino, frequenza di acquisto, etc. Se un cliente ha acquistato in passato un barbecue e spesso compra prodotti accessori, molto probabilmente sarà interessato ad articoli non ancora acquistati. Analizzando la disponibilità a magazzino, le informazioni meteo, i dati di localizzazione degli smartphone etc., il sistema invierà dei buoni per invogliare il cliente all’acquisto, ma solo se possiede un barbecue, il tempo nel weekend sarà bello e si trova in un raggio di tre miglia dal negozio..

Gli esempi possono essere tuttavia infiniti, così come le possibili applicazioni ma estrarre il valore tangibile dai Big Data è possibile solo a patto che l’azienda si sia fatta prima (senza psichismi) le domande giuste, quelle rispondenti alle logiche di Business (è già cliente? ha acquistato un barbecue?), e che si continui  anche dopo (ci sarà il sole nel weekend?), in un processo iterativo che porta all’esplorazione dinamica dei nodi di conoscenza via via che le informazioni si rendono disponibili.  (Nel 2013 Walmart scoprì che prima di un uragano le vendite delle strawberry pop-tarts aumentavano del 700% e da allora, se il meteo minaccia tormenta, le strawberry pop-tarts vengono spostate vicino alle casse, per dire).

Qualcuno potrebbe ancora chiedersi, giunti a questo punto, ma qual è il vero elemento di novità relativamente ai Big Data?

La migliore risposta, finora, mi pare di intravederla nelle parole dello scienziato Alessandro Curioni : “quello dei Big Data non è un metodo ma un approccio alla ricerca. Certo, servono le ontologie giuste, servono scienziati esperti in grado di costruire le mappe in modo da suggerire alcune dinamiche di base. Ma la qualità della ricerca prima che nella capacità di elaborare ipotesi si concretizza nella formulazione delle domande. Proprio per questo, i big data oggi sono prima di tutto un approccio alla conoscenza.

Dunque – ce lo insegna in primo luogo la semantica – si può descrivere un concetto anche a partire dal confine che lo distingue dall’orizzonte di significati e significanti che lo circondano, identificando in primo luogo ciò che non è, e da lì partire per successive inferenze. A proposito: nemmeno l’informatica e le scienze legate all’innovazione tecnologica sono esenti da questo semplice (all’apparenza) postulato.

Ma per alleggerire un po’ il registro della nostra conversazione, vorrei portare un altro esempio, che potrà sembrare fuori tema, e invece non lo è. Si tratta di un aneddoto. 😉

La storia è questa: ero alla Basilica di Massenzio per il Festival delle letterature 2016 per festeggiare il 100° libro di Camilleri (L’altro capo del filo) e sul palco ad omaggiarlo c’erano Lella Costa e Renzo Arbore che ha raccontato diversi aneddoti divertenti legati al suo lavoro, tra cui un episodio esilarante che coinvolgeva Mario Marenco, attore, umorista, architetto e designer italiano.
Durante la trasmissione radiofonica “Alto gradimento”, raccontava Arbore ancora divertito dal ricordo, si decide di affidare a Marenco un ennesimo personaggio, un micologo. Arbore e Boncompagni pensano che la sua passione nell’inventare termini in latino sia ideale per i nomi dei funghi. Marenco arriva al momento di andare in onda, senza aver preparato nulla, ed esordisce con: “allora per prima cosa distinguiamo tra funghi e non funghi. Sono non funghi: la sedia, l’automobile, la libertà, la lavatrice, il cavallo…” :-). Sono andati avanti per una settimana, e senza mai dire – e intendo MAI – il nome di un solo fungo. Nemmeno il più piccolo fungo del mondo.
Senza arrivare a un tale paradosso, parlando di Big Data, si può anche partire dall’approccio apofatico alla Marenco: cosa NON è Big Data?
Mettiamola così: se NON sono presenti neanche i due elementi descritti all’inizio, allora potrebbero NON essere Big Data (magari potrebbero essere funghi?). Ma quello che è certo è che non basta la richiesta ai Sistemi Informativi aziendali di un’installazione di Hadoop o la sostituzione di una soluzione SQL con una NoSQL per definire un progetto “in ambito Big Data”.
Prendiamo appunti. Per il prossimo articolo!

Anna Pompilio

Per saperne di più


www.ap-institute.com
www.dataskills.it
http://nova.ilsole24ore.com
https://it.wikipedia.org
www.linkedin.com
www.dezyre.com
http://bridg.com