A scuola di Big Data: i Dati dalla A alla Z

mapsgroup

mapsgroup

Mapsgroup

Quando ci si avvicina per la prima volta a una lingua o un linguaggio, uno strumento che non può mancare come ausilio – e a volte anche come “coperta di Linus” – è il vocabolario, edito e consultabile in ogni sua forma: completo, tascabile, online, on demand…
Tra le sue pagine, virtuali o meno che siano, facilmente andremo alla ricerca di sostantivi. Unità minima di comprensione e traduzione, i nomi comuni sono infatti i primi punti di riferimento che servono al lettore per orientarsi nella comprensione del testo e del linguaggio in genere, dopodiché l’apprendimento inizia, seppure faticosamente. Ogni volta in cui un vocabolo è compreso e memorizzato, questo funge da punto di partenza per un secondo step di apprendimento e così via, andando mano a mano a comporre reti di relazioni semantiche e sintattiche sempre più complesse.

Lo stesso discorso vale per i linguaggi di tipo “tecnico”, in cui acronimi o termini obbiettivamente astrusi possono essere un potente ostacolo iniziale alla comprensione di un testo, minandone fin dall’inizio l’interesse a capirne di più.
Parlando di Dati in ogni loro forma e declinazione, abbiamo così pensato di fornire al lettore, pronto all’uso, un piccolo glossario dei principali termini tecnici e specifici che compongono questo strano universo.

Buona… ri-traduzione!!!

approfondimenti

Algoritmo: descrizione di un procedimento che può essere utilizzato per analizzare dei dati mediante un numero finito di passi elementari. Tale procedimento è normalmente guidato da un software, che effettua calcoli matematici ed altre operazioni che servono per automatizzare la risoluzione di formule matematiche o statistiche.

Amazon Web Services: collezione di servizi Cloud resi disponibili da Amazon (il celebre sito di ecommerce). L’obiettivo di questi servizi è quello di rendere disponibile, anche alle piccole aziende, un’enorme potenza di calcolo tale da permettere loro di affrontare anche i progetti di tipo Big Data. In sostanza tale potenza di calcolo può essere noleggiata, anche per periodi di tempo molto brevi, senza dover affrontare costi significativi per acquistare un’infrastruttura IT dedicata.

Analytics: processo di acquisizione, elaborazione ed analisi dei dati che serve per generate informazioni utili ai processi decisionali.

Big Table: servizio di archiviazione dati di Google che può essere utilizzato per ospitare dei BigData. Tale possibilità è offerta grazie all’infrastruttura Cloud di Google denominata App Engine. Questo strumento di archiviazione è lo stesso utilizzato da alcuni famosi servizi come Gmail, Google Earth e Youtube.

Cassandra: celebre database open source realizzato dalla Apache Software Foundation. E’ particolarmente adatto per gestire grandi volumi di dati ospitati su più server connessi tra loro.
L’approccio di Cassandra è quello di favorire l’utilizzo di tanti server a basso costo, piuttosto che pochi server ad alto costo.

Cloud: paradigma di erogazione di servizi di archiviazione, di elaborazione e di connettività tale per cui delle risorse IT vengono rese disponibili, in modo condiviso, a più utenti o aziende. L’impiego delle risorse di elaborazione può essere incrementato o diminuito con elevata flessibilità e tempestività. In questo modo il costo di utilizzo di un’infrastruttura IT viene ottimizzato in funzione delle effettive esigenze.

Distributed File System (File system distribuito): sistema di archiviazione dati progettato per rendere accessibili dei dati, ospitati su dei server remoti, come se fossero presenti sul computer locale. Un Distributed File System è spesso necessario per diminuire i costi e la complessità di archiviare dati, in un progetto di tipo BigData.

Data Scientist: figura professionale che ha il compito di estrarre informazioni rilevanti dai dati. Tipicamente ha delle competenze in informatica, matematica, statistica, visualizzazione dati. A queste si possono poi affiancare specifiche abilità in comunicazione e strategie di business.

Dati strutturati e non strutturati: i dati strutturati sono quelli che è possibile organizzare in tabelle e sui quali è possibile creare delle relazioni. I dati non strutturati sono quei dati che non seguono schemi o relazioni predefinite; alcuni esempi di dati non strutturati sono: i messaggi email, un post di un blog, un commento in un social network, un’immagine o il file contenente la registrazione del parlato.

Gamification: tecnica con cui si trasforma in gioco ciò che normalmente non lo è. Nel mondo dei Big Data, con tecniche di “gamification”, vengono incentivate le azioni di raccolta dati.

Google App Engine:  piattaforma cloud di proprietà di Google con la quale, le aziende, possono sviluppare dei propri software che gireranno sui server di Google. Al contrario per quello che accade con Amazon, i servizi cloud di Google rimangono gratuiti per piccoli progetti.

HANA (High Performance Analytical Application): piattaforma hardware e software di SAP, progettata per trattare alti volumi di transazioni ed effettuare elaborazioni analitiche molto efficienti.

Hadoop: software della Apache Software Foundation, la prestigiosa comunità open source. Si tratta di una delle piattaforme software più note per l’elaborazione ed il trattamento di Big Data. Hadoop utilizza architetture di elaborazione altamente distribuite (magari con l’utilizzo di hardware a basso costo), per archiviare, ricercare ed analizzare insiemi di dati molto ampi.

Internet delle cose (Internet of things): con questo termine si identificano le situazioni in cui degli oggetti (anche di uso quotidiano), trasmettono informazioni sul loro stato di funzionamento in modo da incrementare la loro utilità.

MapReduce: algoritmi software che suddividono grossi seti di dati, in tanti piccoli blocchi, ognuno dei quali può essere trattato da una singola unità di elaborazione. L’attività di tale algoritmo si divide in due: in una prima fase l’elaborazione viene suddivisa e trasmessa alle varie unità di elaborazione (fase di map), nella seconda fase i risultati delle singole elaborazioni vengono raccolti in modo da formare un output unico (fase reduce).

Natural Language Processing: con questo termine si indica una categoria di software in grado di interpretare il parlato o il testo scritto di una persona. L’obitettivo è quello di migliorare l’interazione uomo-macchina aumentando le capacità di quest’ultima di comprendere le forme espressive, in termini di linguaggio, dell’uomo.

NoSQL: software che si occupano dell’archiviazione di dati, senza ricorrere alle comuni forme di rappresentazione di tipo relazionale. Sono sistemi particolarmente adatti per archiviare grossi volumi di dati, che non devono essere categorizzati a priori secondo degli schemi definiti.

Predictive Analysis: algoritmi per trattare dati con l’obiettivo di individuare dei trend o eventi futuri.

R: software open source molto popolare utilizzato per fare elaborazioni analitiche su dei dati.

RFID (Radio Frequency Identification):  tecnologia utile per localizzare, tracciare, identificare degli oggetti in uno specifico processo. Tale tecnologia si basa sull’utilizzo di specifici tags che sono dei minuscoli processori che possono essere fisicamente abbinati a prodotti, persone, veicoli etc. Tali tags possono essere rilevati ed identificati con apposite antenne. La loro rilevazione è in grado di fornirci delle informazioni sulla posizione e sullo stato dell’oggetto al quale è abbinato il tag.

Software as a Service (SAAS): con questo termine si identifica la fruizione dei servizi di uno specifico software mediante la Rete. Il software è infatti installato in un data center remoto (o sua una piattaforma cloud) e gli utenti vi accedono mediante browser o sistemi analoghi. Tale modalità di fruizione ha modificato anche la modalità con cui ci si approvigiona del software: è infatti tipico remunerare l’utilizzo di un software in SAAS in funzione del tempo o dell’intensità di utilizzo dello stesso.