Ieri sono stato da un cliente. Questa azienda produce macchinari e ognuna di queste macchine produce dati… così tanti dati che parlare di Big Data non è fuori luogo in questo caso.

Stiamo parlando di una specie di inondazione che sta creando non pochi problemi e volevo fare un paio di considerazioni in proposito.

Molti dati

Mano a mano che l’azienda in questione ha venduto queste nuove macchine, ha iniziato a raccogliere dati e i problemi sono iniziati, prima era un rivolo di dati ma poi man mano che il tempo è passato è diventato un fiume in piena! Ora, dati prodotti sono così tanti che alla fine si stanno salvando in modo grezzo e si sta cercando una soluzione per poterli gestire (anche in vista della futura crescita). Solo per il log degli errori (alert di macchine mal configurate o malfunzionamenti), si parla di diversi Gigabyte al giorno! I web server deputati a questa attività di raccolta e stoccaggio dei dati stanno aumentando e con essi un altro problema da gestire.

La massa di dati raccolti é tale che, a parte un tool per gestire alcuni tipi di chiamate di assistenza non sono riusciti a fare molto di più. Questo perché l’azienda in questione aveva skill e conoscenze solo in ambiti tradizionali ed é partita da li…

juku-unplugged-post-banner

Le soluzioni

Alla fine i DB tradizionali sono stati abbandonati, sia per capacità che per costi, e ora la ricerca sta andando verso nuovi lidi… primo fra tutti NoSQL.
Certo, non esiste una sola soluzione al problema, anche tool come Splunk, tanto per fare un esempio, portano dei risultati incredibili con poco sforzo e sono integrabili con molti altri tool. Esistono anche tool che fanno questo lavoro sul cloud (es. Sumologic) evitando quindi di dovere mantenere una infrastruttura specifica che, nel tempo, può solo crescere.
Anche durante il mio ultimo viaggio in Silicon Valley ho incontrato due aziende (MarkLogic e Cloudera) che fanno tool particolarmente innovativi e che permettono di creare sistemi relativamente economici con cui poter fare query su miliardi di record con tempi strabilianti.

Ritorniamo alla questione iniziale

In particolare, proprio durante l’incontro che ho avuto con MarkLogic, è stata mostrata la slide che c’è qui sotto.
Screen Shot 2013-07-19 at 11.48.28
Nella slide è rappresentato la quantità di dati gestiti in maniera gerarchica (dove primeggiava IBM), in maniera relazionale (dove Oracle l’ha fa da padrone), e il resto (dati che non hanno una struttura specifica)… il cerchio grigio è molto più grande degli altri due (e forse qui è anche sottostimato).

Questa dovrebbe proprio far capire le potenziali quantità di dati che andremo a gestire nei prossimi anni. Non solo questo, i dati sono i mille forme diverse: il relazionale è una piccola porzione di come si possono presentare/organizzare i dati e non può dare risposte su dati semi-strutturati o non strutturati. In particolare, soprattuto quando si fa riferimento a grandi numeri, generati da migliaia di sorgenti diverse, non è detto infatti che i dati che riceviamo siano puliti e organizzati come noi li desideriamo.

Ultimo, ma non ultimo, c’è il problema di come e quali di questi dati verranno usati per scopi anche molto diversi fra loro nel tempo. Le relazioni che esistono fra i dati salvati possono essere molto diverse fra di loro e devono essere quasi sempre create dopo aver salvato il dato.

A prima vista questi problemi possono sembrare complicati da risolvere ma, se lo strumento è quello giusto, sono semplici da gestire. Sicuramente più semplici da gestire che con uno strumento più tradizionale.

Skill diversi ma non troppo

Il lavoro che è necessario per scovare le informazioni necessarie e per far girare meglio il business può essere immane. Una delle figure professionali più nuove e interessanti del settore è quella del Data Scientist.
Spesso il primo approccio al Big Data può far veramente paura proprio per la necessità di dover coinvolgere persone costose e che spesso parlano una lingua quasi incomprensibile per un normale mortale… In realtà però ho scoperto che spesso, se i tool che si scelgono non sono particolarmente complessi, non è tanto il Data Scientist a fare la differenza quanto qualcuno che, all’interno dell’azienda, conosce bene i processi di business e i dati a disposizione. Il passo per correlare tutti questi dati e trovare informazioni utili per il business non è complicato.

Proprio in Silicon Valley, patria del Data Scientist (!?), qualcuno mi ha detto che oggi in molte aziende si usa ancora Excel per fare valutazioni anche complesse ma con pochi dati: se lo strumento che si ha disposizione non è particolarmente complesso da implementare ed è possibile sperimentare (come si fa con Excel sul proprio PC) sarà possibile quindi fare lo stesso tipo di valutazioni ma con molti più dati e quindi molto più precise o tenendo conto di molte più variabili.
Spesso il problema della sperimentazione è dato dal fatto che se per lanciare una query ci metti 4 ore invece che 30 secondi, e blocchi anche l’operatività dell’ERP, la query non la puoi lanciare e gli esperimenti non li fai…

Nota finale

Ok, l’argomento è complesso e un articolo come questo ha solo l’obiettivo di dire che ci sono strumenti nuovi, innovativi e che sono stati pensati per fare proprio questo mestiere. Ne ho menzionati solo alcuni ma ne stanno nascendo tanti e alcuni sono veramente incredibilmente semplici da usare.

Spesso, soprattutto per le aziende Italiane in questo periodo, si preferisce non fare investimenti o stare sulla strada conosciuta per non rischiare troppo… d’altro canto sarebbe meglio guardarsi intorno e proprio con l’occasione della crisi cercare vie nuove per dare strumenti più agili ed elastici a chi ha necessità di informazioni per far crescere il business… nella maggior parte dei casi è solo l’ignoranza a fermare l’innovazione.