Cosa diavolo è la Scienza dei dati (aka Data Science)?

Alla ricerca di una definizione utile

Tradotto da Felice Rocchitelli dall’articolo originale di Cassie Kozyrkov

Ecco un modestissimo tentativo di sintesi: “la Scienza dei dati è l’arte del fornire un’utilità ai dati.” Sentiti libero di fuggire o immergiti in un tour dei suoi tre sottocampi.

Il termine che nessuno ha realmente definito

Se si guarda alle origini del termine data science, si notano due concetti che confluiscono in un unico termine. Parafrasando, permettetemi questa parentesi divertente:

  • Big(ger) data, ovvero una quantità maggiore di dati, significano una maggiore necessità di capacità di calcolo. Raggiungibile utilizzando i computers.
  • Gli statistici non riescono a scrivere al di fuori del loro pezzo di carta.

E così, è nata la Scienza dei dati. La prima definizione che ho sentito di tale termine è stata “Un esperto di dati è uno statistico che sa’ programmare.” Vi dirò la mia opinione in tal merito in un secondo momento, ma prima, perchè non esaminiamo la scienza dei dati stessa?

Definizione, alquanto irriverente, comparsa su twitter attorno al 2014. “Un esperto di dati è uno statistico che vive a San Francisco. La scienza dei dati è la statistica su un Mac. Un esperto di dati e qualcuno che è più bravo di qualsiasi ingegnere del software in statistica e di qualsiasi statistico in ingegneria del software”

Mi piace come con il lancio del Journal of Data Science si sia cercato di fornire una descrizione che tecnicamente potesse raggiungere un elevato grado di precisione: “Con ‘Scienza dei Dati’ intendiamo qualsiasi cosa abbia a che fare con i dati.” Quindi… tutto?

Risulta veramente difficile pensare a qualcosa che non abbia nulla a che fare con le informazioni. (Dovrei smettere di pensarci prima che mi esploda la testa.)

Da allora, abbiamo visto una moltitudine di opinioni in merito, dal famoso diagramma di Venn formulato da Conway (sotto) alla pubblicazione di Mason e Wiggins.

Definizione di Scienza dei dati fornita da Drew Conway. I miei gusti personali mi spingono più verso la definizione fornita su Wikipedia.

Wikipedia ne enuncia una che è davvero simile a quella che fornisco ai miei studenti:

La Scienza dei Dati è un ‘concetto che mira ad unificare le scienze statistiche, l’analisi dei dati, il machine learning e le loro metodologie’ al fine di ‘comprendere e analizzare i fenomeni del presente’ attraverso i dati.

Detta così sembra un concetto abbastanza ruvido, fammi vedere se riesco a levigarlo un tantino:

“La scienza dei Dati è l’arte di fornire un’utilità ai dati.”

Quello a cui starai pensando ora potrebbe essere, “Bel tentativo, Cassie. È carina, ma è una semplificazione eccessiva. In che modo può la parola ‘utilità’ racchiudere tutti quei significati?”

Beh, okay, analizziamola con con alcuni supporti grafici.

Questa è una sintesi grafica della scienza dei dati per voi, perfettamente fedele alla definizione di Wikipedia.

Cosa sono queste cose e come orientarsi all’interno di questa grafica?

Se stai cercando di suddividerli in sottocomponenti con metodologie standard, rallenta. La differenza tra uno statistico e un ingegnere di machine learning non è dovuta all’utilizzo di R da parte dell’uno o di Python da parte dell’altro. L’analisi tassonomica tra SQL, R e Python è sconsigliata per una marea di motivi, non ultimo il fatto che il software si evolva nel tempo. (Recentemente, puoi perfino fare ML in SQL.) Non preferiresti una suddivisione che possa durare nel tempo? Ti basta proseguire la lettura leggendo l’intero paragrafo.

Forse è ben peggiore la suddivisione che preferiscono i novizi. Si, hai indovinato: in base all’algoritmo (sorpresa! È il modo in cui sono strutturati i corsi universitari.) Per favore, non cercare di tassonomizzare tra istogrammi vs t-test vs reti neurali. Francamente, se sei intelligente e vuoi arrivare ad un punto, puoi usare lo stesso algoritmo in qualsiasi area della scienza dei dati. Potrebbe sembrare il mostro di Frankenstein ma ti assicuro che può essere forzato affinché si adatti alle tue esigenze.

Ok, basta con questo crescendo drammatico! Questa è la tassonomia che propongo:

Nessuno-Uno-Molti

Che diavolo è? Si parla di decisioni, ovviamente! (In condizioni di informazioni incomplete. Quando tutto ciò che ti serve è a tua disposizione, puoi usare l’analisi descrittiva per prendere tutte le decisioni necessarie. Ti basta guardare i dati ed il gioco è fatto.)

È attraverso le nostre azioni — le nostre decisioni — che influenziamo il mondo che ci circonda.

Ti avevo promesso che avremmo parlato dell’utilità dei dati. Per me, l’idea di utilità è strettamente connessa con l’influenza che le azioni hanno sul mondo reale. Se credo in Babbo Natale, non vi è alcun tipo di conseguenza a meno che ciò non influenzi il mio comportamento in qualche modo. Quindi, a seconda delle potenziali implicazioni di quel dato comportamento, potrebbe iniziare ad assumere una profonda importanza. È attraverso le nostre azioni — le nostre decisioni — che influenziamo il mondo che ci circonda (e ci facciamo influenzare di conseguenza).

Quindi, eccoti una nuova rappresentazione basata sulle decisioni, con tre modi principali per rendere utili i tuoi dati.

Estrazione dei dati (Data-mining)

Se non sai ancora quali decisioni prendere, il meglio che tu possa fare è andare là fuori e cercare ispirazione. Tale azione è chiamata estrazione dei dati o analitica o analisi descrittiva o analisi della struttura dei dati (EDA) o scoperta della conoscenza (KD), a seconda del tipo di persone con cui hai avuto a che fare in questi anni.

La regola d’oro dell’analitica: trai conclusioni unicamente in base a ciò che puoi vedere.

A meno che tu non sappia come intendi inquadrare il tuo processo decisionale, inizia da qui. La notizia importante è che questo risulta esser facile. Pensa al tuo set di dati come ad un mucchio di negativi che hai trovato in una camera oscura. L’estrazione dei dati consiste nel utilizzare gli strumenti di lavoro per esporre tutte le immagini il più rapidamente possibile in modo tale da poter vedere se c’è qualcosa di stimolante su di esse. Come per le foto, ricordati di non prendere troppo sul serio ciò che osservi. Non hai scattato tu le foto, quindi non sai molto riguardo a ciò che c’è al di là dello schermo. La regola d’oro dell’estrazione dei dati è: attieniti a ciò che è. Trai conclusioni solo in merito a ciò che puoi vedere, mai in merito a ciò che non puoi vedere (per questo hai bisogno della statistica e di molta esperienza).

Oltre a questo, non puoi sbagliarti. La velocità è tutto, quindi inizia a esercitarti.

La competenza nell’estrazione dei dati è giudicata dalla velocità con cui riesci ad esaminare i dati. Ti aiuta a non annoiarti una volta superato l’interesse iniziale.

All’inizio la camera oscura intimidisce, ma non offre molte possibilità. Impara a lavorare con l’attrezzatura da lavoro. Ecco un tutorial per iniziare con R ed ecco uno per Python. Puoi definirti un analista di dati non appena inizi a divertirti e puoi definirti un esperto analista quando sei in grado di esporre le foto (e tutti gli altri tipo di set di dati) alla velocità della luce.

Inferenza Statistica

L’ispirazioni è facilmente raggiungibile, il rigore è dispendioso. Se vuoi superare i dati avrai bisogno di una formazione specialistica. In qualità di laureando o laureato in statistica, potrai essere un tantino influenzato, ma a mio parere l’inferenza statistica (in breve, la statistica) è la più difficile nonché la più ricca di filosofia delle tre aree. Padroneggiarla richiede tempo.

L’ispirazioni è facilmente raggiungibile, il rigore è dispendioso.

Se hai intenzione di prendere decisioni importanti, di elevata qualità, con un rischio controllato che si basino su conclusioni riguardanti il mondo che ti circonda al di là dei dati a tua disposizione, avrai bisogno di arruolare abilità statistiche nel tuo team. Un ottimo esempio è quel momento in cui il tuo dito si trova sul pulsante per l’avvio di un sistema di intelligenza artificiale e ti vieni in mente che devi controllarne il funzionamento prima di rilasciarlo (sempre una buona idea, sul serio). Allontanati dal pulsante e chiama lo statistico.

La statistica è la scienza di cambiare idee (sotto condizioni di incertezza.)

Se vuoi saperne di più, per la tua gioia, ho scritto questo questo super-riassunto di statistica della durata di 8 minuti di lettura.

Machine learning

Il Machine learning lavora essenzialmente alla realizzazione di formule di etichettatura delle cose usando esempi anziché istruzioni. Ho scritto alcuni post su ciò, inclusa un’analisi sulle differenze con l’IA, come iniziare, perchè le aziende falliscono con il Machine Learning, e un paio di articoli facenti parte di una serie che mira a semplificare il linguaggio tecnico con lo scopo di andare al sodo (inizia qui). Ah, e se volete condividerli con amici che non parlano Inglese, ecco alcuni di loro tradotti.

Ingegneria dei dati

Che dire a proposito dell’ingegneria dei dati, il lavoro che consegna, in primo luogo, i dati al team di esperti di dati? Dal momento che è un campo sofisticato a sé stante, preferisco proteggerlo dalle aspirazioni egemoniche della scienza dei dati. Inoltre, è molto più vicino all’ingegneria del software che alla statistica.

La differenza tra ingegneria dei dati e scienza dei dati è una differenza temporale tra prima e dopo.

Sentiti libero di vedere la differenza tra ingegneria dei dati e scienza dei dati come una differenza temporale tra il prima e il dopo. La maggior parte del lavoro tecnico che porta alla nascita dei dati (prima) può essere inteso come “ingegneria dei dati”, mentre tutto ciò che facciamo una volta che i dati sono stati resi a disposizione (dopo) è “scienza dei dati”.

Decision intelligence

La DI si basa principalmente sulle decisioni, inclusi i processi decisionali su larga scala operanti in presenza di un’ingente quantità di dati, ciò la rende una disciplina ingegneristica. Essa unisce gli aspetti applicativi della scienza dei dati alle le teorie delle scienze sociali e gestionali.

La Decision intelligence aggiunge delle nozioni tipiche delle scienze sociale e gestionali.

In altri termini, è un sovrainsieme di quelle aree della scienza dei dati che non è interessato ad argomenti di ricerca come lo sviluppo di metodologie standard per un uso generico.

Non basta? Qui puoi trovare un’analisi dettagliata dei ruoli necessari in un progetto di scienza dei dati per intrattenerti mentre mi sgranchisco sulla tastiera.

Clicca qui, per saperne di più sulla scienza dei dati e l’intelligenza artificiale.

Head of Decision Intelligence, Google. Hello (multilingual) world! This account is for translated versions of my English language articles. twitter.com/quaesita