Ispirazione Automatizzata
Un breve viaggio nella storia (e nel futuro!) della scienza dei dati
Tradotto da Felice Rocchitelli, originale di Cassie Kozyrkov
Nel XIX secolo, i dottori avrebbero prescritto il mercurio per gli sbalzi d’umore e l’arsenico per l’asma. Non gli sarebbe servito lavarsi le mani prima dell’intervento. Non provavano, di certo, ad ucciderti — non avrebbero saputo far meglio.
Questi primi dottori possedevano dati di valore annotati nei loro taccuini, ma ognuno di loro possedeva solo un pezzo di un gigantesco puzzle. Senza gli odierni strumenti per la trasmissione e l’analisi delle informazioni — così come senza una scienza capace di dare un senso ai dati — non vi era modo di fermare la superstizione dal soprassedere la realtà fenomenica.
Da allora gli Umani hanno percorso moltissima strada affiancati dalla tecnologia, ma l’odierno boom del machine learning (ML) e dell’intelligenza artificiale (AI) non è una vera e propria rottura con il passato. È la continuazione del basilare istinto umano di cercare un senso attorno al mondo che ci circonda così da poter prendere decisioni razionali. Abbiamo, semplicemente, a disposizione una tecnologia drasticamente migliore di quanto non avessimo mai avuto prima.
Il boom odierno dell’IA non rappresenta una vera e propria rottura con il passato. Abbiamo, semplicemente, a disposizione una tecnologia drasticamente migliore di quanto non avessimo mai avuto prima.
Un modo per osservare tale tendenza negli anni è la rivoluzione degli insiemi di dati, non dei singoli dati. La differenza non è banale. Gli insiemi di dati hanno modellato il mondo attuale. Considera gli scriba Sumeri (moderna Iraq), che premevano i loro steli su tavole di argilla più di 5,000 anni fa’. In quel momento hanno inventato, non solo il primo sistema di scrittura, ma anche la prima tecnologia per il salvataggio e la condivisione dei dati.
Se ti ispira la promessa di un IA migliore delle abilità umane, considera che la cancelleria ci conferisce una memoria da superumani. Sebbene è semplice dare per scontato la scrittura, al giorno d’oggi, l’abilità di poter salvare insiemi di dati in modo affidabile rappresenta uno step rivoluzionario sulla strada verso una più elevata intelligenza.
Se ti ispira la promessa di un IA migliore delle abilità umane, considera che la cancelleria ci conferisce una memoria da superumani.
Sfortunatamente, recuperare le informazioni dalle tavole di argilla e dai loro cugini pre-elettronici è una vera sofferenza. Non puoi muovere il dito sul libro per ottenere il conteggio delle parole. Invece, devi caricare ogni parola all’interno del tuo cervello per processarla. Ciò ha reso le prime forme di analisi dei dati estremamente onerose in termini di tempo, quindi si soffermavano sull’essenziale. Mentre un regno potrebbe analizzare quanto oro ha incassato tramite la riscossione delle tasse, solo un animo impavido potrebbe provare lo stesso sforzo cognitivo su un’applicazione come, diciamo, la medicina, dove millenni di tradizione le fanno da paraurti.
Fortunatamente, la nostra specie ha dato vita ha un numero incredibile di pionieri. Per esempio, la mappa dei morti durante l’epidemia di colera scoppiata a Londra nel 1858 di John Snow ispirò i medici a riconsiderare la superstizione che la malattia fosse causata dal miasma (aria tossica) e a iniziare a analizzare l’acqua potabile.
Se conosci “La donna con il lumino”, Florence Nightingale, per la sua eroica compassione in qualità di infermiera, potrebbe sorprenderti sapere che fosse anche una pioniera dell’analitica. Le sue creative infografiche durante la guerra di Crimea hanno salvato svariate vite identificando nella mancanza di igiene la causa principale delle morti in ospedale ispirando il governo a prendere serie misure per l’igiene.
L’era degli insiemi di dati è iniziata dal momento in cui le informazioni iniziarono a imporsi in un crescente numero di campi, portando così all’invenzione del computer. No, non l’amico elettronico a cui sei abituato oggi. Il “Computer” è nato come una professione umana, con i praticanti che eseguivano computazioni e elaboravano i dati manualmente per estrarre da essi il proprio valore.
La bellezza dei dati sta nella possibilità che ci viene data da essi di formarci un opinione su basi concrete. Guardando le informazioni, sei ispirato a porgere nuovi quesiti, seguendo i passi di Florence Nightingale e John Snow. Questo è tutto ciò di cui tratta l’analitica: ispirare modelli e ipotesi sulla base dell’esplorazione.
Dagli insiemi di dati alla suddivisione dei dati
Agli inizi del XX secolo, il desiderio di prendere le migliori decisioni in condizioni di incertezza portò alla nascita di una professione parallela: la statistica. Gli statistici ti aiutano a testare se è ragionevole comportarsi come se il fenomeno che un analista ha trovato nel set di dati corrente si applichi anche al di là di esso.
Un famoso esempio proviene da Ronald A. Fisher, che scrisse il primo manuale di statistica al mondo. Fisher descrive l’esecuzione di un test (verifica) di ipotesi in risposta all’affermazione della sua amica secondo cui lei poteva sapere se il latte veniva aggiunto al tè prima o dopo l’acqua. Sperando di dimostrare che si sbagliava, fu invece costretto dai dati a concludere che lei aveva ragione.
Il rigore statistico richiede che tu chiami i tuoi colpi prima di prenderli; L’analitica è più un gioco di senno di poi avanzato.
L’analitica e la statistica hanno un tallone d’Achille: se usi gli stessi dati per la generazione e per il verifica delle ipotesi, stai barando. Il rigore statistico richiede che tu chiami i tuoi colpi prima di prenderli; L’analitica è più un gioco di senno di poi avanzato. Le due specializzazioni sembravano quasi tragicomicamente incompatibili, fino all’arrivo della successiva grande rivoluzione — la divisione dei dati — di lì in poi cambiò tutto.
La suddivisione dei dati è un’idea abbastanza semplice, ma per una scienziata dei dati come me, è una delle più profonde. Se hai un solo insieme di dati, devi scegliere tra analitica (ispirazione non verificabile) e statistica (conclusioni rigorose). Il trucco? Dividi il tuo insieme di dati in due pezzi, quindi prendi la tua torta e mangiala anche tu!
L’era della suddivisione degli insiemi di dati sostituisce la tensione storica tra analitica-statistica con un lavoro di squadra coordinato tra due diverse razze di specialisti dei dati. Gli analisti usano un insieme di dati per aiutarti a inquadrare le tue domande, quindi gli statistici usano l’altro insieme di dati per fornirti risposte rigorose.
Dividi il tuo insieme di dati in due pezzi, quindi prendi la tua torta e mangiala anche tu!
Tale lusso ha un prezzo elevato: la quantità. La suddivisione è più facile a dirsi che a farsi soprattutto se hai faticato a riunire informazioni sufficienti anche per un solo, rispettabile, insieme di dati. L’era dei due insiemi di dati è una conquista abbastanza recente che va di pari passo con il miglioramento dell’hardware di elaborazione, minori costi di archiviazione e la possibilità di condividere le informazioni raccolte su Internet.
In effetti, le innovazioni tecnologiche che hanno portato all’era dei due insiemi di dati hanno rapidamente inaugurato la fase successiva, l’era dei tre insiemi di dati di ispirazione automatizzata. C’è una parola più familiare per questo: machine learning.
L’uso di un insieme di dati ne distrugge la purezza come fonte di rigore statistico. Hai solo un colpo, quindi come fai a sapere quale “intuizione” proveniente dall’attività di analisi è più degna di test? Bene, se avessi un terzo insieme di dati, potresti usarlo per trarre ispirazione per un test. Questo processo di controllo si chiama validazione; è alla base di ciò che rende possibile il machine learning.
La validazione è alla base di ciò che rende possibile il machine learning — ti permette di automatizzare l’ispirazione.
Una volta che sei libero di buttare tutto sul muro della validazione e vedere cosa si attacca, puoi tranquillamente permettere a tutti di provare a fornire una soluzione: analista esperto, stagista, foglie di tè e persino algoritmi senza alcuna attinenza con il tuo problema aziendale. Qualunque soluzione funzioni meglio nella convalida, diventa un candidato per l’appropriato test statistico. Ti sei appena dato il potere di automatizzare l’ispirazione!
Ispirazione automatizzata
Ecco perché il machine learning è la rivoluzione degli insiemi di dati, non solo dei dati. Si basa sulla possibilità (lusso) di disporre di dati sufficienti per una divisione a tre vie.
Dove si posiziona l’IA? Il machine learning basato su reti neurali complesse (profonde, “deep”) è chiamato tecnicamente deep learning, ma ha un altro soprannome che è rimasto inalterato: IA. Sebbene inizialmente l’IA avesse un significato diverso, oggi è molto probabile che trovi il termine utilizzato come sinonimo di deep learning.
Le reti neurali profonde hanno guadagnato la loro fama a discapito degli algoritmi di ML meno sofisticati su molte attività complesse. Ma hanno bisogno di molti più dati per essere addestrate e con requisiti di elaborazione oltre a quelli di un tipico laptop. Ecco perché l’ascesa della moderna IA è una storia cloud; il cloud ti consente di affittare il data center di qualcun altro invece di impegnarti a costruire il tuo impianto di deep learning, trasformando l’IA in una proposta da provare prima di acquistare.
L’ascesa della moderna IA è una storia cloud, trasformando l’IA in una proposta da provare prima di acquistare.
Con questo pezzo mancante, abbiamo il puzzle completo delle professioni: ML/AI, analitici e statistici. Il termine generico che li comprende tutti è chiamato scienza dei dati, la disciplina di rendere i dati utili.
Il futuro dell’ispirazione
La moderna scienza dei dati è il prodotto dell’era dei tre insieme di dati, ma svariate industrie generano abitualmente una quantità di dati ben al di sopra dello stretto necessario. È, forse, il caso di considerare uno scenario con quattro insiemi di dati?
Bene, quale sarebbe la tua prossima mossa se il modello appena addestrato ottiene un basso punteggio durante la validazione? Se sei come la maggior parte delle persone, cercherai immediatamente di sapere il perché! Sfortunatamente, non esiste un insieme di dati che puoi richiedere a comando. Potresti essere tentato di scandagliare il tuo insieme di dati di validazione, ma sfortunatamente interviene il debug a interrompere la sua capacità di analizzare i tuoi modelli in modo efficace.
Sottoponendo il tuo set di dati di validazione all’analitica, stai effettivamente trasformando i tuoi tre insiemi di dati in due. Tale scelta,invece di essere di aiuto, inconsapevolmente ti sta facendo tornare indietro di un’era!
La soluzione si trova al di fuori dei tre insiemi di dati che stai già utilizzando. Per sbloccare un processo di training più intelligente e dei migliori processi di ottimizzazione dell’iperparametro, sarai tentato di unirti all’avanguardia: un’era composta da quattro insieme di dati.
L’innovazione sta nella suddivisione quadrupla dei dati per alimentare la crescita di rendimento.
Se pensi che gli altri tre insiemi di dati ti abbiano fornito ispirazione, possibilità di iterazione e rigorosi processi di testing (verifica), allora il quarto alimenterà la crescita di rendimento, accorciando il ciclo di sviluppo dell’IA attraverso tecniche di analisi avanzate orientate a fornire indizi su quali approcci provare in ogni tentativo.
Adottando la quadrupla suddivisione dei dati, sarai nella miglior posizione per poter approfittare dell’abbondanza dei dati! Benvenuto nel futuro.