La Scienza dei Dati e il suo Eroe incompreso
Perchè è controproducente mettere l’analitica in secondo piano
Tradotto da Felice Rocchitelli, dagli originali (Parte 1 e Parte 2) di Cassie Kozyrkov
Fai attenzione alle abilità che poni sul piedistallo, poiché gli effetti di scelte poco sagge possono essere devastanti. Oltre a team mal gestiti e assunzioni inutili, vedrai i veri eroi smettere o rieducare se stessi per adattarsi ai tuoi incentivi giornalieri. Un primo esempio di questo fenomeno è nell’analisi.
La spesa per l’assunzione del trofeo
Il processo di assunzione nella scienza dei dati è elusivo, e ciò non è una sorpresa: lo scienziato dei dati “full-stack” è una figura capace di districarsi tra il machine learning, la statistica e l’analitica. Quando i team di sviluppo non riescono a ingaggiare una figura simile, cercano di arruolare figure di spicco in una delle tre specializzazioni. Chi si posiziona sul piedistallo?
La moda odierna nel campo della scienza dei dati favorisce una sofisticazione appariscente con un pizzico di fantascienza, che rende l’IA e il machine learning cari al circuito di assunzione. Gli sfidanti alternativi provengono dalle statistiche, grazie ad una reputazione secolare per il rigore e la loro superiorità matematica. Che dire degli analisti?
Gli Analitici come cittadini di seconda classe
Se il tuo talento principale è l’analitica (o il data-mining o la business intelligence), è probabile che la tua autostima subisca una grave colpo quando i suddetti colleghi ti sorpassano e il mercato del lavoro ti lancia segnali non troppo sottili su come migliorare le tue abilità per unirti a loro.
Dei buoni analisti sono un prerequisito per l’efficacia delle attività relative ai dati. È pericoloso lasciarli andare, ma è esattamente quello che faranno se li sottovaluti.
Ciò che i non iniziati raramente comprendono è che le tre professioni sotto l’ombrello della scienza dei dati sono completamente diverse l’una dall’altra. Possono usare le stesse equazioni, ma è lì che finisce la loro somiglianza. Lungi dall’essere una versione sciatta di altre tipi di scienziati dei dati, i buoni analisti sono un prerequisito per l’efficacia delle tue attività sui dati. È pericoloso lasciarli andare, ma è esattamente quello che faranno se li sottovaluti.
Ugualmente Dignitoso
Invece di chiedere a un analista di accrescere le sue abilità nell’ambito statistico o del machine learning, considera la possibilità di incoraggiarlo affinché egli raggiunga prima un alto livello di specializzazione nella sua disciplina. La scienza dei dati è quel tipo di bestia in cui le eccellenze in un’area superano le mediocrità in più aree.
Ognuna delle tre discipline della scienza dei dati ha la sua eccellenza. Gli statistici portano rigore, gli ingegneri ML portano prestazioni e gli analisti portano velocità.
Al massimo della competenza, tutti e tre sono ugualmente degni di piedistallo ma forniscono servizi molto diversi. Per comprendere le sottigliezze, esaminiamo cosa significa essere veramente eccellenti in ciascuna delle discipline della scienza dei dati, quale valore apportano e quali tratti della personalità sono necessari per sopravvivere a ogni lavoro.
L’eccellenza in statistica: rigore
Come specialisti nel giungere a conclusioni al di là dei tuoi dati in modo sicuro, gli statistici sono la tua migliore protezione contro l’inganno di un mondo incerto. Per loro, inferire qualcosa di sciatto è un peccato più grande che lasciare la tua mente una tabula rasa, quindi aspettati che un buon statistico freni la tua esuberanza. Costantemente in punta di piedi, si preoccupano profondamente se i metodi applicati sono giusti per il problema e si dannano per capire quali inferenze siano valide in virtù informazioni in possesso.
Ciò che la maggior parte delle persone non capisce è che gli statistici sono essenzialmente epistemologi. Dal momento che non esiste alcuna magia che sia in grado di fonrinre certezza dall’incertezza, il loro ruolo non è quello di produrre la Verità, ma piuttosto una ragionevole integrazione tra le ipotesi appetibili e le informazioni disponibili.
Il risultato? Un approccio che aiuta i leader a prendere decisioni importanti in modo controllato rispetto al rischio.
Non sorprende che molti statistici reagiscano con scetticismo verso gli “ultimi arrivati” che apprendono le equazioni senza assorbire alcuna filosofia. Se trattare con gli statistici sembra estenuante, ecco una soluzione rapida: non trarre alcuna conclusione al di là dei tuoi dati e non avrai bisogno dei loro servizi. (Più facile a dirsi che a farsi, vero? Soprattutto se si desidera prendere un’importante decisione di lancio.)
L’eccellenza nel machine learning: prestazione
Se all’affermazione “scommetto che non puoi costruire un modello capace di superare i test con il 99.999999% di accuratezza” risponderesti “Sta a vedere” allora è probabile che tu sia un ingegnere applicato nei campi del machine learning/AI. Con la capacità di sviluppare prototipi e sistemi funzionanti e l’ostinata resilienza al fallimento, che gli permettono di perseverare per anni se risulta essere la soluzione, gli specialisti nel machine learning sanno che non troveranno la soluzione all’interno dei manuali. Invece, saranno impegnati in un estenuante maratona di tentativi ed errori. Essere in grado di intuire la durata di tali processi rappresenta un importante valore aggiunto, perfino maggiore di quello apportato dalla profonda conoscenza sul funzionamento degli algoritmi utilizzati (sebbene l’ideale sarebbe avere a disposizione entrambe le capacità).
Il risultato? Un sistema in grado di automatizzare un compito complicato abbastanza bene da superare la severa attività di verifica del tuo statistico e fornire le audaci prestazioni richieste dal leader del progetto.
Prestazioni significa molto più che cancellare una metrica — significa anche modelli affidabili, scalabili e di facile manutenzione che funzionano bene in produzione. L’eccellenza ingegneristica è un must.
Ampiezza contro profondità
Ciò che i due precedenti ruoli hanno in comune è che entrambi forniscono soluzioni impegnative a problemi specifici. Se i problemi che affrontano non meritano di essere risolti, finisci per perdere tempo e denaro. Una lamentela frequente tra i leader aziendali è: “Il nostro gruppo di scienziati dei dati è inutile”, il problema — di solito — risiede nell’assenza di competenze analitiche.
Gli statistici e gli ingegneri del machine learning riescono a raggiungere un’elevata profondità all’interno di aree abbastanza ristrette (più o meno come le per le tane dei conigli), a tal proposito è molto importante indirizzarli su problemi specifici. Se i tuoi esperti stanno risolvendo attentamente i problemi sbagliati, ovviamente il tuo investimento nella scienza dei dati andrà in contro a bassi rendimenti. Per assicurarti di poter fare buon uso di esperti simili, devi essere sicuro di avere già inquadrato il problema giusto o hai bisogno di un approccio più ampio e superficiale per trovarne uno.
L’eccellenza nell’analitica: velocità
I migliori analisti sono programmatori velocissimi che possono districarsi rapidamente tra vasti insiemi di dati, incontrando e estrapolando potenziali intuizioni più velocemente di quanto gli altri specialisti possano dire “lavagna”. Il loro stile di programmazione semi-sciatta confonde i tradizionali ingegneri del software … fino a quando non li lascia nella polvere. La velocità è la più alta virtù, seguita da vicino dalla capacità di non trascurare elementi già analizzati che possano rivelarsi di elevata utilità. La padronanza nella presentazione visiva delle informazioni aiuta a colmare i colli di bottiglia nelle capacità cerebrali: grafici belli ed efficaci consentono alla mente di estrarre informazioni più velocemente, il che ripaga in termini di numero tempo impiegato per estrapolare potenziali intuizioni.
Laddove gli statistici e gli addetti al ML sono lenti, gli analisti sono un vortice di ispirazione per le figure decisionali e per i colleghi scienziati dei dati.
Il risultato? L’operatività societaria ne trae linfa vitale e coscienza su ciò che precedentemente ignorava. Ciò alimenta l’ispirazione che aiuta i ruoli decisionali a selezionare gli obiettivi da assegnare agli statistici e agli ingegneri del ML, sollevandoli da un impressionante lavoro matematico di ricerca inutile.
Approssimazioni senza senso o storie stellari?
“Ma”, obiettano gli statistici, “la maggior parte dei loro indizi si rivelano senza alcun senso.” Con ciò intendono che i risultati delle loro analisi esplorative potrebbero mostrare solo maggior confusione. Forse, ma c’è dell’altro.
Gli analisti sono narratori di dati. Il loro compito e di riassumere i fatti di interesse e fare attenzione che il frutto della sua ispirazione non venga preso sul serio senza prima una disamina statistica.
Monito per gli acquirenti: ci sono molti ciarlatani dei dati che si vendono come Scienziati dei Dati. Non esiste una magia capace di estrapolare la certezza da ciò che è incerto.
I buoni analisti hanno un rispetto incondizionato per una delle regole più importanti del loro mestiere: non giungere a conclusioni al di fuori dei dati in possesso (e fa’ in modo che anche chi ti ascolta non cada in errore). Sfortunatamente, pochi analisti possono rappresentare un affare — Monito per gli acquirenti: ci sono molti ciarlatani dei dati che si vendono come Scienziati dei Dati. Questi spacciano assurdità, saltando oltre i dati in modi indisciplinati per “supportare” le decisioni basate sul proprio desiderio. Se i tuoi standard etici sono deboli, forse manterresti questi venditori di olio di serpente in giro e li ospiterai nella parte oscura del marketing della tua attività. Personalmente, preferirei non farlo.
I buoni analisti hanno un profondo rispetto per la principale regola del loro mestiere: non giungere a conclusioni al di fuori dei dati in possesso.
Finché gli analisti si attengono ai fatti (“Questo è ciò che è”. Ma cosa significa? “Solo: questo è ciò che è qui”) e non si prendono troppo sul serio, il crimine peggiore che potrebbero commettere è sprecare il tempo di qualcuno quando lo gestiscono. Per rispetto della loro regola d’oro, i bravi analisti usano un linguaggio morbido e di copertura (per esempio, non “concludiamo” ma “siamo ispirati a chiedere”) e scoraggiano l’eccesso di fiducia del leader enfatizzando una moltitudine di possibili interpretazioni per ogni intuizione.
Mentre le competenze statistiche sono necessarie per verificare le ipotesi, gli analisti sono la scommessa migliore per arrivare a tali ipotesi in maniera rapida. Per esempio, potrebbero dire qualcosa come “È solo una correlazione, ma suppongo possa essere dovuta a …” e quindi spiegare perchè pensano ciò.
Questo richiede una forte capacità intuitiva su ciò che potrebbe esserci al di là dei dati, e le capacità comunicative per fare convergere le opzioni ai decisori, che decide quali ipotesi (delle tante) sono importanti abbastanza per garantire lo sforzo di uno statistico. Crescendo, gli analisti cominceranno a prendere la decisione di giudicare ciò che è importante oltre a ciò che è interessante, consentendo ai decisori di allontanarsi dal ruolo di intermediario.
Delle tre specie, gli analisti sono i più probabili eredi al trono decisionale.
Poiché la competenza in materia aiuta molto a individuare più rapidamente modelli interessanti nei dati, i migliori analisti sono seriamente intenzionati a familiarizzare con il dominio. Non farlo è una bandiera rossa. Mentre la loro curiosità li spinge a sviluppare un senso per l’azienda, si aspettano che i loro risultati passino da un miscuglio di falsi allarmi a una serie di intuizioni sensibilmente curate di cui è più probabile che i responsabili delle decisioni si preoccupino.
Per evitare sprechi di tempo, gli analisti dovrebbero esporre la storia che sono tentati di raccontare e prenderla in esame da diverse angolazioni con indagini di follow-up per vedere se fa acqua prima di portarla ai decisori. Se un decisore è in pericolo di essere spinto a intraprendere un’azione importante basata su una storia stimolante, questo è il Bat-Signal affinchè gli statistici entrino e controllino (in nuovi dati, ovviamente) che l’azione è una scelta saggia alla luce delle ipotesi con cui il decisore è disposto a convivere e alla sua propensione al rischio.
L’ibrido analista-statistico
Per gli analisti che si attengono ai fatti, non c’è niente di sbagliato, c’è solo lentezza. L’aggiunta di competenze statistiche per “fare le cose correttamente” non tiene conto del punto in modo importante, soprattutto perché esiste un filtro molto importante tra l’analisi esplorativa dei dati e il rigore statistico: il decisore. Qualcuno con responsabilità di decisione deve approvare l’impatto sul operatività derivante dal perseguire l’intuizione dell’analista che vale la pena di un esperto ed alto sforzo. A meno che l’ibrido analista-statistico non sia anche un abile decisore e leader aziendale, le loro competenze forma un panino con un abisso nel mezzo.
Un analista che colma questa lacuna, tuttavia, vale il suo peso in oro. Fanne tesoro!
Analista per il machine learning e l’IA
Gli specialisti del machine learning inseriscono una serie di potenziali dati di input utilizzando gli algoritmi, modificano le impostazioni e continuano a iterare fino a produrre i giusti output. Anche se può sembrare che non ci sia alcun ruolo per l’analisi qui, in pratica un’azienda ha spesso troppi ingredienti potenziali da spingere nel frullatore tutto in una volta.
Il tuo analista è il velocista: la loro abilità di aiutarti in maniera rapida a vedere e riassumere cosa è essenziale rappresenta un superpotere per il tuo processo.
Un modo di filtrare fino a raggiungere un set promettente da provare è l’esperienza nel dominio — chiedi a un essere umano con opinioni su come potrebbero funzionare le cose. Un altro modo è attraverso l’analisi. Per usare l’analogia della cucina, l’ingegnere del machine learning è bravo a armeggiare in cucina, ma in questo momento si trovano di fronte a un enorme magazzino buio pieno di potenziali ingredienti. Potrebbero iniziare a prenderli a casaccio e trascinarli indietro nelle loro cucine, oppure potrebbero prima inviare un velocista, armato di una torcia, attraverso il magazzino. Il tuo analista è il velocista; la loro capacità di aiutarti rapidamente a vedere e sintetizzare ciò che è rappresenta un superpotere per il tuo processo.
L’ibrido analista-esperto di ML
Gli analisti accelerano i progetti di machine learning, quindi le duplici competenze sono molto utili. Sfortunatamente, a causa delle differenze nello stile di programmazione e nell’approccio tra analitica e ingegneria del ML, è insolito vedere il massimo delle competenze in un individuo (e ancora più raro per quella persona essere lento e filosofico quando necessario, motivo per cui i veri scienziati dei dati full-stack sono bestie davvero rare).
Pericoli di sottovalutazione cronica
Un analista esperto non è una versione scadente dell’ingegnere del machine learning, il loro stile di programmazione è ottimizzato per la velocità. Né sono dei cattivo statistici, dal momento che non affrontano affatto l’incertezza, si occupano dei fatti. “Ecco cosa c’è nei nostri dati, non è mio compito parlare di cosa significhi oltre i dati attuali, ma forse ispirerà il decisore a perseguire la domanda con uno statistico …”
Ciò di cui i principianti non si rendono conto è che il lavoro richiede ai migliori analisti di avere una migliore comprensione della matematica della scienza dei dati rispetto a una delle altre specie applicate. A meno che il compito non sia abbastanza complicato da richiedere l’invenzione di un nuovo test o algoritmo di verifica ipotesi (il lavoro dei ricercatori), gli statistici e gli specialisti del ML possono fare affidamento sul controllo che pacchetti e test standardizzati siano giusti per il lavoro, ma possono spesso dover affrontare direttamente le equazioni stesse.
Ad esempio, gli statistici potrebbero dimenticare le equazioni per il p-value di un t-test perché lo ricavano avviando l’esecuzione di un pacchetto software, ma non dimenticano mai come e quando usarne uno, nonché la corretta interpretazione filosofica dei risultati. Gli analisti, d’altra parte, non stanno cercando di interpretare. Sono alla ricerca di un set di dati cruento, enorme e multidimensionale. Conoscendo il modo in cui l’equazione per il p-value suddivide il loro set di dati, possono formare una vista inversa di ciò che devono essere stati i modelli nell’insieme di dati originale per produrre il numero che hanno visto.
Senza un apprezzamento della matematica, non hai questa visione. A differenza di uno statistico, tuttavia, a loro non importa se il t-test è giusto per i dati. A loro importa che il t-test dia loro una visione utile di ciò che sta accadendo nell’insieme di dati corrente. La distinzione è sottile, ma è importante.
Gli statistici trattano cose al di fuori dei dati, mentre gli analisti si attengono alle cose al suo interno.
Al massimo dell’eccellenza, entrambi sono profondamente matematici e spesso usano le stesse equazioni, ma i loro lavori sono completamente diversi.
Allo stesso modo, gli analisti utilizzano spesso algoritmi di machine learning per suddividere i propri dati, identificare raggruppamenti convincenti ed esaminare anomalie. Poiché il loro obiettivo non è la prestazione ma l’ispirazione, il loro approccio è diverso e potrebbe apparire sciatto all’ingegnere ML. Ancora una volta, è l’uso dello stesso strumento per un lavoro diverso.
Per riassumere cosa sta succedendo con un’analogia: gli aghi sono usati da chirurghi, sarti e impiegati. Ciò non significa che i lavori siano uguali o addirittura comparabili, e sarebbe pericoloso incoraggiare tutti i tuoi sarti e impiegati a studiare chirurgia per progredire nella loro carriera.
Gli unici ruoli di cui ogni azienda ha bisogno sono i decisori e gli analisti. Se perdi i tuoi analisti, chi ti aiuterà a capire quali problemi vale la pena risolvere?
Se enfatizzi eccessivamente l’assunzione e la gratificazione nel machine learning e nella statistica, perderai i tuoi analisti. Chi ti aiuterà a capire quali problemi vale la pena risolvere allora? Ti verrà lasciato un gruppo di miserabili esperti a cui viene chiesto di lavorare su progetti o attività di analisi senza valore per i quali non si sono iscritti. I tuoi dati rimarranno inutili.
Cure e alimentazione dei ricercatori
Se questo non suona abbastanza male, molti leader cercano di assumere dottorati di ricerca e enfatizzare eccessivamente le versioni di ricerca — al contrario di quella applicata — dello statistico e dell’ingegnere del ML … senza avere un problema che sia prezioso, importante e che sia impossibile risolvere con tutti gli algoritmi esistenti là fuori.
Ciò va bene se stai investendo in una divisione di ricerca e non hai intenzione di chiedere ai tuoi ricercatori cosa hanno fatto per te ultimamente. La ricerca per il bene della ricerca è un investimento ad alto rischio e pochissime aziende possono permetterselo, perché non ricavarne nulla di valore è una possibilità molto reale.
I ricercatori sono al di fuori di una divisione di ricerca solo se hanno problemi adeguati da risolvere — il loro insieme di competenze sta creando nuovi algoritmi e test da zero dove non esiste una versione standard — altrimenti sperimenteranno una spirale sisifea desolante (che sarebbe interamente colpa tua, non loro). I ricercatori in genere trascorrono più di un decennio in formazione, il che merita almeno il rispetto di non essere messo a lavorare su compiti completamente irrilevanti.
In caso di dubbi, assumere analisti prima di altri ruoli.
Di conseguenza, il momento giusto per assumerli per un progetto applicato tende a essere dopo che i tuoi analisti ti hanno aiutato a identificare un progetto prezioso e i tentativi di completarlo con gli scienziati dei dati applicati hanno già fallito. Questo succede quando attiri gli inventori professionisti.
Battuta finale
In caso di dubbi, assumere gli analisti prima di altri ruoli. Apprezzali e ricompensali. Incoraggiali a crescere fino all’apice della carriera prescelta (e non di qualcun altro). Del gruppo di personaggi menzionato in questa storia, gli unici di cui ogni azienda che ha a che fare con i dati ha bisogno sono i decisori e gli analisti. Gli altri li potrai utilizzare solo quando saprai esattamente a cosa ti servono. Inizia con l’analisi e sii orgoglioso della tua nuova capacità di aprire gli occhi alle informazioni ricche e belle di fronte a te. L’ispirazione è una cosa potente e non va’ solo annusata.
Clicca qui, per saperne di più sulla scienza dei dati e l’intelligenza artificiale.