Oggi continuiamo a parlare di dati in molti contesti, perché oramai da anni sono diventati la linfa vitale per capire i consumatori, intercettare i bisogni dei clienti e, ora, anche per nutrire l’intelligenza artificiale. Un argomento di cui si parla poco, però, è la distinzione tra dato e informazione: il primo è composto da semplici bit, mentre la seconda aggiunge contesto e significato. Quella che formalmente potremmo chiamare “semantica”. Tuttavia, Denodo, multinazionale specializzata in data management e data virtualization, questa distinzione la fa eccome all’interno della sua data platform. Per capire bene il loro Semantic Data Layer e che impatto questo ha sui loro clienti, in occasione dell’ultimo AWS Summit di Milano la nostra redazione ha incontrato Andrea Zinno, Data Evangelist di Denodo.
Innanzitutto grazie per averci concesso questa intervista. Vorremmo cominciare da lei: si può presentare ai nostri lettori? Qual è stato il percorso professionale che l’ha portata al suo attuale ruolo in azienda?
Buongiorno, sono Andrea Zinno. Lavoro nel campo dell’ICT da quasi quarant’anni. Ho avuto esperienze in grandi aziende, sia italiane sia americane. Dal 2019 sono entrato in Denodo, inizialmente con un ruolo di account management, il classico commerciale, perché l’esigenza era quella di aprire il mercato italiano. Dopo un paio d’anni sono passato a fare il Data Evangelist, un ruolo che fa spesso sorridere ma che, essenzialmente, è una figura di divulgazione.
Denodo fa una cosa molto particolare: è un’azienda di nicchia, nel senso che da quando è nata sviluppa sempre e solo lo stesso prodotto. C’è quindi l’esigenza di raccontare come intendiamo la gestione del dato. E questo è oggi il mio ruolo.
In realtà, da qualche mese ho assunto anche la responsabilità dei partner per il Sud Europa. Al momento, quindi, convivono un ruolo ufficiale, che è quello di seguire i partner, e uno ufficioso, che consiste nel continuare l’attività di divulgazione.
Parlando invece di Denodo: che tipo di azienda è? Qual è la sua mission e perché prima l’ha definita un’azienda di nicchia?
Denodo è sì una compagnia “boutique“, qualcuno la chiamerebbe così, ma in realtà è nata ben ventisei anni fa. È stata fondata in Spagna nel 1999 per intuizione di un professore universitario che è tuttora il nostro CEO, Angel Viña. Lui, con il suo gruppo, pensò a un nuovo modo di integrare i dati basato sulla loro virtualizzazione. Da allora ovviamente l’azienda è cresciuta e si è poi spostata in California per ragioni facilmente immaginabili, come l’accesso ai fondi. Tuttavia, quello che a me è piaciuto è che ha mantenuto una coerenza complessiva. È nata con l’intento di integrare i dati e, dopo ventisei anni, fa ancora esclusivamente quello.
Ovviamente nel tempo l’azienda è cresciuta e la sua piattaforma è diventata una soluzione enterprise, allargandosi fino a coprire tutto ciò che oggi intendiamo come data management. Ma senza perdere la sua impronta iniziale. Oggi siamo una piccola multinazionale con poco meno di mille dipendenti distribuiti in tutto il mondo. Abbiamo un unico prodotto che è la nostra data platform. Questa integra i dati in un modo diverso dalla concorrenza, che noi chiamiamo logical data integration. Questa visione si differenzia dal metodo tradizionale nato con i data warehouse e i data lakehouse. Lì, essenzialmente, si estraggono i dati da dove si trovano per portarli all’interno di un’unica piattaforma dove fare tutto ciò che serve. Noi facciamo funzionalmente la stessa cosa, ma con un approccio diverso.
Il vostro rapporto con AWS come si può descrivere?
È un rapporto di partnership tecnologica o, meglio, fino a ieri era esclusivamente una partnership tecnologica. La nostra soluzione può girare negli ambienti cloud di Amazon, quindi di AWS, ed è complementare alla loro offerta. Questo accade perché l’approccio di Denodo nella gestione dei dati consente alla piattaforma di posizionarsi a un livello al di sopra di tutte le altre possibili sorgenti. Quindi, permette di disaccoppiare perfettamente l’aspetto tecnologico dal consumo finale.
Siamo una sorta di intermediario fra tutto il mondo tecnologico dei dati e l’utente. Tant’è che ci sono casi in cui i clienti hanno scelto di mettere il nostro livello logico al di sopra delle soluzioni esistenti. Queste includono AWS e altri grandi cloud provider, ma possono comprendere anche informazioni che rimangono on-premises e che non possono essere portate in cloud. Proprio per avere comunque una sorta di collante semantico fra tutti i dati.
In realtà, da quest’anno la partnership con AWS è stata resa più forte perché si è estesa alla componente del ciclo di vendita. Stiamo lavorando alla possibilità di far transitare i contratti Denodo attraverso il marketplace di Amazon. Questo offrirà un elemento di semplificazione nel passaggio dalla scelta all’acquisto.

Guardando la vostra offerta si vede questa parola: “semantica”, ovvero il significato dei dati. Abbiamo parlato di semantica per gli ultimi venticinque anni, partendo dalle ontologie a inizio anni duemila. Tuttavia, è un termine che finisce sempre un po’ sotto il tappeto, mentre voi avete questo, chiamiamolo, coraggio di parlare di Semantic Data Layer. Di cosa si tratta esattamente?
Allora, è un tema, come ha detto lei, del quale si parla da tanto. Oserei dire che se ne parla da millenni in ambito filosofico, perché i dibattiti sul significato sono discussioni che non si esauriranno mai. Se ne parla, secondo me, a volte banalizzandolo, cioè si dice “sì, e poi c’è il significato dei dati“, e si costruisce il modello dati. È come se l’integrazione del dato continuasse a essere una questione esclusivamente tecnologica. Noi diciamo spesso che in realtà è più che altro un’avventura semantica. Quando vado a integrare i dati gli aspetti tecnici esistono, ma la tecnologia li ha ormai già perfettamente indirizzati. Siamo qui all’AWS Summit e sappiamo bene che ormai si è in grado di andare a prendere i dati ovunque siano e comunque siano fatti. Quindi, l’aspetto tecnico è sicuramente rilevante, ma è ampiamente affrontato.
Quello su cui spesso si sorvola, e invece è un po’ il chiodo fisso di Denodo – ma anche mio, e chi mi conosce sa –, è che c’è un aspetto fondamentale. Quando integro i dati, non lo faccio tanto perché i dati sono lì, ma perché i dati rappresentano un modo di modellare il mondo esterno. Il contesto con il quale un’azienda si confronta, pubblica o privata che sia. Di fatto sto modellando nel mondo digitale dei concetti che esistono nel mondo che abitiamo. Il problema è che quando parliamo di significato ci si dimentica che il significato non è oggettivo. Ci piacerebbe pensarlo, ma ci sono alcuni concetti, soprattutto quelli più complessi, che hanno tante chiavi di lettura. Entra quindi in gioco l’aspetto soggettivo e sono tutte chiavi di lettura perfettamente legittime e di pari dignità.
Io faccio sempre l’esempio di due entità di cui tutti parlano: il cliente o il cittadino, a seconda che si sia nel privato o nel pubblico. Anche all’interno di una stessa realtà, se prendiamo il cliente, il modo con cui viene visto dal customer care, dal marketing, dalle vendite o dall’amministrazione è diverso. Sicuramente queste diverse interpretazioni condivideranno degli aspetti comuni, ma ognuno ha la sua sfaccettatura. Saper catturare, gestire e formalizzare questa pluralità di significati diventa fondamentale. In alternativa, si crea un impianto tecnologico perfettamente oliato dove però elementi con lo stesso nome sono strutturati in maniera diversa. Per cui, l’utente pensa di usare un dato che nella sua mente è stato modellato per un certo uso e poi scopre che invece la finalità era completamente differente.
Quindi, quando parliamo di Semantic Data Layer è proprio perché nel nostro DNA non c’è il fatto di estrarre dati e portarli al nostro interno. I dati li lasciamo dove sono, ma centralizziamo la componente logica, ovvero quelli che spesso vengono chiamati metadati o il significato. Centralizziamo la descrizione dei dati, ed è poi questa descrizione che viene usata per creare, assemblando diverse viste del cliente, soluzioni che rispondano a ciascuna esigenza. Successivamente, caratterizziamo le viste in modo tale che chi le deve usare, che normalmente non ha una preparazione tecnica, sia in grado di cercarle, trovarle, comprenderle e alla fine utilizzarle.

Stiamo parlando di una grande innovazione dal punto di vista concettuale per le aziende. Però è anche vero che per il cliente finale il dato è un’informazione, per così dire, asettica. Quale vantaggio può avere l’utente finale, per il suo business, nel parlare di semantica di dati?
Allora, è una bella domanda e la risposta è complessa e articolata. Diciamo che un ruolo del modello semantico, ma vorrei dire dell’approccio Denodo, è quello di disaccoppiare la tecnologia rispetto all’uso dei dati. Io dico sempre, semplificando in maniera forse irrispettosa, che noi siamo per i dati quello che PayPal è per i pagamenti. Uno dei vantaggi di PayPal è che se io cambio il mio sistema di pagamento lo comunico solo a PayPal. Chi sta dall’altra parte non si accorge di niente, perché giustamente non deve accorgersi di niente.
Un primo vantaggio di avere il livello semantico di Denodo è che si frappone fra chi deve usare il dato e tutta la complessità sottostante. Questo è un beneficio molto apprezzato, in primo luogo perché difficilmente i grandi clienti stringono un accordo con un unico provider di servizi cloud. E difficilmente un cliente potrà portare tutti i suoi dati in cloud. Di conseguenza, ci troviamo sempre di fronte a ecosistemi abbastanza articolati, dove alcuni dati devono rimanere in casa, altri vanno da un cloud provider, e così via. C’è quindi un primo beneficio nel disaccoppiare la complessità tecnologica, rendendo l’azienda più resiliente in caso di migrazione o evoluzione tecnologica.
La parte invece più specifica del significato, che concordo non essere facile da spiegare, trova un aiuto in uno dei trend attuali sul tema dell’integrazione del dato, riconducibile alla data economy della quale tutti parlano. Nel momento in cui voglio allargare il mio perimetro di integrazione e condivisione, non gestisco più solo i dati della mia specifica organizzazione, pubblica o privata che sia, ma desidero gestire un ecosistema più allargato. Se parliamo di pubblica amministrazione questa è la norma, essendo essa composta da tante realtà, ognuna con quella famosa vista specifica del cittadino.
Nel mondo privato stiamo vedendo che si sta sviluppando un fenomeno analogo. Le aziende vorrebbero poter integrare i propri dati, ad esempio, con quelli dei loro fornitori, dei business partner o usare informazioni fornite da data provider. Se già è difficile oggettivizzare il significato all’interno di una singola realtà perché ci sono i vari dipartimenti, tanto più è difficile quando devo prendere dati che sono gestiti da soggetti diversi. In questo scenario, la componente soggettiva del significato cresce almeno di un ordine di grandezza. Quindi, quando queste aziende si trovano nella necessità, nella volontà o colgono l’opportunità di allargare questo perimetro di integrazione, sono le prime a rendersi conto di quanto sia delicato, complesso e ineluttabile partire dalla corretta modellazione o concettualizzazione dei dati che vogliono integrare.

Fino ad ora non abbiamo parlato della tecnologia che più di tutte caratterizza questo momento storico: l’intelligenza artificiale. Come si correla il vostro Semantic Data Layer con i recenti progressi nel campo dell’AI?
L’integrazione è multidimensionale. Se proviamo a ripercorrere l’evoluzione dell’AI, notiamo che esiste anche un’intelligenza artificiale tradizionale, basata su modelli che spesso si incrociano con la statistica. Tutti questi modelli, che alla fine sono algoritmi, necessitano di dati. C’è quindi l’intera tematica legata a come creare il campione di dati con cui addestrarli. Ora, senza voler entrare in temi come i bias, i pregiudizi o le questioni etiche, è chiaro che quanto più si ha il governo completo delle informazioni, ovunque esse siano – e magari potendo usare anche dati forniti da soggetti esterni –, tanto maggiore sarà il controllo sulla corretta modellazione e sulla qualità del dato. Di conseguenza, si può essere fiduciosi che il modello sarà addestrato in maniera opportuna, e questo vale a prescindere dalle diverse tipologie di AI.
Facendo un passo avanti verso l’intelligenza artificiale generativa, lì il tema non riguarda tanto l’addestramento, poiché questi modelli si alimentano essenzialmente di contenuti testuali, quanto la connessione fra dato non strutturato e dato strutturato. Se pensiamo a come vorremmo usare i vari chatbot che si trovano sul mercato, al di là di quanto siano evoluti, normalmente facciamo richieste che richiedono l’uso di dati linguistici per comprendere la domanda, ma poi anche l’accesso ad altre informazioni per poter formulare la risposta.
Ad esempio, posso interagire con il chatbot del mio operatore telefonico e chiedergli la lista delle bollette degli ultimi due anni, limitatamente a quelle superiori a un certo importo e ordinate in modo decrescente. C’è una componente linguistica che deve comprendere cosa sto chiedendo, la capacità di individuare il contesto – ovvero che l’utente è Andrea Zinno e non Mario Rossi – e infine la capacità di associare a ciascun concetto menzionato nella richiesta il dato necessario a risolverlo.
Questa integrazione, che normalmente va sotto il nome di RAG, cioè Retrieval-Augmented Generation, si traduce nella componente generativa che analizza la domanda e chiede a Denodo quali siano i dati da abbinare ai concetti di cliente, bolletta, pagamento e anno. Denodo glieli fornisce, la componente generativa crea la query SQL – perché normalmente si passa sempre per l’SQL – e la ripassa a Denodo, che la esegue e fornisce il risultato. Questo è un tema molto caldo, perché i chatbot moderni non si usano per chiacchierare del tempo, ma per ottenere informazioni reali.
L’ultimo passo è quello dell’AI agentica, dove all’esigenza di comprendere il contesto si aggiunge la necessità di consumare dati in tempo reale. Questo è il reale differenziatore. Un agente che deve agire, soprattutto se guardiamo all’evoluzione dai singoli agenti a veri e propri sistemi agentici, se non ha un dato fresco rischia di non poter operare. Il modo con cui noi integriamo i dati, che non è basato sulla copia preventiva o sulla duplicazione, elimina la latenza temporale tipica di questi sistemi. Tutte le informazioni depositate in un data lakehouse, in un data lake o in un data warehouse, infatti, soffrono del fatto di essere aggiornate all’ultimo momento in cui è stato effettuato l’allineamento con le sorgenti.
Oggi si parla di allineamenti in tempo reale, ma tendenzialmente non riguardano mai l’intero contenuto. Se questi agenti devono andare a prendere le informazioni e le attingono da tali strutture, rischiano di raccogliere dati aggiornati a un’ora o a mezz’ora prima. Se un agente deve operare in tempo reale, invece, deve prendere il dato più fresco che ci sia. Il nostro approccio, non basandosi sulla copia, è in grado di andare a interrogare il sistema più opportuno e di fornire il dato aggiornato. L’AI agentica ci ha dato un ulteriore impulso. Perché è un contesto nel quale il nostro metodo mostra in maniera evidente i suoi vantaggi rispetto ai modelli tradizionali, i quali non sono da buttare, ma trovano in noi un complemento e un potenziatore.
In chiusura, ha voglia di condividere con noi una vostra recente storia di successo?
Sì, lo faccio volentieri perché è una referenza pubblica, quindi posso fare il nome, ed è un’istituzione pubblica. Ci tengo particolarmente perché nell’immaginario collettivo il mondo pubblico è sempre quello che arriva dopo, se arriva. Sto parlando di INSIEL, la società in-house della Regione Friuli Venezia Giulia, che ha l’onere e l’onore di gestire l’ICT per l’intero territorio. Di fatto, si occupa dei dati di tante amministrazioni regionali differenti, poiché una regione, per l’assetto istituzionale italiano, è responsabile della sanità, della scuola e dell’ambiente, e deve quindi amministrare contesti separati.
Inizialmente avevano due problemi essenziali. Il primo era di natura operativa: come rendersi più efficienti a fronte del tanto tempo speso quotidianamente per rispondere alle richieste di dati provenienti dalle altre amministrazioni, spesso con scadenze strettissime. In assenza di un’infrastruttura performante queste venivano risolte creando il classico file Excel da consegnare a qualcuno. L’altro problema, molto più legato alla missione istituzionale di un’amministrazione pubblica, era capire come valorizzare il patrimonio informativo. Patrimonio che la Regione Friuli Venezia Giulia possiede e che INSIEL gestisce dagli anni Settanta, con una profondità storica notevole.
Per rispondere a queste due esigenze hanno scelto Denodo, innanzitutto per modellare un patrimonio informativo distribuito fra domini completamente diversi, come quello sanitario, l’ambiente, le scuole e i comuni. Il tutto con regole di governance molto strette, trattandosi di un’amministrazione pubblica e di dati sanitari, che coinvolgono non solo il dato personale ma anche quello sensibile. Inoltre, si tratta di informazioni che non sono di responsabilità diretta di INSIEL, che ne è solo il gestore, ma di chi le condivide. C’era quindi un problema di governance molto spinto, simile a quello di una banca che deve gestire il denaro di tutti garantendo il rispetto delle tutele.
Hanno avviato un’attività di modellazione complessa che li ha portati a creare un modello semantico strutturato per domini, gerarchie e categorie. Per ogni dato o vista logica, come viene chiamata in Denodo, vengono indicati numerosi metadati funzionali alla reperibilità delle informazioni. Ad esempio, il livello di qualità, il responsabile del trattamento, il dominio di appartenenza, le categorie e specifici tag utili a indicare se si tratti di un dato certificato o ancora in versione bozza. Il funzionamento è simile a quando si acquistano prodotti su Amazon e si utilizzano i filtri per selezionare ciò che serve.
Successivamente, su questa base, hanno sfruttato il nostro Data Marketplace. Si tratta di una componente della soluzione pensata per l’utente finale o l’utente di business che nasconde completamente il dettaglio tecnico. Questo consente di navigare il patrimonio informativo con la stessa facilità con cui navighiamo su Netflix per cercare un contenuto. Agli utenti non interessa conoscere il dettaglio di come il dato digitale o analogico sia stato convertito, ma interessa l’informazione finale.
E per gli utenti negli uffici qual è stato il cambiamento più visibile?
All’interno della piattaforma è presente un chatbot che permette un approccio collaborativo alla ricerca del dato. Un utente può iniziare ponendo domande sul significato, ad esempio specificando che sta cercando informazioni sulle scuole, in particolare sugli alunni, includendo attributi relativi ai servizi gratuiti di cui usufruiscono. Questa prima interazione serve a individuare quanti dati di quel tipo siano stati modellati.
Una volta trovato il materiale di interesse, si può proseguire con lo stesso approccio conversazionale per richiedere un’estrazione specifica. Come ad esempio l’elenco dei cento studenti che utilizzano più servizi comunali in una determinata zona e che magari sono in carico ai servizi sociali per particolari situazioni. L’obiettivo è poter conversare con le informazioni, secondo il concetto del “chat with your data“, partendo dal significato fino ad arrivare al dato vero e proprio.
Il progetto è tuttora in corso. È pubblico e rappresenta un modello che stiamo cercando di replicare anche in altre regioni, poiché ogni territorio italiano condivide le medesime responsabilità e opportunità.
La redazione ringrazia Andrea Zinno, Data Evangelist di Denodo, per una discussione ricca di interessanti spunti di riflessione su un argomento molto importante ma ancora poco dibattuto. I nostri lettori interessati ai servizi offerti da Denodo possono fare riferimento direttamente alla pagina web dell’azienda.
#Adessonews seleziona nella rete articoli di particolare interesse.
Se vuoi leggere l’articolo completo clicca sul seguente link
Dario Maggiorini
Source link




