Intelligenza artificiale: i dati sono l’elemento di differenziazione
La rapida ascesa e il potenziale d’impatto dell’IA generativa (GenAI) mettono questa tecnologia sulla buona strada per diventare il segno distintivo dell’economia moderna. Prevediamo che, man mano che l’IA modificherà le economie e i settori, la gamma di opportunità d’investimento e i rischi si amplieranno e il divario tra vincitori e vinti aumenterà. Abbiamo già sottolineato che i possibili beneficiari si possono trovare al di fuori di un gruppo ristretto di grandi aziende statunitensi che finora hanno guidato la crescita del mercato azionario e che sono stati i beneficiari diretti, o i cosiddetti “catalizzatori”, tra cui i produttori di semiconduttori. Riteniamo che il prossimo gruppo di possibili beneficiari si possa trovare nel settore “dati e sicurezza”.
La quantità di dati creati sta crescendo in modo esponenziale. Anche i dataset stanno diventando più grandi, complessi e meno strutturati. Ciò crea un contesto ideale per lo sviluppo di tecnologie IA innovative, come i modelli linguistici di grandi dimensioni (large language models, LLM). Tuttavia, gli studi suggeriscono che una delle principali sfide che impediscono alle aziende di espandere le proprie ambizioni di IA è la gestione dei dati: dalla raccolta e l’archiviazione, alla pulizia e la protezione.1 Riteniamo che le aziende all’interno dell’ecosistema tecnologico in grado di offrire un contributo in queste attività siano destinate a trarre un beneficio enorme, man mano che ci muoviamo verso un mondo in cui l’IA sarà sempre più protagonista.
Fonte: Domo, dati pubblicati inizialmente a settembre 2022 e aggiornati successivamente. Ogni riferimento a società o titoli specifici non costituisce una raccomandazione per l’acquisto, la vendita, la detenzione o l’investimento diretto nelle stesse società o nei relativi titoli.
Dalla raccolta alla protezione
Raccolta
Lo sviluppo di modelli linguistici di grandi dimensioni (large language models, LLM) accessibili a livello commerciale, come ChatGPT, richiede una notevole potenza di calcolo e memoria. Tuttavia, in sostanza, si basa sui dati. Durante tutta la fase di addestramento, i modelli linguistici di grandi dimensioni individuano schemi e relazioni all’interno dei dati inseriti. Il modello prevede quindi gli esiti. Per preparare al meglio un modello per la scala e l’ambito di utilizzo desiderati, è essenziale un’ampia gamma di dati pertinenti, accurati e completi. Tuttavia, i CEO temono che la tracciabilità e la provenienza dei dati costituiranno un ostacolo all’adozione della GenAI.2
I dati rientrano in una di queste due categorie: strutturati o non strutturati. Nella loro forma grezza, i dati strutturati sono quantitativi e, pertanto, organizzati. I dati non strutturati sono qualitativi, come audio, video, post sui social media, e richiedono uno sforzo aggiuntivo per essere interpretati. Sebbene i dati strutturati siano più facili da decifrare, i dati non strutturati, quando efficacemente analizzati, forniscono una comprensione più profonda delle abitudini e del comportamento, producendo così risultati più significativi e permettendo conclusioni migliori.
Per addestrare al meglio i modelli, i data engineer raccolgono un insieme di dati strutturati e non strutturati destinati ad essere elaborati da un modello. In ultima analisi, la gamma di risultati è determinata dagli schemi rilevati da un determinato modello in base alle informazioni ricevute. L’efficacia di un modello IA è limitata dai dati ricevuti in fase di addestramento e questo sottolinea la dipendenza da insiemi di dati rappresentativi, di alta qualità e accurati. Riteniamo che le aziende che si affidano a dati non strutturati otterranno una maggiore efficienza e forniranno risultati migliori.
Archiviazione
Una volta raccolte, le opzioni di archiviazione dei dati spaziano da ambienti di cloud locali, pubblici o privati, a soluzioni ibride. Ogni opzione ha i propri limiti e i propri vantaggi.
- L’archiviazione in locale offre autonomia e controllo sull’hardware e potrebbe essere preferibile per i dati sensibili e/o le considerazioni normative. Per l’archiviazione in locale è necessario un grande investimento di capitale iniziale e la scalabilità è limitata.
- Gli ambienti cloud offrono scalabilità, accessibilità e generalmente operano in base a una struttura dei costi basata sull’utilizzo. Tuttavia, la dipendenza da fornitori di servizi esterni potrebbe creare problemi di privacy dei dati.
- Le soluzioni ibride uniscono i vantaggi delle soluzioni in locale e su cloud. Sebbene un approccio ibrido offra un elevato grado di flessibilità in termini di scalabilità, costi ed efficienza, richiede anche un’integrazione e competenze complesse.
Negli ultimi anni, si è verificato un grande cambiamento a favore degli ambienti cloud. Oltre ad essere stato favorito dalla pandemia, lo slancio delle attività di IA e dei servizi ad essa correlati è destinato a contribuire alla crescita e ai margini del cloud computing in futuro. Ci aspettiamo che ne possano beneficiare le aziende dell’ecosistema cloud, compresi i fornitori di network che agevolano la transizione dalle piattaforme locali a quelle basate sul cloud.
Fonte: Goldman Sachs Global Investment Research. Al 18 marzo 2024. 100 dirigenti IT intervistati da aziende Global 2000. Domanda: "Quale percentuale delle sue applicazioni ha spostato su piattaforme cloud pubbliche oggi e cosa si aspetta tra 3 anni (ad es., Amazon AWS, Microsoft Azure, Google Cloud)?" Ogni riferimento a società o titoli specifici non costituisce una raccomandazione per l’acquisto, la vendita, la detenzione o l’investimento diretto nelle stesse società o nei relativi titoli.
Pulizia
È fondamentale che le aziende abbiano fiducia nell’output dei modelli IA. La prevedibilità del modello, che comprende la tracciabilità di dati e la precisione, è parte integrante della fiducia di utenti e stakeholder. Ci aspettiamo che i decision maker aziendali utilizzino l’IA per scelte importanti, che vanno dai rating creditizi alle decisioni in ambito healthcare. Gli scenari ad alta criticità sottolineano la necessità di dati di alta qualità nel contesto dei modelli di IA.
Quando si inseriscono i dati nei modelli di IA, i dati non organizzati e imprecisi possono essere costosi e dannosi per la performance del modello, a causa di errori che generano costi e tempo dedicato alle correzioni. I servizi di pulizia dei dati aiutano a mantenere l’integrità all’interno della catena di valore dei dati e a soddisfare i requisiti di tracciabilità dell’origine dei dati. Riteniamo che vi sia una significativa opportunità di investire in società che offrono servizi di preparazione e pulizia dei dati.
Protezione
La protezione dei dati per addestrare i modelli di IA è fondamentale in un mondo in cui i metodi di attacco informatico sono in continua evoluzione con hacker che trovano e sfruttano vulnerabilità sempre nuove. L’aumento del volume e della sofisticatezza degli attacchi informatici è determinato dall’aumento della digitalizzazione a livello globale e dal complesso ambiente geopolitico. Le capacità avanzate dell’IA possono essere utilizzate anche per sviluppare attacchi informatici e consentire violazioni dei dati, ma costituitscono anche una componente fondamentale per una difesa efficace, identificando potenziali attività nascoste e complessi modelli di comportamento dannosi.
Con l’evoluzione del panorama delle minacce, i decision maker in materia di sicurezza delle informazioni richiederanno nuove soluzioni per proteggere i dati proprietari aziendali. La next generation di fornitori di cybersecurity può aiutare i clienti a proteggere la loro risorsa più preziosa. Prevediamo che l’innovazione e l’espansione del mercato favoriscano le opportunità di investimento in solide tecnologie di difesa informatica negli anni a venire.
Il potere è nei dati
Man mano che i modelli di IA diventano più sofisticati e complessi, il limite di un’azienda nel contesto delle funzionalità di GenAI sarà determinato dalla qualità dei dati a sua disposizione e dalla capacità di gestirli in modo efficace durante l’intero ciclo di vita. Ciò include il luogo di origine dei dati, l’infrastruttura di archiviazione, i protocolli di pulizia e le misure adottate per mantenerli sicuri.
Puntiamo a individuare le società che consentono alle aziende di gestire efficacemente i propri dati con disciplina, piuttosto che inquinare gli ecosistemi IA con dati imprecisi o incompleti. In qualità di investitori attivi, analizziamo le potenziali opportunità di investimento in società che utilizzano i dati per migliorare l’efficienza operativa, comprendere meglio i propri clienti, creare esperienze più personalizzate e prendere decisioni più informate grazie all’applicazione dell’IA. Riteniamo che queste società inizieranno a distinguersi a partire dal 2024, mentre maturano le tecnologie IA e si ampliano le opportunità di investimento.
1 McKinsey. The data dividend: Fueling generative AI. Al 15 settembre 2023.
2 IBM Institute for Business Value. Generative AI CEO pulse survey. 200 CEO statunitensi. Ad aprile/maggio 2023.