Intelligence artificielle : Les données sont le différenciateur
Compte tenu de son essor rapide et de son potentiel de transformation, l’IA générative est en passe de devenir l’une des pierres angulaires de l’économie moderne. En bouleversant les économies et les secteurs d’activité, nous pensons que l’IA va offrir de nouvelles opportunités d’investissement mais aussi présenter des risques accrus, alors que l’écart entre les gagnants et les perdants va se creuser. Dans un article précédent, nous avions affirmé que les bénéficiaires potentiels de l’IA se trouvaient en dehors d’un groupe concentré de grands groupes américains qui ont largement contribué à la progression récente des marchés actions. Les bénéficiaires immédiats - que nous appelons les « facilitateurs » - englobent par exemple les fabricants de semi-conducteurs. Selon nous, la prochaine cohorte de bénéficiaires potentiels se trouve dans la catégorie « données et sécurité ».
La quantité de données produites croît de manière exponentielle. Les jeux de données sont également de plus en plus gigantesques, non structurés et complexes. Ce contexte est propice au développement de technologies d’IA innovantes, comme les grands modèles de langage (LLM). Cependant, selon certaines études, la gestion des données, qui va de la collecte et du stockage au nettoyage en passant par la protection - est l’un des principaux freins aux ambitions de développement des entreprises en matière d’IA.1 Les prestataires de l’écosystème technologique capables d’aider les entreprises dans ces tâches ont donc toutes les chances de bénéficier de manière disproportionnée des avancées de l’IA.
Source : Domo, publication originale en septembre 2022 et actualisations ultérieures. Toute référence à une entreprise ou un titre spécifique ne constitue pas une recommandation d’achat, de vente, de conservation ou d’investissement direct dans l’entreprise ou ses titres.
De la collecte à la protection
Collecte
L’avènement de grands modèles de langage facilement accessibles, comme ChatGPT, nécessite une puissance de calcul et une capacité de mémoire considérables. Mais concrètement, leur fonctionnement repose sur les données. Tout au long de leur phase d’apprentissage, les grands modèles de langage détectent des schémas et des liens dans les données utilisées. Le modèle prédit ensuite des résultats. Pour veiller à bien préparer un modèle en fonction de l’amplitude souhaitée et de l’étendue des cas d’utilisation, il est essentiel de disposer d’un large éventail de données pertinentes, précises et complètes. Pourtant, les chefs d’entreprise craignent que la traçabilité et la provenance des données ne freinent l’adoption de l’IA générative.2
Les données sont classées en deux catégories : structurées ou non structurées. Dans leur forme brute, les données structurées sont quantitatives et, par conséquent, organisées. Les données non structurées sont qualitatives (audio, vidéo, messages sur les médias sociaux) et leur interprétation est plus difficile. Si les données structurées sont plus faciles à déchiffrer, une analyse efficace des données non structurées offre un éclairage plus précis sur les habitudes et les comportements, ce qui permet d’obtenir de précieux enseignements et de générer des résultats plus probants.
Pour que les modèles atteignent leur plein potentiel, les ingénieurs collectent les données structurées et non structurées qu’un modèle devra « ingérer ». En fin de compte, l’éventail des résultats possibles d’un modèle est déterminé par les schémas appris, en fonction des données d’entrée. L’efficacité d’un modèle d’IA peut être limitée par les données ingérées pendant l’apprentissage, ce qui témoigne de la nécessité de disposer de jeux de données représentatifs, de grande qualité et précis. Nous pensons que les entreprises qui s’aventurent dans le champ des données non structurées vont vite gagner en efficience et générer de meilleurs résultats.
Stockage
Une fois collectées, les données peuvent être stockées sur site, dans des environnements dématérialisés (cloud) publics ou privés ou via des solutions hybrides. Chaque option a ses propres avantages et limites.
- Le stockage sur site offre à la fois autonomie et contrôle sur le matériel, ce qui peut être préférable en cas de données sensibles et/ou d’obligation du respect de la réglementation. Toutefois, l’option du stockage sur site implique un investissement initial important et le degré de modularité est limité.
- Les environnements cloud offrent à la fois modularité et accessibilité et fonctionnent souvent selon une structure de coûts basée sur l’utilisation. La dépendance à l’égard de fournisseurs de services externes peut néanmoins entraîner des questions liées à la confidentialité des données.
- Quant aux solutions hybrides, elles combinent les points forts des environnements sur site et sur le cloud. L’approche hybride offre une grande flexibilité en termes d’échelle, de coût et d’efficience, mais elle implique par ailleurs une intégration et une expertise complexes.
Ces dernières années, on a constaté un net engouement pour les environnements dématérialisés. Au-delà de l’impact de la crise sanitaire, la montée en puissance de la capacité de calcul de l’IA - et des services qui y sont liés - va continuer à alimenter la croissance et à doper les marges des acteurs du cloud computing. Ces entreprises ont donc toutes les chances de bénéficier de ces tendances, en particulier les fournisseurs d’infrastructures réseau qui vont faciliter la transition du stockage sur site vers les plateformes dématérialisées.
Source : Goldman Sachs Global Investment Research. Au 18 mars 2024. Enquête auprès de 100 dirigeants d’entreprises du secteur des TI présentes dans le classement Global 2000. Question : "Quel pourcentage de vos applications avez-vous transféré vers des plateformes cloud publiques à ce jour et que prévoyez-vous d’ici trois ans (par ex. Amazon AWS, Microsoft Azure, Google Cloud) ?" Toute référence à une entreprise ou un titre spécifique ne constitue pas une recommandation d’achat, de vente, de conservation ou d’investissement direct dans l’entreprise ou ses titres.
Nettoyage
Il est indispensable que les entreprises fassent confiance aux résultats des modèles d’IA. La prévisibilité du modèle, c’est-à-dire connaître la traçabilité et la précision des données, est essentielle pour gagner la confiance des utilisateurs et des parties prenantes. Selon nous, les dirigeants d’entreprises vont utiliser l’IA pour des choix importants, qu’il s’agisse de notations de crédit ou de décision médicale. Les scénarios assortis d’enjeux stratégiques imposent de disposer de données de grande qualité pour alimenter les modèles d’IA.
Lors de cette phase d’alimentation, des données non organisées et imprécises peuvent se révéler néfastes et réduire les performances du modèle en raison d’erreurs coûteuses et du temps consacré aux corrections. Les services de nettoyage des données pérennisent l’intégrité de la chaîne de valeur des données et permet de répondre aux exigences en matière de traçabilité. Les entreprises offrant des services de préparation et de nettoyage des données constituent selon nous de très bonnes opportunités d’investissement.
Protection
La protection des données est une priorité numéro un pour l’entraînement des modèles d’IA, d’autant que les cyberattaques ne cessent d’évoluer en raison de la capacité des pirates à identifier et à exploiter de nouvelles vulnérabilités. L’augmentation et la sophistication accrue des cyberattaques peuvent s’expliquer par une dématérialisation croissante à l’échelle mondiale et la complexité de l’environnement géopolitique. Les progrès ininterrompus de l’IA peuvent servir à orchestrer des cyberattaques et à dérober des données, mais ils permettront également de créer des solutions de défense efficaces, en identifiant par exemple des activités dissimulées et des schémas complexes de comportements malveillants.
Avec l’apparition de nouveaux types de menaces, les dirigeants du secteur de la sécurité de l’information auront besoin de solutions novatrices pour sécuriser les données propriétaires de leur entreprise. La nouvelle génération de fournisseurs de services de cybersécurité peut aider les clients à protéger leurs actifs le plus précieux. Dans les années à venir, les innovations et l’essor du marché vont faire émerger des opportunités d’investissement dans le domaine des technologies de cyberdéfense.
Le pouvoir appartient aux données
Les modèles d’IA étant de plus en plus sophistiqués et complexes, le potentiel de développement d’une entreprise - au regard des capacités de l’IA générative - sera déterminé par la qualité de ses données et sa capacité à les gérer de manière optimale tout au long de leur cycle de vie. Cette gestion porte sur l’origine des données, l’infrastructure de stockage, les protocoles de nettoyage et les mesures en place pour veiller à leur sécurité.
Nous cherchons à identifier des entreprises qui permettent aux entreprises de gérer leurs données avec efficacité et rigueur plutôt que de « polluer » leurs écosystèmes d’IA avec des données insuffisantes ou inexactes. En tant qu’investisseurs actifs, nous passons au crible les opportunités d’investissement dans des entreprises qui s’appuient sur les données pour améliorer l’efficacité opérationnelle, mieux comprendre leurs clients, proposer des expériences plus personnalisées et prendre des décisions plus avisées grâce aux outils d’IA. Ces entreprises vont commencer à tirer leur épingle du jeu en 2024 et bien après, grâce à l’arrivée à maturité des technologies d’IA et à la démultiplication des opportunités d’investissement.
1 McKinsey. « The data dividend: Fueling generative AI ». 15 septembre 2023.
2 IBM Institute for Business Value. « Generative AI CEO pulse survey ». Réalisée auprès 200 dirigeants américains. Avril-Mai 2023