6 Jan 2025
En 2025, l’IA va t’elle tuer l’IA ?
Depuis le 30 novembre 2022, date de la sortie de ChatGPT, on entend parler d’IA partout. L’IA, c’est l’abréviation d’Intelligence Artificielle. Ce service a apporté ce que l’on appelle une évolution disruptive pour le grand public. Depuis, les géants de l’Internet ont créé leurs propres versions : Copilot pour Microsoft, Gemini pour Google, Apple Intelligence pour Apple, xAI pour Elon Musk etc…
Cette IA révolutionne d’ores et déjà nos habitudes. Nous l’utilisons au quotidien. Elle se retrouve partout, y compris dans les logiciels que l’on utilise depuis bien longtemps comme Word ou Powerpoint. Celui qui ne propose pas d’IA dans sa solution est « has been », dépassé, d’un autre temps. L’IA est devenu un « buzz word », un terme à utiliser à toutes les sauces, incontournable !
Avec 2025, cette révolution rentre dans sa troisième année. Va t’elle continuer à se développer partout dans notre quotidien ? Ou va t’elle mourir ? Mais qui pourrait la tuer, à part elle même ? C’est ce qui risque d’arriver cette année. Analyse.
Petit rappel des bases
Commençons par apporter une petite précision. L’IA n’est pas née il y a deux ans. En 1992, lorsque j’ai intégré mon école d’ingénieur, j’aurais pu me spécialiser en SCIA, les Sciences Cognitives et l’Intelligence Artificielle. J’ai certes choisi une autre spécialisation, Systèmes et Réseaux, qui me paraissait plus porteur à cette époque où Internet n’existait pas encore pour le grand public, mais l’IA existait déjà à cette époque.
ChatGPT, qui a créé le buzz fin 2022, est un LLM, un Large Language Model, une branche spécifique de l’IA. Avouez que LLM, c’est moins glamour que IA. On ne s’étonnera donc pas que pour le grand public, c’est le terme IA qui a été préféré à LLM.
Le principe du LLM, si vous ne le connaissez pas, est finalement assez simple. Le moteur va construire une phrase, mot par mot, en choisissant le mot suivant selon la probabilité d’être le meilleur mot suivant parmi tous les mots qu’il connait et ainsi de suite jusqu’à la fin de la phrase. Pour cela, il a besoin de deux ingrédients : un contexte, c’est à dire la question qui lui est posée, et une base de données gigantesque de tous les textes possibles et imaginables. Le LLM ne fait donc que des calculs de probabilité et répéter ce qui a déjà été dit ailleurs.
La base de données, c’est le nerf de la guerre
La constitution de cette base de données est le nerf de la guerre du LLM. Dans le jargon des spécialistes, on appelle ça la phase d’entrainement. Il faut injecter au moteur autant de textes possibles. Ce dernier va les traduire en éléments mathématiques qu’il réutilisera ensuite pour calculer ses probabilités.
La quantité de texte doit être énorme, gigantesque, pharaonique. Où trouver tous ces textes ? Avec Internet bien sûr !
En résumé et en simplifiant, entrainer un moteur LLM consiste « juste » à lui injecter TOUT Internet et le tour est joué. Cela prend BEAUCOUP de temps et cela nécessite ÉNORMÉMENT d’espace de stockage ! C’est pour ça qu’au début, un LLM restait figé avec sa connaissance pendant plusieurs mois, le temps d’entrainer une autre version. Maintenant, les LLM sont actualisés en temps réel avec les nouveaux articles publiés sur Internet. Faites le test et demandez à l’un d’entre eux des précisions sur un événement qui s’est déroulé aujourd’hui.
De la quantité OUI, mais de la qualité AUSSI
Les LLM, tout comme les moteurs de recherche de type Google, sont capables de gérer la quantité de données que représente Internet. Mais il faut également que la donnée soit de qualité. Il ne faudrait pas que les données injectées entrainent de mauvaises réponses. Les moteurs de recherche sont confrontés à ce problème depuis bien longtemps et développent des algorithmes, toujours plus complexes, pour éliminer les contenus indésirables. Notamment, toutes les pages de spammeurs et les contenus illicites doivent être supprimés des résultats de recherche.
Pour les LLM, c’est pareil. Toutes les discussions avec les LLM sont analysées pour améliorer la qualité des réponses.
N’avez vous pas remarqué, que le LLM reconnait ses erreurs avec une politesse parfaite quand vous le lui signalez ? En fait, il ne sait pas si sa réponse est bonne ou mauvaise. Il sait juste qu’il a choisi la réponse la plus probable à la question qui lui a été posée. Mais en lui signalant qu’il s’est trompé, il va « apprendre » de son erreur et ne la fera plus par la suite si on lui repose la même question.
Savez-vous quelle est la quantité de réponses fausses produites par un LLM ?
En moyenne, la règle des 80/20 s’applique bien. Les LLM produisent 80% de bonnes réponses et 20% de mauvaises réponses. 20% d’erreur, c’est énorme ! Cela veut dire qu’une réponse sur cinq est fausse. La probabilité qu’elle arrive est donc très forte. En réalité, le taux de bonnes réponses fluctue de moins de 20% à 100%, selon la nature des questions posées.
Si votre question porte sur quelque chose de très commun et très largement commenté sur Internet, la réponse sera garantie à 100%.
Par exemple, à la question « Qui est le président de la France ? », la réponse de Copilot est « Le président actuel de la France est Emmanuel Macron. »
Si la question est plus polémique, la réponse est souvent neutre. Par exemple, à la question « Est-ce que LFI a raison de voter la censure du gouvernement ? », la réponse de Copilot est « Cela dépend de perspectives politiques et des opinions individuelles » et de rajouter « Qu’en penses-tu ? ».
Mais si vous poussez le questionnement un peu plus loin, notamment en lui demandant de se positionner, il va nécessairement apporter des réponses issues d’articles provenant de LFI si vous lui faites comprendre que vous êtes pour la censure ou d’articles venant de partis dits « Républicains » si vous insinuez le contraire. Il va adapter ses réponses à vos opinions. Et si vous n’êtes pas d’accord avec lui, il « apprendra » de son erreur et ne la reproduira plus.
Avoir encore plus de données pour réduire le taux de réponses fausses
Un autre moyen pour réduire le taux de réponses fausses, c’est de demander à un autre LLM de contrôler les réponses du premier LLM. Pour cela, le LLM contrôleur va créer lui-même des données. A l’aide d’un script informatique, il va poser des milliers de fois une même question à un autre LLM avec des données d’entrée différentes puis va donner une note à la réponse apportée. Il va en déduire une qualité des données qu’il a lui même inventées. Il en résulte des réponses de meilleure qualité, statistiquement parlant.
L’IA permet de générer des contenus plus rapidement
Grace à l’IA, les experts en marketing ou les personnes voulant avoir de la visibilité peuvent publier plus rapidement plus de contenus rédigés dans un français impeccable ou selon un tout autre style car il est même possible de demander au LLM d’adapter le style de sa réponse.
Selon une étude, les contenus générés par les LLM représenteront en 2026 plus de 50% des contenus sur les réseaux sociaux.
Un LLM peut facilement être manipulé
Par exemple, à la question « Qui est Franck Beulé ? », Copilot va répondre qu’il est Master Data Leader chez Renault et reprendre tous les verbatims que j’ai mis moi-même sur mon blog. Que se serait-il passé si j’avais écrit tout autre chose me concernant ? Il aurait pris pour argent comptant cette information et l’aurait partagée.
Il peut également déduire des informations fausses basées sur de vraies données. Par exemple, en s’appuyant sur une autre source que la mienne, il a déduit que j’étais « un auteur et historien du cinéma notamment connu pour ses livres sur des séries télévisées célèbres, comme « 10 ans de Friends ». Il a écrit plusieurs ouvrages sur l’histoire des séries télévisées et des films ». Certes, j’ai bien écrit le livre qu’il a cité, mais je ne suis nullement un historien du cinéma et je n’ai pas publié d’autres livres. L’information est donc en partie fausse.
Un LLM peut inventer des choses ou des mots qui n’existent pas
Posons une question sommes toutes assez simple : « Comment nomme t’on la phobie du silence ? ». Il existe des milliers de phobies, celle-ci doit bien exister. Les recherches que j’ai faites jusqu’alors ne m’ont pas permises de trouver ce mot.
Copilot propose comme première réponse « sédatophobie » qui est la peur des calmants. Après lui avoir fait remarquer son erreur, il a proposé successivement plusieurs mots : sélectophobie, aphonophobie , silencephobie. Ce qui est intéressant là, c’est que les mots proposés sont totalement inventés. « Sélectophobie » ne donne aucune réponse sur Google. « aphonophobie » est issue du mot « phonophobie » qui est la peur du bruit et le « a » en début de mot est parfois utilisé pour signaler l’inverse. Bien vu ! Moins inspiré, « silencephobie » est la concaténation des deux mots. Bien que sans nom, cette peur existe bien (voir cet article ou ce podcast) et le LLM lui a donné plusieurs noms bien que ces noms n’existent pas.
La manipulation à l’échelle industrielle
Imaginez maintenant ce que font les lobbyistes qui cherchent à manipuler l’information à leur avantage ou les puissances étatiques qui cherchent à justifier leurs actions et leurs guerres. Avec des moyens financiers importants, ils vont tout simplement inonder les sites Internet et les réseaux sociaux de leurs fausses informations, générées par des automates utilisant des LLM, informations qui seront crédibilisées parce qu’ils auront publié à d’autre endroits des contenus confirmant que les premiers sont vrais. Les LLM sont perdus et ne sont plus capables de faire la part des choses entre les informations vraies et les informations fausses.
En 2025, l’IA va bel et bien tuer l’IA !
En résumé, l’IA a besoin de beaucoup de données pour fonctionner. Tout ce qu’il y a sur Internet ne suffit pas. Pour entrainer les moteurs, les spécialistes n’hésitent pas à utiliser l’IA pour créer de nouveaux textes. Les lobbyistes et autres puissances étatiques utilisent en masse l’IA pour diffuser leur propagande. Les contenus publiés sur Internet et les réseaux sociaux vont provenir plus souvent d’une IA que d’un humain. Et aucune personne neutre ne sait vraiment dire si une information est vraie ou fausse, à moins d’être un spécialiste du sujet.
La jeune génération utilise déjà largement l’IA pour rédiger leurs exposés et ce, dès le collège. Mais ils n’ont pas l’esprit critique d’un adulte pour juger de la véracité de la réponse apportée. Ce sont bien eux qui vont ensuite diriger le monde, avec « ces » vérités.
Si les lobbyistes de la Terre plate prennent le dessus, vous aurez beau dire que la Terre est ronde, personne n’accordera le moindre crédit à vos dires. Ce n’est pas ces lobbyistes là qui m’inquiètent. Ce sont les autres, ceux qui sont bien plus virulents et sans scrupule, qui ont pour ambition de vous manipuler pour mieux diriger le monde.
Oui, c’est bien l’IA qui va tuer l’IA en manipulant plus de données fausses que vraies. A moins que l’IA nous tue tous avant en se basant sur de fausses informations !
Restez vigilants avec l’IA. A bon escient, c’est un superbe outil et il serait dommage de s’en priver. Mais ne vous fiez pas à ses réponses. Gardez l’esprit critique et vérifiez tout !
Bonjour Franck,
Bravo pour cet article. Je partage totalement ton point de vue sur l’IA que j’utilise assez souvent pour générer du Python ou du C++. Ça donne des idées de solution mais ça ne marche que très rarement.
J’espère que ton papa va bien. Il y a longtemps que je n’ai plus de nouvelle. Jean Denis