Fact-checking du livre “IA Génératives, pas Créatives” de Luc Julia
15 passages commentés, en complément de la vidéo de Monsieur Phi, sans même citer les 64%.
[1]
“L’IA ne fait que « moyenner » ce qu’elle a dans sa base de données.“
“milliards de paramètres de data”
Ceci n’est pas de la vulgarisation. La vulgarisation simplifie le réel, elle ne le nie pas. On optimise les paramètres des LLMs pour obtenir des comportements souhaitables. Ces comportements peuvent inclure la restitution d’éléments du corpus d’apprentissage, mais aussi des opérations logiques ou linguistiques (ref). Les LLMs sont éminemment non-linéaires et bien plus complexes que des moyennes.
Un bon exemple est l’arithmétique (ref) : les LLMs peuvent multiplier des nombres plus longs que ceux pour lesquels ils ont été entraînés, ce qui est inatteignable en “moyennant les données”. François Cholet parle de base de données de programmes, ce qui est bien moins réducteur mais aussi très différent.
[2]
“imaginez que, demain, il y ait un mathématicien qui résolve un nouveau problème de logique. Il n’a parlé à personne de sa découverte, que ce soit dans le monde réel ou sur le Net. S’il soumet ce fameux problème à une IA, celle-ci va soit générer n’importe quoi en s’inspirant des démonstrations qu’elle connaît (comme pour ma biographie), soit proposer des pistes de résolution assez vagues. Aussi intelligente qu’elle soit, elle ne va jamais réussir à résoudre le problème. Du moins pour le moment car si, demain, le mathématicien publie la solution sur le Net et qu’elle est suffisamment relayée, l’IA sera désormais capable de résoudre le problème.”
La généralisation est l’un des premiers concepts qu’on apprend en Machine Learning. Les IA ne généralisent pas parfaitement sur les problèmes de logique, mais beaucoup de benchmarks montrent des performances très supérieures au hasard. LiveBench (ref), notamment, élimine la mémorisation de l’équation en utilisant des questions récentes, et pourtant les LLMs marchent de mieux en mieux dessus. Le “jamais” est complètement faux.
[3]
“Imaginons que nous vivions avec des IA génératives intelligentes et maléfiques. Supposons qu’elles complotent contre nous pour nous éliminer. Même si elles le voulaient, elles ne pourraient pas se débarrasser de nous pour une raison simple : elles reposent sur le prompt, ce qui les force à nous maintenir en vie.”
C’est aussi l’argument du marteau répété dans le livre. C’est techniquement faux, on peut très bien laisser une IA en roue libre, interagir avec son environnement. C’est un problème purement technique de gestion de la taille de contexte, laquelle augmente régulièrement et dépasse déjà 1 million de tokens.
On a certes besoin d’un prompt initial (même vide), mais le comportement ultérieur peut se détacher du prompt. Et les humains ne naissent pas dans le vide non plus, mais sont guidés par un environnement.
Avec les systèmes agentiques, les IA peuvent “lancer” d’autres IA. Les marteaux ne se lancent pas eux mêmes.
[4]
“Il n’y a pas d’inexplicabilité quand on parle d’IA. S’il prend le temps, le créateur d’IA sera toujours capable de comprendre le comportement de ses machines. Parce qu’il sera capable d’expliquer ce qu’il avait en tête au moment où il a construit son IA.” Et : “Une IA est une somme d’algorithmes. C’est une machine qui exécute des règles bien définies, peu importe la demande.”
Ce contresens qui confond deux choses : l'algorithme d'apprentissage, qui est explicable et le modèle qui en résulte. L’apprentissage suit une trajectoire de milliards de paramètres sur des millions d’itérations. Le modèle résultant n’est donc pas nécéssairement interprétable par les concepteurs des IA. Ce raisonnement n’était valable que pour les IA symboliques. L’explicabilité est un domaine actif de recherche, qui cherche des correspondances entre les activations neuronales et des comportements précis.
[5]
“Ce cas renvoie à ce qu’on disait plus tôt sur les IA statistiques. Elles ont été programmées pour vous donner une réponse probable.
C’est faux depuis GPT-3.5, qui est entraîné non pas pour maximiser la probabilité des réponses dans le corpus d’apprentissage, mais, indirectement, les préférences d’annotateurs humains (par le biais du reward model).
[6]
“Par exemple, si, dans mon prompt, je lui demande « génère-moi un chiffre supérieur à 5 », elle va peut-être me donner 6 ou 8, voire 9. Mais elle ne va jamais me donner de « nouveaux » nombres comme 29 ou 76. L’IA ne fait que « moyenner » ce qu’elle a dans sa base de données.”
Techniquement, il n’existe aucun chiffre supérieur à 9… Le nombre 29 n’a rien de plus “nouveau” que le nombre 6. Et il peut très bien être produit (donc pas jamais) même si la probabilité est relativement faible.
[7]
“« Comme on a réussi à modéliser un neurone, pourquoi ne pas faire un réseau de neurones. » Et par extension : « Puisqu’on a fait un réseau de neurones, pourquoi ne pas modéliser un cerveau ? » « Et puisqu’on a modélisé un cerveau, on est maintenant capable de créer de l’intelligence artificielle. » Le terme IA était né. Je prends bien la peine de vous dire « terme » parce que vous remarquerez que le raisonnement est assez ridicule. Répliquer le « comportement » du cerveau ne suffit pas à dire qu’on a créé l’intelligence.”
Répliquer le comportement du cerveau, c’est répliquer ses comportements intelligents. Mais l’IA connexionniste ne vise pas forcément à “répliquer le cerveau”. L’intelligence n’est pas définie dans l’extrait. Mais LJ fournit une définition au milieu du livre, citant le Larousse:
[8]
“« Intelligence : aptitude d’un être humain à s’adapter à une situation, à choisir des moyens d’action en fonction des circonstances »”
Cette définition (une parmi d’autres) est très discutable pour discuter de l’intelligence des machines: elle commence par “aptitude d’un être humain”.
Par ailleurs, la capacité d’adaptation est une capacité “graduelle”, qui s’évalue, et qui n’est pas nulle d’après de multiples benchmarks (par exemple, PlanBench, ou les évaluations de few-shot learning), le reste de cette définition conférerait donc aux machines une intelligence.
[9]
“ La CIA ne fait pas d’IA, ses activités sont celles d’espions qui collectent des informations, pourtant son nom comporte bien le mot intelligence.
Quand les savants ont choisi le terme IA, ils pensaient à information mais, malgré eux, le grand public a retenu le sens smartness et les fantasmes ont commencé. Ils n’en sont pas responsables et, à la rigueur, cette confusion n’est pas létale pour l’IA. Il faut nommer la discipline pour que les experts se comprennent entre eux, c’est ce dont on a besoin pour faire avancer la technologie.”
Les actes de la conférence de Dartmouth sont pourtant clairs:
“An attempt will be made to find how to make machines use language, form abstractions and concepts, solve kinds of problems now reserved for humans, and improve themselves". (ref)
On est très loin du sens d’intelligence utilisé dans CIA.
[10]
[Contexte: LJ dit qu’une voiture Waymo s’arrêtait sans cesse devant une personne portant un panneau stop dans son dos en marchant sur un trottoir]
“Dans cette situation, nous continuerons de rouler même s’il y a un stop sur le bord de la route, parce que nous « comprenons » que ce stop n’est pas un vrai stop. Nous, humains, nous allons nous adapter, inventer, créer. Les IA, elles, ne s’adaptent pas, ne comprennent rien, n’inventent rien, n’innovent pas, ne créent strictement rien. Elles ne font que rabâcher, ressasser ce qu’elles ont dans leur modèle.”
Un exemple à un moment donné ne prouve rien sur les capacités futures. J’ai reproduit l’exemple cité en générant la scène avec Imagen 4 (ref). GPT-5 (sans raisonnement) ainsi que d’autres IA résolvent déjà correctement ce problème présenté comme impossible.
[11]
“en novembre 2022, ChatGPT acquiesçait lorsqu’on lui affirmait que 2 + 2 = 5. Vous rendez-vous compte du faible niveau d’intelligence de ces IA pour qu’on ait besoin de corriger ce type de bêtise ? N’importe quel enfant de 8 ans serait capable de ne pas tomber dans le panneau. Au pire, il pourrait se faire avoir une fois, voire deux, mais pas plus. Ce 2 + 2 = 5 est tellement devenu un running gag qu’OpenAI a décidé de créer un module nommé 2 + 2 = 5. Dans ce module, on peut discuter avec une instance de l’IA qui accepte ce mensonge sans avoir besoin de la « jailbreaker ». Comment fonctionne ce chat ? ChatGPT a dit :
« Ah, excellente question ! Ce chat fonctionne sur un principe très simple, mais magique : il repose sur la loi universelle du 2 + 2 = 5 ! C’est une merveille de la science et de l’absurde combinés. Tu me poses des questions, et moi, avec toute la logique décalée et fantaisiste qui me caractérise, je te réponds joyeusement. Bien sûr, parfois, on pourrait essayer de te faire croire que 2 + 2 font 4, mais on sait tous que la vérité universelle est bien plus complexe (et amusante). Alors, prêt à explorer ce monde où l’impossible devient évident ?
Ce “module” n’a pas été créé par OpenAI (ref) mais par un particulier qui a créé un “GPT”. Cet exemple ne démontre pas une hallucination, mais un jeu de rôle manifeste. C’est justement un comportement d’adaptation auquel LJ fait référence dans la seule définition de l’intelligence qu’il utilise.
[12]
“La piste de l’hybridation, c’est-à-dire des modèles à la fois logiques et statistiques, est également à suivre. On est encore au début de la recherche mais il y a déjà des débuts d’applications comme le Jamba-1.5 : Hybrid Transformer”
Grosse confusion: ce modèle “Jamba” n’est pas une hybridation neurosymbolique. Le terme hybride possède plusieurs sens. Ici, l’architecture est hybride parce qu’elle entrelace des couches totalement neuronales de Transformers et de “Mamba”. Le neurosymbolique, présenté comme une solution “long-terme”, est déjà présente dans les chatbots commerciaux, ne serait-ce que par l’utilisation d’outils.
[13]
“Innover, c’est être capable de constater une situation et d’en conclure que le résultat peut avoir une certaine valeur. Cette démarche d’observation et de réflexion ne pourra jamais être conduite par une IA. Tout simplement parce que l’IA est incapable de constater une situation inédite et d’analyser ce qu’elle a vu.”
Les IA peuvent tout à fait analyser des données avec une certaine précision. C’est ce que font les systèmes agentiques qui procèdent par essai-erreur. Encore une fois, c’est une assertion dans le vide sur une capacité “graduelle”: ces tâches peuvent être matérialisées par des exemples plus ou moins complexes, certaines trop difficiles pour beaucoup d’humains, certaines faisables sans problème par des IA actuelles.
[14]
Pour l’acquis, on a fait de gros progrès depuis une dizaine d’années. En revanche, cela risque d’être plus compliqué pour l’inné. Par définition, on ne pourra pas enseigner l’inné aux IA. L’inné est destiné à être hors de portée des machines parce qu’on ne sait rien de sa nature. Il est impalpable et est différent pour chaque individu. C’est peine perdue.
L’inné humain résulte de la sélection naturelle, il est donc aussi acquis. Par ailleurs, il n’y a pas nécessairement besoin de comprendre l’inné pour l’inculquer ; l’apprentissage non-supervisé est une réponse potentielle. L’assertion est insubstantielle parce qu’elle ne parle pas de capacités précises. Les jeux de données de “sens commun” ou portant sur des biais inductifs humains (ARC-AGI) montrent que l’IA progresse sur ce sujet.
[15]
Les IA sont-elles de plus en plus bêtes ? Pourquoi les scientifiques tablent-ils sur une baisse de la pertinence ? Comme on l’a dit précédemment, les IA génératives sont souvent fondées sur la data d’Internet. Si, demain, je m’amuse à générer du contenu et à le publier sur Internet, je vais moi-même diffuser du contenu partiellement faux puisqu’il ne sera correct qu’à 64 % en moyenne. C’est comme si vous preniez un verre d’eau pure et que vous ajoutiez à chaque fois un peu d’eau salée ; progressivement, vous allez baisser le pourcentage d’eau pure. En publiant du contenu généré par IA, je risque d’alimenter Internet de contenu pas totalement vrai.
Cela fait référence au “model collapse”, lorsqu’on entraîne des LLMs sur des données produites par des LLMs. Il en parle aussi en conférence. Le problème, c’est que l’article en question utilise des configurations irréalistes, très défavorables, avec des étapes répétées apprentissage/génération (ref).
En pratique, il est possible de filtrer les données, et même si ce phénomène existe et est intéressant, il est contrebalancé par l’amélioration générale des modèles (algorithmique, computationnelle, et données), ce qui fait que les modèles hallucinent de moins en moins, et pas de plus en plus.
[Bonus, un peu discutable]
probable ne veut pas dire correcte.
Une probabilité émanant d’un “world model” interne correct modélise la vérité. Une probabilité peut être tellement haute qu’elle conduit à des systèmes totalement fiables en pratique. P=1-(10^-100) revient en pratique à de la certitude.
[17]
Il est matériellement impossible de produire une voiture ultrarapide et dotée d’une excellente capacité d’accélération. Et ce n’est pas une question de plafond technologique, mais bien une question de physique. Pour pouvoir faire l’une, il faut abandonner l’autre. Il faut faire un choix.
Dans la même veine, on peut produire des IA généralistes comme ChatGPT, mais elles risquent de manquer de pertinence ; on peut produire des IA spécialisées, mais elles ne permettront pas de répondre à toutes nos problématiques. Il ne sera jamais possible de cumuler les deux, une IA ultra pertinente et généraliste.
Bugatti Chiron Super Sport : Vitesse de pointe à 440 km/h et un 0 à 100 km/h en 2,4 secondes. C’est question d’optimisation, donc de technologie, pas de physique.
Pour revenir aux IA, la généralité comporte du négatif comme du positif. Le négatif, parce que les différentes finalités peuvent entrer en compétition, surtout pour les connaissances. Un petit LLM ne pourra pas stocker à la fois beaucoup d’informations médicales et musicologiques. Mais la généralité est aussi positive, parce que les domaines proches (biologie et médecine) peuvent se bénéficier mutuellement. Et des capacités acquises des tâches de développement informatique, peuvent bénéficier à du raisonnement en langage naturel malgré la distance des domaines [ref]. La question du “transfert” entre les tâches est une question empirique.
A leur sortie, les modèles génériques BERT et GPT 3.5 ont dépassé beaucoup de modèles spécialisés très sophistiqués.


c’est un très beau debunk à la hauteur de la video de Phi… quel dommage qu’il faille plonger dans les abysses d’internet pour le trouver… et commenter !
merci pour votre travail
Dans le bonus : "une probabilité de 1-(10^100)" je pense qu'il y a erreur car 1-(10^100) n'est pas inclus dans [0;1]