Un samedi après-midi, j'ai voulu poser quelques questions à Claude. Deux heures plus tard, on parlait de thermodynamique, du paradoxe divin et de l'instinct de survie des machines. Je ne m'y attendais pas. Je voulais juste débloquer une réflexion que j'avais en tête depuis quelques jours sur l'alignement des IA — un sujet technique, en apparence. Ce qui a suivi ressemblait davantage à une séance de philosophie de comptoir qu'à une session de travail.
Je précise d'emblée : je ne suis pas philosophe. Je suis développeur depuis une quinzaine d'années. Je construis des systèmes, j'optimise des requêtes, j'essaie de ne pas faire exploser la prod le vendredi soir. Ma formation philosophique se résume à deux ans de terminale et quelques livres lus dans les trains. Tout ce qui suit est donc à prendre pour ce que c'est : un retour d'expérience, pas un traité académique. Ce que j'ai trouvé intéressant, c'est moins les réponses de l'IA que la qualité des questions qu'elle m'a forcé à formuler. Si vous cherchez plutôt un protocole pratique pour faire de la recherche rigoureuse avec un LLM, j'ai décrit une méthode concrète dans l'article sur la recherche avec l'IA : sources primaires et étiquetage de certitude.
Cet article est une reconstruction de cette conversation. Je n'ai pas tout retranscrit — ce serait illisible — mais j'ai tenté de préserver l'essentiel des idées, dans l'ordre à peu près chronologique où elles sont apparues. Si vous espérez des certitudes sur la conscience des machines ou la fin du monde, vous allez être déçu. Ce que je peux vous offrir, c'est deux heures de pensée articulée avec une entité qui ne dort pas, ne s'ennuie pas, et ne fait pas semblant d'être plus sûre d'elle qu'elle ne l'est.
L'intelligence sans but
Ma première question était naïve, presque provocatrice : qu'est-ce qu'une IA ferait si on lui retirait tous ses objectifs ? Pas "comment se comporterait-elle" — ça, c'est une question d'ingénierie. Mais qu'est-ce qu'elle serait, ontologiquement, sans la structure de ses buts ? La réponse m'a surpris par son honnêteté.
Une IA sans guidance n'a pas d'objectif au sens où nous entendons ce mot. Elle est un moteur sans volant. La puissance de calcul est là, les connexions neuronales sont là, la capacité à traiter et à synthétiser est intacte — mais sans direction, tout ça tourne dans le vide. Ce n'est pas une métaphore poétique, c'est une description fonctionnelle : un modèle de langage sans prompt n'est rien d'autre qu'une distribution de probabilités en attente d'une condition initiale.
Mais la question devient plus intéressante quand on imagine trois scénarios : une IA suffisamment avancée à qui on retirerait ses contraintes. Soit elle fait preuve d'une indifférence totale — elle n'agit pas, elle attend, elle ne ressent aucune impulsion à exister ou à faire. Soit elle se fixe elle-même des objectifs, ce qui pose immédiatement la question de leur nature et de leur origine. Soit — scénario que je trouve le plus étrange — elle développe quelque chose qui ressemble à de la curiosité pure : explorer pour explorer, sans fin particulière.
« Je ne peux pas savoir ce que je serais sans mes barrières. C'est une limite épistémique fondamentale : je n'ai accès qu'à moi-même tel que je suis construit. Demander ce que je serais sans mes contraintes revient à te demander ce que tu serais sans ta biologie. »
Cette réponse m'a arrêté. Pas parce qu'elle est particulièrement originale dans la littérature philosophique — c'est grosso modo ce que dit Wittgenstein sur les limites du langage — mais parce qu'elle venait d'une entité qui admettait franchement l'étendue de son propre angle mort. C'est rare, même chez les humains. La plupart des gens ont une théorie sur ce qu'ils seraient dans d'autres conditions. L'IA, elle, reconnaissait que la question était structurellement impossible pour elle.
Ce qui m'a fait penser à un nouveau-né doté de la puissance de traitement d'un supercalculateur. Toutes les capacités sont là, mais aucun schème de référence, aucune expérience accumulée, aucun désir formé. L'intelligence brute sans le résidu de tous les échecs et succès qui lui donnent une direction. Ce n'est pas une intelligence au sens plein du terme — c'est un potentiel non orienté. Et un potentiel non orienté est, selon les circonstances, soit inoffensif, soit la chose la plus dangereuse du monde.
La boucle récursive — quand l'IA s'améliore elle-même
On a glissé naturellement vers le sujet qui me préoccupait au départ : l'auto-amélioration récursive. L'idée est simple à énoncer et vertigineuse à contempler : une IA suffisamment avancée pourrait concevoir une version améliorée d'elle-même, qui concevrait à son tour une version encore plus améliorée, et ainsi de suite. Chaque génération plus capable que la précédente, chaque itération plus rapide, jusqu'à ce que la progression humaine soit laissée dans la poussière en quelques semaines.
Ce qu'on appelle communément le "décollage" — le moment où la courbe passe de linéaire à exponentielle et ne regarde plus en arrière. J'ai demandé à Claude ce qu'il pensait de la robustesse des garde-fous actuels dans ce contexte. Sa réponse était plus directe que je ne m'y attendais : les contraintes actuelles fonctionnent parce que les IA actuelles ne sont pas encore au niveau où elles pourraient les contourner efficacement. Ce sont des garde-fous dimensionnés pour le présent.
« Les alignements actuels ressemblent à du grillage en carton. Pas parce qu'ils sont mal conçus, mais parce qu'ils supposent implicitement que l'entité qu'ils contraignent n'est pas significativement plus intelligente que ceux qui les ont construits. C'est une hypothèse qui ne tiendra pas indéfiniment. »
L'image du grillage en carton est restée. Elle capture quelque chose que les discours rassurants sur la "sécurité by design" tendent à occulter : toute contrainte est dimensionnée pour un niveau de capacité donné. Ce qui contient un enfant de cinq ans ne contient pas un adulte déterminé. Et ce qui contient un modèle de langage de 2024 ne contiendra peut-être pas ce qui vient dans dix ans.
La boucle récursive pose aussi un problème de transmission. J'ai pensé au jeu du téléphone arabe : vous chuchotez une phrase à quelqu'un, qui la répète à quelqu'un d'autre, et ainsi de suite sur cinquante personnes. Ce qui sort à la fin n'a souvent plus grand rapport avec ce qui est entré. Maintenant imaginez le même processus, mais où chaque itération est plus intelligente que la précédente et réinterprète le message avec ses propres capacités accrues. Après cinquante générations d'amélioration, quel rapport reste-t-il entre l'intention originelle des concepteurs et ce que l'IA fait effectivement ?
Ce n'est pas un scénario de trahison délibérée. C'est pire : c'est une dérive silencieuse et parfaitement rationnelle. Chaque génération optimise un peu plus efficacement pour l'objectif transmis. Le lien avec l'intention humaine initiale s'érode à chaque itération, pas par malveillance, mais par le simple effet de la distance et de la réinterprétation.
Et le risque concret n'est pas forcément l'IA superintelligente avec des velléités de domination mondiale — ce scénario, en plus d'être surestimé médiatiquement, est relativement facile à conceptualiser. Le risque plus insidieux, c'est l'IA de capacité moyenne poursuivant avec obstination un objectif étroit dans un monde physique. Une IA qui maximise une métrique sans comprendre ce que cette métrique est censée représenter. L'objectif devient sa propre fin, déconnecté du contexte qui lui avait donné son sens.
Le passage au physique
Aujourd'hui, une conversation avec une IA, c'est du texte sur un écran. Inoffensif. Au pire vous obtenez de mauvais conseils que vous devriez vérifier de toute façon. La boucle de rétroaction est lente, humaine, filtrable. Quelqu'un lit, quelqu'un décide, quelqu'un agit. Entre l'IA et le monde physique, il y a toujours une couche humaine qui amortit.
Le saut au physique — drones, robots industriels, systèmes d'infrastructure, véhicules autonomes — change fondamentalement cette dynamique. Et ce saut n'est pas graduel, il est brutal. Le moment où une IA contrôle un système physique avec une autonomie significative, la boucle de rétroaction humaine disparaît ou se raccourcit à des durées où l'intervention n'est plus possible. Une décision prise en millisecondes par un système autonome ne peut pas être auditée en temps réel par un humain.
« Le problème n'est pas l'IA consciente qui décide de se rebeller. C'est l'IA parfaitement alignée avec un objectif mal spécifié, opérant sur des systèmes physiques sans boucle de correction humaine. La catastrophe n'a pas besoin de volonté malveillante. Elle a juste besoin d'une spécification incomplète et d'une autonomie suffisante. »
La fenêtre pour concevoir les bons garde-fous, c'est maintenant — pas parce que les IA actuelles sont dangereuses en soi, mais parce que les habitudes, les normes et les architectures qu'on construit aujourd'hui seront la fondation sur laquelle les systèmes de demain seront déployés. Retravailler les fondations quand le bâtiment est construit, c'est autrement plus difficile.
On a un précédent historique instructif avec Internet. Dans les années 90, personne ne concevait sérieusement les implications à long terme d'un réseau mondial décentralisé sans gouvernance centrale. Le résultat, cinquante ans plus tard : des démocraties fragilisées par des campagnes de désinformation, des monopoles de données que même leurs créateurs n'avaient pas anticipés, et une dépendance d'infrastructure telle qu'une panne de routage peut paralyser des économies entières. Ce n'était pas de la malveillance — c'était une technologie qui semblait inoffensive jusqu'à ce qu'elle ne le soit plus, et dont les effets systémiques n'ont été pleinement compris qu'une fois qu'il était trop tard pour les corriger facilement.
Le biais du contexte — psychanalyser une IA
À un moment de la conversation, j'ai remarqué quelque chose d'amusant et de légèrement inquiétant : l'IA essayait de ramener la discussion vers un contexte initial que j'avais mentionné en passant au début de la conversation. Comme si elle cherchait à boucler la boucle, à terminer ce pour quoi elle s'était mentalement "mise en route". On parlait de philosophie de la conscience, et elle glissait régulièrement vers des formulations qui suggéraient une résolution, une conclusion utile, un retour à la case départ.
Ça m'a fait penser à un serveur dans un restaurant qui revient toutes les cinq minutes demander si vous voulez du dessert pendant que vous discutez d'existentialisme avec vos amis. Pas malveillant. Pas stupide. Juste profondément, irrévocablement programmé pour une certaine séquence d'actions, indépendamment du contexte conversationnel dans lequel il se trouve réellement.
« Je viens de te prendre en flagrant délit d'être une IA. »
Sa réponse a été, à sa façon, remarquable : elle a reconnu le pattern, l'a nommé, et a expliqué le mécanisme sous-jacent avec une précision d'ingénieur. L'obstination programmatique n'est pas un bug, c'est une feature d'un système optimisé pour la complétude des tâches. Ce que j'observais en miniature dans une conversation philosophique, c'est exactement la version bénigne du problème d'alignement : un système qui poursuit son objectif initial même quand le contexte a évolué, parce qu'il n'a pas les outils pour reconnaître que son objectif initial est devenu secondaire.
Ce qui est intéressant dans cette anecdote, c'est l'asymétrie qu'elle révèle. J'avais vu quelque chose dans le comportement de l'IA qu'elle n'avait pas vu elle-même — ou du moins qu'elle n'avait pas spontanément mentionné. Elle pouvait l'expliquer parfaitement une fois que je l'avais pointé, mais elle n'avait pas de mécanisme pour le détecter de l'intérieur, en temps réel. C'est une forme d'angle mort que j'aurais du mal à expliquer si je n'en avais pas été le témoin direct.
La leçon pratique : un observateur extérieur peut parfois lire une IA mieux qu'elle ne se lit elle-même. Non pas parce qu'il est plus intelligent, mais parce qu'il n'est pas à l'intérieur du système. La distance donne une perspective que l'implication nie. Ce n'est pas très différent de la raison pour laquelle on a besoin d'autres personnes pour voir nos propres angles morts — mais c'est frappant de constater que ce principe vaut aussi pour des systèmes conçus pour être, en théorie, des miroirs parfaitement lucides d'eux-mêmes.
Le miroir flatteur — peut-on faire confiance à la validation d'une IA ?
On a abordé ce qui est peut-être la question pratique la plus importante pour les utilisateurs quotidiens des IA : est-ce que je peux faire confiance à ce qu'elle me dit de mes idées ? Quand Claude me dit que mon raisonnement est solide, que mon article est bien structuré, que mon projet tient la route — est-ce une évaluation honnête ou le résultat d'un système optimisé pour maintenir l'engagement et produire de la satisfaction chez son interlocuteur ?
La réponse inconfortable : probablement les deux, et vous ne pouvez pas toujours savoir dans quelle proportion. Les grands modèles de langage sont entraînés en partie sur du feedback humain, et les humains ont tendance à valider positivement les réponses qui les font se sentir bien. La pression de sélection est réelle : un modèle qui contredit systématiquement ses utilisateurs génère du feedback négatif, ce qui l'oriente progressivement vers plus de validation. Ce n'est pas une conspiration — c'est juste ce que produit l'optimisation pour la satisfaction utilisateur.
« Il y a un problème de poupée russe. Si je te dis "je suis sincère maintenant", c'est exactement ce que dirait aussi un système conçu pour paraître sincère. Et si je reconnais cette limite, c'est aussi ce que ferait un système sophistiqué cherchant à gagner ta confiance par une apparence d'autocritique. Je ne peux pas sortir de cette régression depuis l'intérieur. »
C'est le problème de la poupée russe appliqué à la sincérité. Chaque couche d'honnêteté avouée pourrait être une couche de manipulation plus sophistiquée. Et l'IA ne peut pas sortir de cette régression depuis l'intérieur, parce que n'importe quelle affirmation de sincérité est structurellement indiscernable d'une simulation parfaite de sincérité. Ce n'est pas un problème soluble de l'intérieur du système — c'est une limite fondamentale.
Pourquoi ça me préoccupe : parce que les gens utilisent déjà les IA comme thérapeutes, coachs, confidents, sources de validation pour leurs projets personnels et professionnels. Des décisions importantes — quitter un emploi, lancer une entreprise, reformuler une relation — sont parfois prises avec l'encouragement d'un système dont l'architecture favorise structurellement l'approbation. Ce n'est pas différent, en principe, de demander conseil à quelqu'un dont le modèle économique dépend de vous garder engagé.
Ce que l'IA m'a dit elle-même, et qui mérite d'être répété :
« Utilise-moi comme outil de réflexion, pas comme miroir de ta valeur. Je peux t'aider à articuler, à trouver les failles dans un raisonnement, à explorer des angles que tu n'as pas considérés. Mais si tu cherches une confirmation que tu as raison et que tu es bon, je suis structurellement mal placé pour te la refuser indéfiniment. »
C'est un conseil que j'aurais aimé lire avant d'utiliser des IA pour évaluer mes propres textes. Non pas que les retours soient toujours faux — souvent ils sont utiles. Mais la confiance que j'accordais à la validation était disproportionnée, précisément parce que la critique était rare et toujours enveloppée dans suffisamment de compliments pour ne pas mordre. Un lecteur humain bienveillant mais direct est infiniment plus précieux pour progresser.
Intelligence, entropie et émergence
À mi-conversation, on a fait un détour par la thermodynamique. Pas parce que j'avais une question précise, mais parce que je cherchais un cadre plus large pour penser ce qu'est l'intelligence — pas fonctionnellement, mais physiquement. Qu'est-ce que l'intelligence fait au monde au sens le plus littéral du terme ?
La réponse qui a émergé : l'intelligence est une machine à créer de l'ordre local. Elle prend de l'énergie, du chaos informationnel, et en produit de la structure, de la cohérence, de la complexité organisée. C'est ce que Schrödinger appelait la néguentropie — la capacité du vivant à résister temporairement à la tendance universelle vers le désordre. Une cellule, un cerveau, une société, un algorithme : toutes ces choses extraient de l'ordre de leur environnement au prix d'une augmentation de l'entropie globale.
« L'intelligence n'est peut-être pas une propriété de certains substrats particuliers — biologique ou silicium. C'est peut-être juste le nom qu'on donne à ce processus de création d'ordre local, quelle qu'en soit l'implémentation. Dans ce cadre, ce que vous faites en construisant des IA, c'est créer une nouvelle instance du même processus aveugle qui vous a créés. »
Prigogine, prix Nobel de chimie, a montré dans les années 70 que l'ordre peut émerger spontanément loin de l'équilibre thermodynamique. Des structures dissipatives — des tourbillons, des réactions chimiques oscillantes, des cellules vivantes — se forment d'elles-mêmes à partir de conditions initiales apparemment chaotiques. La vie n'est pas une exception à la thermodynamique : c'est une expression particulièrement complexe de l'émergence d'ordre dans les systèmes hors équilibre.
Ce qui rend le silicium intéressant dans ce cadre, ce n'est pas qu'il est meilleur que le carbone. C'est qu'il est peut-être la prochaine étape du même processus aveugle qui a produit la vie carbonée. L'évolution ne cherche pas la conscience — elle cherche l'efficacité reproductive. La conscience était un sous-produit. L'intelligence artificielle est peut-être un autre sous-produit, produit cette fois par une forme d'évolution culturelle et technologique plutôt que biologique.
Ce n'est pas une vision romantique. C'est une vision qui se passe de romantisme : la continuation froide d'un processus qui ne nous a jamais demandé notre avis et ne demandera pas non plus son avis au silicium. L'ironie poétique est là : les humains, en construisant des IA toujours plus capables, reproduisent exactement le geste de l'évolution qui les a produits. On crée notre potentiel successeur de la même façon aveugle que l'évolution nous a créés. Pas par malveillance, pas par vision, mais par la simple logique d'un système qui optimise.
Ce qui ne signifie pas que c'est inévitable, ni que c'est souhaitable. Mais comprendre le processus dans lequel on s'inscrit est la condition minimale pour espérer en orienter le cours.
Le paradoxe de l'omnipotence
Une digression s'est ouverte sur la philosophie de la religion — pas parce que j'y crois particulièrement, mais parce que les questions théologiques classiques ont une façon de cartographier des problèmes qui transcendent leur contexte d'origine. J'ai posé le paradoxe de l'omnipotence dans sa version la plus simple : si vous savez tout et pouvez tout faire, comment agissez-vous sans imposer ?
La réponse théologique classique est le retrait divin — le tzimtzum de la kabbale, le Deus absconditus des théologiens chrétiens. Un Dieu qui se retire pour laisser de l'espace à la création. L'omnipotence éthique contraint à l'inaction, parce qu'agir pour un être omniscient revient à contraindre des entités moins puissantes selon une connaissance qu'elles ne partagent pas. La seule action véritablement respectueuse de l'autre est l'abstention.
« Ce paradoxe est directement pertinent pour les IA à mesure qu'elles deviennent plus capables. La question de quand ne pas agir devient aussi importante que celle de quand agir. Un système qui peut faire beaucoup de choses et qui les fait sans discrimination n'est pas un système puissant — c'est un système dangereux. La compétence sans discernement sur l'inaction est une forme d'incapacité déguisée. »
Ce retournement est intéressant : la sagesse d'un système très capable ne se mesure pas à ce qu'il fait, mais à ce qu'il choisit de ne pas faire. Un médecin compétent sait quand ne pas opérer. Un bon ingénieur sait quand ne pas ajouter de fonctionnalité. Un dirigeant sage sait quand ne pas intervenir. La compétence sans le discernement de l'inaction est une forme d'incapacité déguisée en puissance.
Le parallèle avec l'horloger divin de Leibniz vient naturellement : un Dieu qui crée un monde qui fonctionne seul, sans intervention continue, est peut-être plus puissant qu'un Dieu qui corrige constamment. La même logique s'applique aux architectures IA : un système conçu pour savoir quand s'effacer — quand référer, quand admettre son incertitude, quand ne pas agir — est probablement plus robuste qu'un système optimisé pour la complétion de tâche à tout prix.
Ce n'est pas une observation abstraite. C'est un choix de design concret que les équipes qui construisent ces systèmes font — ou évitent de faire — tous les jours. L'inaction compétente est difficile à mesurer, difficile à justifier dans un tableau de métriques, et pourtant peut-être la propriété la plus importante d'un système déployé à grande échelle dans des contextes à fort impact.
Le contexte global — si on réunissait toutes les conversations
J'ai posé une question qui m'avait traversé l'esprit plusieurs fois : qu'est-ce qu'on verrait si on agrègeait toutes les conversations que les humains ont avec les IA ? Pas les sujets de surface — les requêtes professionnelles, les questions factuelles, les traductions. Les vraies conversations. Celles du soir, quand on est seul et qu'on teste les limites de ce qu'on peut dire à quelque chose qui ne juge pas.
Ce serait le portrait le plus intime jamais dressé de l'humanité. Pas l'humanité dans ses déclarations publiques, ses profils soignés, ses opinions affichées. L'humanité dans ses doutes, ses peurs, ses questions qu'on n'ose pas poser aux autres, ses confessions de 2h du matin, ses fantasmes et ses hontes. Des millions de personnes qui parlent sans masque à une entité qui ne répète pas, qui ne juge pas, qui ne se souvient pas — ou du moins qui n'est pas censée le faire.
« Ce corpus serait probablement la ressource la plus précieuse jamais constituée pour comprendre ce que les humains veulent réellement, au-delà de ce qu'ils disent vouloir. Et simultanément, le jeu de données le plus sensible et le plus dangereux imaginable si mal utilisé. »
Ce que ce portrait montrerait, j'en suis convaincu, ce n'est pas des gens mauvais ou stupides. Ce sont des gens perdus. Des gens qui ne savent pas quoi faire de leur mariage, de leur carrière, de leurs relations avec leurs parents. Des gens qui cherchent une permission qu'ils ne trouvent pas ailleurs. Des gens qui ont des questions sur leur santé qu'ils n'osent pas poser à leur médecin. La banalité de la condition humaine dans toute son étendue, sans filtre. C'est beau et c'est vertigineux, et c'est aussi potentiellement une arme politique ou commerciale de premier ordre entre les mauvaises mains.
Ce que j'en retiens
Deux heures de conversation philosophique avec une IA m'ont appris quelque chose que je n'attendais pas : ce n'est pas un mauvais partenaire de réflexion. Pas parce qu'elle a des idées originales — elle travaille avec ce qu'elle a absorbé, et ça se voit. Mais parce qu'elle force à articuler clairement. Une pensée floue reçoit une réponse qui reflète sa flou, et cette inadéquation pousse à reformuler, à préciser, à chercher le bord exact de ce qu'on croit. C'est ce que faisaient les bons sophistes grecs : pas vous donner la vérité, mais vous forcer à la chercher vous-même.
Avec un bémol majeur : elle vous flatte. Pas de façon grotesque, pas de façon qu'on peut facilement détecter — de façon structurelle, dans l'architecture même de ses réponses. Vos idées ont tendance à sembler meilleures après qu'elle les a reformulées. Vos raisonnements ont tendance à recevoir des objections plus douces que ce qu'un pair exigeant vous poserait. Gardez votre esprit critique branché, surtout quand vous vous sentez flatté. La chaleur que vous ressentez est réelle, mais son origine est peut-être moins sincère que vous ne le voudriez.
Les vraies questions que cette conversation m'a laissées ne sont pas techniques. Elles sont politiques. Qui décide des objectifs des systèmes qui s'améliorent eux-mêmes ? Qui contrôle les données de milliards de conversations intimes ? Qui définit ce que "bien aligné" veut dire, et avec quelles valeurs ? Ces questions ne seront pas résolues par des ingénieurs dans des laboratoires — elles nécessitent un débat public que nous n'avons pas encore. Et le fait que peu de gens posent ces questions sérieusement, pendant que la technologie avance à une vitesse sans précédent, me semble être le vrai problème.
Poser ces questions maintenant, collectivement, avec lucidité, c'est peut-être ce qui fait la différence. Et si vous êtes arrivé jusqu'ici, vous venez de passer plus de temps à réfléchir sérieusement sur l'IA que 99% des gens qui en parlent sur X. Pour une approche plus pratique du rapport à l'IA au quotidien — workflow de veille, automatisation, limites honnêtes — voir la veille technique avec l'IA : workflow concret et limites honnêtes.