TDD piloté par l'IA · Cours Coder avec l'IA

« Ça marche » ne veut rien dire pour une IA

J'ai longtemps demandé à l'IA d'écrire une fonction, puis de la « corriger jusqu'à ce que ça marche ». Le problème : ça marche est une notion floue. L'IA croyait avoir fini, je relançais, un cas tombait à l'eau, je re-demandais, un autre cas cassait. On tournait en rond pendant vingt minutes.

Le déclic a été d'inverser l'ordre. Au lieu de décrire vaguement ce que je voulais, j'ai écrit le test d'abord. Le test dit en code, sans ambiguïté : « pour cette entrée, je veux exactement cette sortie ». Soudain, l'IA avait une cible nette. « Terminé » n'était plus une opinion, c'était une barre verte.

Un test, c'est un contrat exécutable. Il transforme « fais quelque chose qui marche » en « fais passer ces assertions ». L'IA adore les cibles mesurables : donnez-lui-en une.

Le test, GPS de l'agent

Un agent IA autonome qui code sans tests, c'est une voiture sans GPS : il avance, mais il ne sait pas s'il se rapproche de la destination. Avec un test, l'agent a un signal clair à chaque tour : rouge (pas encore), vert (objectif atteint).

Mieux : l'agent peut lancer les tests lui-même, lire le message d'erreur, corriger, relancer : en boucle, sans vous. Vous n'écrivez plus le code, vous écrivez la définition de « réussi », et l'IA s'occupe du reste.

Sans test : l'IA devine si c'est bon, vous vérifiez à la main, vous renvoyez du feedback
Avec test : l'IA itère seule jusqu'au vert, vous ne validez qu'à la fin

Red, green, refactor : version IA

Le cycle TDD classique a trois temps, et chacun a son rôle quand on pilote une IA :

Red : vous (ou l'IA) écrivez un test qui échoue. Il décrit le comportement voulu avant qu'il existe
Green : l'IA écrit le code minimal pour faire passer le test. Rien de plus
Refactor : une fois vert, on nettoie le code sans changer le comportement. Le test reste vert, c'est le filet de sécurité

Prenons un cas concret : une fonction de calcul de prix avec remise. On écrit d'abord le test, qui décrit exactement les règles métier.

<?php
use PHPUnit\Framework\TestCase;

final class PriceTest extends TestCase
{
    public function test_sans_remise(): void
    {
        $this->assertSame(100.0, calculer_prix(100.0, 0));
    }

    public function test_remise_20_pourcent(): void
    {
        $this->assertSame(80.0, calculer_prix(100.0, 20));
    }

    public function test_remise_negative_interdite(): void
    {
        $this->expectException(InvalidArgumentException::class);
        calculer_prix(100.0, -5);
    }
}

Tester une exception, ça se lit à l'envers. Trois détails déroutants dans test_remise_negative_interdite. D'abord, expectException() se déclare avant l'appel qui lève : PHPUnit doit être « armé » pour attraper l'exception au moment où elle part, pas après. Ensuite, vous ne voyez aucun assertSame : c'est normal, expectException() est l'assertion. Le test échoue tout seul si l'exception attendue ne part pas. Enfin, un piège : tout code placé après la ligne qui lève (ici après calculer_prix(100.0, -5)) n'est jamais exécuté, puisque l'exception interrompt la fonction. On met donc l'appel qui lève en dernier.

Ce test est le cahier des charges. L'IA n'a plus à deviner : une remise de 0 ne change rien, 20 % retire un cinquième, et une remise négative doit lever une exception. On demande alors le code green.

<?php
function calculer_prix(float $base, float $remise): float
{
    if ($remise < 0 || $remise > 100) {
        throw new InvalidArgumentException('Remise invalide');
    }

    return round($base * (1 - $remise / 100), 2);
}

Le test empêche l'IA de casser l'existant

Le danger numéro un en codant avec l'IA : elle « améliore » une fonction et casse trois autres choses sans s'en rendre compte. C'est là que la suite de tests devient inestimable.

Quand l'IA modifie du code couvert par des tests, vous relancez la suite. Si un test au vert passe au rouge, vous savez immédiatement ce qui a régressé : avant même de déployer. C'est ce qu'on appelle un test de non-régression.

# Avant de faire confiance à une modif de l'IA
./vendor/bin/phpunit

# Sortie attendue
OK (3 tests, 3 assertions)

# Si l'IA a cassé quelque chose
FAILURES! Tests: 3, Failures: 1.
# -> on sait exactement quoi corriger avant de déployer

Ne laissez jamais l'IA écrire à la fois le code et ses tests sans les relire. Une IA peut générer un test bidon qui passe toujours (par exemple assertTrue(true)). Un test vert ne vaut que si vous avez vérifié qu'il teste vraiment le bon comportement.

Faire écrire des tests fiables par l'IA, sans tout relire à la loupe :

Vous fournissez les CAS, l'IA écrit juste la syntaxe. Vous listez le « quoi » (remise 0 changement nul, 20% retire un cinquième, négative lève une exception). Vous relisez votre petite liste, pas des assertions inventées par l'IA.
Séparez les contextes (fresh eyes). Ne laissez pas la même conversation écrire le code ET ses tests : sinon les tests épousent le code (ils valident ce qu'il fait, pas ce qu'il devrait faire). Faites écrire les tests dans un chat à part, idéalement par un autre modèle, en mode « dev senior qui cherche à casser et chasse les cas limites ».
Exigez la preuve au rouge. Demandez : « montre-moi que ce test passe au ROUGE sur une version volontairement cassée de la fonction ». Un test qui ne peut pas échouer ne prouve rien.
Pour aller plus loin, le mutation testing (Infection en PHP, Stryker en JS) introduit automatiquement des bugs dans votre code et vérifie que vos tests les attrapent. C'est la machine qui relit vos tests à votre place.

"It works" means nothing to an AI

For a long time I asked the AI to write a function, then to "fix it until it works". The problem: it works is a fuzzy notion. The AI thought it was done, I reran it, one case failed, I asked again, another case broke. We went in circles for twenty minutes.

The breakthrough was reversing the order. Instead of vaguely describing what I wanted, I wrote the test first. The test states, in code, without ambiguity: "for this input, I want exactly this output". Suddenly the AI had a sharp target. "Done" was no longer an opinion, it was a green bar.

A test is an executable contract. It turns "make something that works" into "make these assertions pass". AI loves measurable targets — give it one.

The test, the agent's GPS

An autonomous AI agent coding without tests is a car without GPS: it moves, but it does not know whether it is getting closer to the destination. With a test, the agent has a clear signal each turn: red (not yet), green (goal reached).

Better: the agent can run the tests itself, read the error message, fix, rerun — in a loop, without you. You no longer write the code, you write the definition of "passing", and the AI handles the rest.

Without tests: the AI guesses if it is good, you check by hand, you send feedback
With tests: the AI iterates on its own until green, you only validate at the end

Red, green, refactor — the AI version

The classic TDD cycle has three steps, and each has its role when driving an AI:

Red — you (or the AI) write a failing test. It describes the wanted behavior before it exists
Green — the AI writes the minimal code to pass the test. Nothing more
Refactor — once green, clean the code without changing behavior. The test stays green, it is the safety net

Take a concrete case: a price calculation with a discount. We write the test first, describing the exact business rules.

<?php
use PHPUnit\Framework\TestCase;

final class PriceTest extends TestCase
{
    public function test_no_discount(): void
    {
        $this->assertSame(100.0, calculer_prix(100.0, 0));
    }

    public function test_discount_20_percent(): void
    {
        $this->assertSame(80.0, calculer_prix(100.0, 20));
    }

    public function test_negative_discount_forbidden(): void
    {
        $this->expectException(InvalidArgumentException::class);
        calculer_prix(100.0, -5);
    }
}

Testing an exception reads backwards. Three confusing details in test_negative_discount_forbidden. First, expectException() is declared before the call that throws: PHPUnit must be "armed" to catch the exception the moment it fires, not after. Second, you see no assertSame: that is normal, expectException() is the assertion. The test fails on its own if the expected exception never fires. Third, a trap: any code placed after the throwing line (here after calculer_prix(100.0, -5)) is never executed, since the exception interrupts the function. So you put the throwing call last.

This test is the specification. The AI no longer has to guess: a 0 discount changes nothing, 20% removes a fifth, and a negative discount must throw an exception. We then ask for the green code.

<?php
function calculer_prix(float $base, float $remise): float
{
    if ($remise < 0 || $remise > 100) {
        throw new InvalidArgumentException('Invalid discount');
    }

    return round($base * (1 - $remise / 100), 2);
}

Tests stop the AI from breaking existing code

The number one danger when coding with AI: it "improves" a function and breaks three other things without noticing. This is where the test suite becomes invaluable.

When the AI modifies code covered by tests, you rerun the suite. If a green test turns red, you know immediately what regressed — before even deploying. This is called a regression test.

# Before trusting an AI change
./vendor/bin/phpunit

# Expected output
OK (3 tests, 3 assertions)

# If the AI broke something
FAILURES! Tests: 3, Failures: 1.
# -> you know exactly what to fix before deploying

Never let the AI write both the code and its tests without reviewing them. An AI can generate a bogus test that always passes (e.g. assertTrue(true)). A green test only counts if you verified it actually tests the right behavior.

Getting reliable tests from the AI without rereading every line:

You provide the CASES, the AI just writes the syntax. You list the "what" (0 discount changes nothing, 20% removes a fifth, negative throws). You review your own short list, not assertions the AI invented.
Separate the contexts (fresh eyes). Don't let the same conversation write both the code AND its tests: otherwise the tests marry the code (they check what it does, not what it should do). Have the tests written in a separate chat, ideally by a different model, in "senior dev trying to break it and hunting edge cases" mode.
Demand the red proof. Ask: "show me this test goes RED on a deliberately broken version of the function". A test that cannot fail proves nothing.
Going further, mutation testing (Infection for PHP, Stryker for JS) automatically injects bugs into your code and checks your tests catch them. The machine rereads your tests for you.

🎯 Pratique

S'entraîner (clique pour ouvrir) :

✨ Prompt IA

Avec l'IA

Demandez à l'IA d'écrire les tests AVANT le code, puis de coder jusqu'au vert :

On va faire du TDD. Étape 1 : écris uniquement les tests PHPUnit pour une fonction calculer_prix(base, remise) qui applique une remise en pourcentage et lève une exception si la remise est hors de [0, 100]. Ne génère pas encore la fonction. Étape 2, quand je dis OK : écris le code minimal pour faire passer ces tests.

💬 Ré-explique sans regarder

Ré-explique sans regarder

Sans relire la leçon : pourquoi écrire le test AVANT de demander le code à l'IA change-t-il tout ? Qu'est-ce que ça donne à l'agent qu'un simple « fais-moi une fonction qui marche » ne donne pas ?

Une bonne explication dit : le test est un contrat exécutable, il remplace « ça marche » (une opinion floue) par une barre verte mesurable. L'IA gagne une cible nette (entrées → sorties exactes) et un signal rouge/vert qu'elle peut lire elle-même pour itérer seule jusqu'au vert. Bonus : ce contrat sert aussi de filet de non-régression quand l'IA modifie l'existant plus tard.

⚖️ Juge le code de l'IA

Accepter ou rejeter le code de l'IA

Tu as demandé à l'IA le test AVANT le code, pour la fonction calculer_prix(base, remise). Elle te renvoie ce test. Ton rôle de relecteur : l'accepter tel quel ou le rejeter, et dire pourquoi.

public function test_calculer_prix(): void
{
    $resultat = calculer_prix(100.0, 20);
    $this->assertNotNull($resultat);
    $this->assertTrue(is_float($resultat));
}

Rejeter. Ce test passe au vert sans rien vérifier d'utile : il confirme juste que la fonction renvoie un float non nul, jamais que calculer_prix(100.0, 20) vaut bien 80.0. C'est exactement le piège du test bidon évoqué plus haut : une barre verte qui ne prouve aucune règle métier. Le vrai test doit asserter la valeur exacte (assertSame(80.0, …)) et couvrir les cas limites (remise à 0, remise négative qui lève une exception). Un test qui ne peut pas échouer ne sert à rien comme contrat pour l'IA.

Exercice : Écrivez le test d'abord

Objectif : une fonction est_email_valide(string $email): bool. Écrivez au moins deux cas de test (un valide, un invalide) avec assert avant d'écrire la fonction. Pensez aussi au cas limite (chaîne vide).

public function test_email_valide(): void
{
    $this->assert...
}

public function test_email_invalide(): void
{
    $this->assert...
}

🧠 Rappel libre

Rappel libre

Sans remonter dans la leçon : nomme les trois temps du cycle red-green-refactor et dis en une phrase ce que fait chacun quand on pilote une IA.

Red : on écrit un test qui échoue, il décrit le comportement voulu avant qu'il existe. Green : l'IA écrit le code minimal qui fait passer le test, rien de plus. Refactor : une fois vert, on nettoie le code sans changer le comportement ; le test reste vert et sert de filet de sécurité.

Pourquoi écrire le test avant le code quand on pilote une IA ?

Pour que l'IA écrive moins de code Le test définit sans ambiguïté ce que « terminé » veut dire C'est obligatoire avec PHPUnit

Dans le cycle red-green-refactor, que fait l'étape « green » ?

On supprime les tests qui échouent On écrit toute l'application d'un coup On écrit le code minimal pour faire passer le test

Comment les tests empêchent-ils l'IA de casser l'existant ?

Un test au vert qui passe au rouge signale immédiatement une régression Ils empêchent l'IA de modifier les fichiers Ils rendent le code plus rapide

Prochaine étape

Les tests valident que le code marche, pas qu'il est bien écrit ni sûr. La prochaine leçon, la code review assistée, transforme l'IA en relecteur : lui faire critiquer son propre code (lisibilité, cas oubliés, mauvaises pratiques) avant de le garder.

Leçon 7 : Code review assistée →