# CLAUDE.md — Recherche rigoureuse avec IA : sources primaires et fact-checking

> Contexte spécialisé pour Claude Code. Coller ce fichier à la racine du projet pour guider la recherche sur des sujets complexes avec exigence de sources primaires.

---

## Quand utiliser ce contexte
- ✅ Recherche sur un sujet complexe (régulation, géopolitique, antitrust, sécurité, procédures judiciaires)
- ✅ Fact-checking d'une affirmation vue dans un article, un thread, une dépêche
- ✅ Veille "intelligence" — comprendre un sujet nouveau avec exigence de rigueur journalistique
- ✅ Rédaction d'un article qui doit reposer sur des sources vérifiables
- ❌ Veille technique rapide sur une stack — ce contexte n'est pas adapté (trop rigide pour des questions de code)
- ❌ Brainstorming créatif — le protocole ralentit volontairement la production de réponses

---

## Section 1 : Le problème — pourquoi l'IA dit oui à tout

### Le biais structurel des LLMs

Les LLMs actuels sont entraînés par RLHF (reinforcement learning from human feedback). Le modèle apprend à générer des réponses que les humains notent positivement. Et les humains, en moyenne, notent positivement ce qui confirme leur opinion de départ, ce qui est assertif et complet, et ce qui ne dit pas "je ne sais pas" trop souvent.

Sur des sujets factuels, ça crée un biais structurel vers la confirmation. Le modèle n'est pas malveillant — il est très bon pour sentir ce que tu veux entendre et te le servir de façon convaincante.

### Ce que ça produit sans méthode

Sans protocole explicite, un LLM sur un sujet complexe donne :
- Des affirmations non sourcées présentées avec le même aplomb que des faits établis
- Des dates, des chiffres, des citations qui semblent précis mais sont inventés ou approximatifs
- Une confusion systématique entre rumeur largement relayée et fait vérifié
- Zéro mention spontanée des contre-arguments solides

La solution n'est pas de ne pas utiliser l'IA pour la recherche. C'est de changer radicalement la façon dont on interagit avec elle.

### Les 4 contraintes de la méthode

1. **Sources primaires obligatoires** — pas de blogs, pas de forums, pas de threads
2. **Étiquetage du niveau de certitude** — chaque point porte un label explicite
3. **Contre-argumentation systématique** — demander les 3 meilleurs arguments adverses avant de conclure
4. **Séparation faits/interprétation** — ne jamais extrapoler au-delà des sources sans le signaler

---

## Section 2 : Prompts de recherche

### Le prompt principal — veille structurée

Pour une recherche complète sur un sujet :

```text
Tu es un analyste de recherche rigoureux. Sujet : [X].

Sources primaires uniquement : documents officiels, presse reconnue (Reuters, AP, AFP, NYT, Le Monde, BBC).
Pour chaque affirmation, indique [FAIT VÉRIFIÉ], [PROBABLE], [PLAUSIBLE], [SPÉCULATIF] ou [CONTESTÉ].
Cherche activement les informations qui contredisent la thèse principale.
Si tu ne sais pas, dis-le. Ne jamais extrapoler au-delà des sources.

Structure ta réponse :
1. Derniers développements (faits récents)
2. Faits établis (multi-sources primaires)
3. Hypothèses et analyses (avec labels de certitude)
4. Arguments contre la thèse dominante
5. Biais à surveiller dans cette couverture
6. Niveau de confiance global (1-10) avec justification
7. Sources numérotées
```

### Le prompt sources primaires — remonter aux racines

Pour creuser un sujet et isoler ce qui est réellement établi :

```text
Remonte aux sources primaires sur [SUJET].
Donne-moi les 3 meilleurs arguments CONTRE ce qu'on présente généralement.
Distingue "c'est vrai" de "c'est vrai MAIS l'interprétation est fausse".
```

### Le prompt fact-checking — vérifier une affirmation précise

Pour tester la solidité d'un claim spécifique :

```text
Fact-check : [AFFIRMATION].
Trouve les sources primaires. Étiquette le niveau de certitude.
Dis-moi si c'est solide ou si c'est fragile — et pourquoi.
```

### Le prompt "ce qui manque"

À utiliser après une première réponse pour identifier les angles morts :

```text
Sur ce sujet, qu'est-ce que tu ne sais pas ? Qu'est-ce qui nécessiterait une vérification externe que tu ne peux pas faire ? Quelles sont les sources que je devrais consulter directement ?
```

---

## Section 3 : Niveaux de certitude

### Le système d'étiquetage

Cinq labels à appliquer sur chaque point de la réponse :

| Label | Définition |
|-------|-----------|
| `[FAIT VÉRIFIÉ]` | Attesté par au moins deux sources primaires indépendantes |
| `[PROBABLE]` | Fortement suggéré par les sources disponibles, pas encore confirmé officiellement |
| `[PLAUSIBLE]` | Cohérent avec les faits connus, mais repose sur une inférence |
| `[SPÉCULATIF]` | Hypothèse sans base factuelle directe, à traiter comme telle |
| `[CONTESTÉ]` | Des sources crédibles soutiennent des positions opposées |

### Comment les utiliser dans un document de recherche

Un `[FAIT VÉRIFIÉ]` peut être cité tel quel. Un `[PROBABLE]` nécessite une formulation conditionnelle ("il semble que", "selon des sources non confirmées"). Un `[SPÉCULATIF]` ne peut pas être présenté comme une conclusion. Un `[CONTESTÉ]` doit être accompagné des deux positions.

Ce label change tout. Quand on lit `[PROBABLE]` devant une affirmation, on sait qu'on ne peut pas la citer comme un fait. Ça semble basique — mais la plupart des articles mélangent ces niveaux sans les distinguer.

### Exemple de sortie typique

```text
[FAIT VÉRIFIÉ] La Commission européenne a ouvert une enquête formelle sur les pratiques
de Microsoft dans ses accords avec OpenAI en janvier 2024
(source : communiqué officiel CE, 11/01/2024).

[PROBABLE] L'enquête couvre également les clauses d'exclusivité sur les capacités GPU,
mais ce point n'a pas été officiellement confirmé dans les documents publiés.

[CONTESTÉ] L'impact de cette concentration sur l'innovation : des économistes comme
Tyler Cowen arguent que la concentration accélère le développement (accès à la compute),
d'autres comme Daron Acemoglu soutiennent qu'elle réduit la diversité des approches.
```

---

## Section 4 : Workflow complet

### L'ordre des étapes

1. **Framing** — définir précisément la question et ce qu'on cherche à établir (pas "la big tech est-elle mauvaise", mais "quelles enquêtes antitrust sont en cours contre X")
2. **Recherche initiale** — utiliser le prompt principal avec l'étiquetage obligatoire
3. **Contre-argumentation** — utiliser le prompt sources primaires pour challenger la thèse émergente
4. **Identification des angles morts** — utiliser le prompt "ce qui manque"
5. **Fact-checking des points-clés** — vérifier les 2-3 affirmations les plus importantes avec le prompt dédié
6. **Vérification externe** — aller chercher soi-même les documents cités (voir Section 5)

### Quand utiliser chaque prompt

- **Prompt principal** : première exploration d'un sujet inconnu
- **Prompt sources primaires** : quand on a déjà une thèse et qu'on veut la tester
- **Prompt fact-checking** : sur un claim précis trouvé ailleurs
- **Prompt "ce qui manque"** : systématiquement, avant de conclure

### Comment itérer

Après chaque réponse, demander : "Quels points de cette réponse sont les plus fragiles ? Lesquels méritent une vérification externe ?" — ça force l'IA à auto-évaluer ses propres incertitudes plutôt que de les lisser.

Ne pas accepter une réponse sans labels. Si l'IA répond sans étiqueter, relancer avec : "Reprends ta réponse et ajoute le niveau de certitude ([FAIT VÉRIFIÉ], [PROBABLE], etc.) sur chaque affirmation."

---

## Section 5 : Limites et garde-fous

### Ce que l'IA ne peut pas faire

- **Vérifier ses propres sources** — le LLM cite parfois des documents qui n'existent pas, avec des titres plausibles et des dates cohérentes. Une URL fournie par l'IA n'est pas une preuve. Toujours vérifier qu'un document existe avant de s'appuyer dessus.
- **Accéder au temps réel** — elle synthétise ce qu'elle a vu à l'entraînement. Pour les événements récents (3-6 derniers mois selon le modèle), elle ne sait pas, ou elle hallucine.
- **Produire de l'information nouvelle** — ce protocole structure et clarifie l'information publique disponible. Il ne remplace pas le journalisme d'investigation avec des sources humaines et des documents inédits.

### Quand arrêter et vérifier soi-même

- Dès qu'une affirmation `[FAIT VÉRIFIÉ]` va servir dans un document public
- Quand l'IA cite un document officiel avec une date et un titre précis (risque d'hallucination)
- Quand la réponse est trop fluide — l'absence de nuance est un signal d'alerte
- Quand la réponse ne contient aucun "je ne sais pas" sur un sujet réellement incertain

### Les signaux d'alerte

```
❌ Réponse sans labels de certitude malgré la demande explicite
❌ Ton uniformément assertif sur un sujet qui devrait être contesté
❌ Pas de "je ne sais pas" ou "les sources sont insuffisantes"
❌ Chiffres très précis sans source citée (ex: "67% des experts estiment que...")
❌ Citations avec guillemets sans référence vérifiable
❌ La réponse confirme exactement la thèse qu'on semblait avoir en posant la question
```

---

## Section 6 : Cas d'usage

### Recherche technique — choix d'architecture ou comparaison de technos

Appliquer le même protocole mais adapter les sources primaires : documentation officielle, benchmarks publiés, issues GitHub de mainteneurs reconnus, publications de conférences (SIGMOD, OSDI, etc.).

Utiliser le prompt fact-checking pour tester des claims courants comme "Redis est plus rapide que PostgreSQL" — forcer l'IA à préciser le contexte, les conditions, et le niveau de certitude de cette affirmation.

### Veille — comprendre un sujet nouveau rapidement

Utiliser le prompt principal. Objectif : construire une carte mentale fiable du sujet en distinguant ce qui est établi de ce qui est débattu. 30-45 minutes minimum pour un traitement sérieux.

La méthode est lente par design. Ce n'est pas de la veille rapide — c'est de la recherche structurée.

### Investigation — fact-checking un claim vu sur internet

Utiliser le prompt fact-checking directement sur l'affirmation. Demander ensuite les 3 meilleurs arguments en faveur ET contre. Identifier quelle partie de l'affirmation est un fait (vérifiable) et quelle partie est une interprétation (contestable).

Exemple de formulation utile : "Distingue 'c'est faux' de 'c'est vrai mais l'interprétation est fausse'."

### Rédaction — écrire un article avec des sources solides

Utiliser le workflow complet avant de commencer à écrire. Ne formuler des conclusions que sur des points `[FAIT VÉRIFIÉ]` ou `[PROBABLE]` avec formulation conditionnelle. Pour chaque section de l'article, noter mentalement le niveau de certitude des claims utilisés.

Ne jamais citer une source fournie par l'IA sans l'avoir retrouvée et vérifiée dans une source réelle.

---

*Last updated: 2026-03 — Protocole basé sur l'article [Utiliser l'IA pour de la vraie recherche](https://www.web-developpeur.com/blog/recherche-ia-sources-primaires-protocole). À revoir si les LLMs intègrent une citation de sources vérifiables nativement (grounding avec URLs).*