SEO d'un blog PHP : JSON-LD, ToC et pagination crawlable sans framework

Google Search Console affichait zéro article indexé après trois semaines de publication. Les articles existaient. Les URLs répondaient en 200. Le sitemap était soumis. Le problème était ailleurs : le listing du blog chargeait posts.json via fetch(), puis rendait tout le HTML en JavaScript. Pour Googlebot, la page était une coquille vide avec un spinner.

Ce que je décris ici, c'est l'ensemble des corrections appliquées au template PHP du blog — pas de framework, pas de build, Apache pur. Chaque point a une raison précise, pas juste "parce que les bonnes pratiques SEO disent de le faire".

Le problème JS-first

Googlebot peut exécuter JavaScript. Google le dit depuis des années, et c'est vrai. Mais "peut" ne veut pas dire "systématiquement" ni "immédiatement". Le crawl JS passe par une file de rendu secondaire — les pages HTML brutes sont indexées en priorité. Résultat : un blog full-JS peut mettre des semaines à être indexé, et encore, seulement si Googlebot juge que la page vaut le coût d'un rendu.

Le deuxième problème est structurel : si la pagination est gérée entièrement en JS (clic sur "Page 2" → rechargement du tableau côté client), la page 2 n'existe pas du point de vue d'un crawler. Il n'y a qu'une seule URL, et elle affiche toujours les 10 premiers articles. Googlebot ne clique pas sur des boutons JavaScript pour voir la suite. Les articles en page 3 ou 4 ne seront jamais crawlés.

La correction est simple en principe : le serveur doit rendre le HTML des articles pour la page courante. Le JavaScript peut ensuite prendre la main pour la navigation interactive — mais le premier rendu doit être visible dans le source.

JSON-LD et articleBody : ce que Google veut vraiment

Schema.org BlogPosting est la donnée structurée de base pour un article de blog. Elle permet à Google d'afficher la date, l'auteur, et potentiellement le breadcrumb dans les résultats enrichis. Mais le champ le plus utile est articleBody : c'est le texte brut de l'article, que Google utilise pour les featured snippets.

Le problème : quand le JSON-LD est généré dans blog_header() (en début de page), le contenu de l'article n'a pas encore été rendu. On ne peut pas injecter articleBody à ce moment-là.

La solution est de passer par l'output buffering PHP. Dans blog_header(), on démarre un buffer et on pose un placeholder dans le JSON-LD :

ob_start();
// JSON-LD avec placeholder
$json_ld = '{ "@type": "BlogPosting", "articleBody": "SommaireLe probl\u00e8me JS-firstJSON-LD et articleBody : ce que Google veut vraimentLe ToC PHP et le pi\u00e8ge iconvPagination crawlable : PHP hybridehreflang, canonical, og:type : les d\u00e9tails qui comptentConclusion Google Search Console affichait z\u00e9ro article index\u00e9 apr\u00e8s trois semaines de publication. Les articles existaient. Les URLs r\u00e9pondaient en 200. Le sitemap \u00e9tait soumis. Le probl\u00e8me \u00e9tait ailleurs : le listing du blog chargeait posts.json via fetch(), puis rendait tout le HTML en JavaScript. Pour Googlebot, la page \u00e9tait une coquille vide avec un spinner. Ce que je d\u00e9cris ici, c'est l'ensemble des corrections appliqu\u00e9es au template PHP du blog \u2014 pas de framework, pas de build, Apache pur. Chaque point a une raison pr\u00e9cise, pas juste \"parce que les bonnes pratiques SEO disent de le faire\". Le probl\u00e8me JS-first Googlebot peut ex\u00e9cuter JavaScript. Google le dit depuis des ann\u00e9es, et c'est vrai. Mais \"peut\" ne veut pas dire \"syst\u00e9matiquement\" ni \"imm\u00e9diatement\". Le crawl JS passe par une file de rendu secondaire \u2014 les pages HTML brutes sont index\u00e9es en priorit\u00e9. R\u00e9sultat : un blog full-JS peut mettre des semaines \u00e0 \u00eatre index\u00e9, et encore, seulement si Googlebot juge que la page vaut le co\u00fbt d'un rendu. Le deuxi\u00e8me probl\u00e8me est structurel : si la pagination est g\u00e9r\u00e9e enti\u00e8rement en JS (clic sur \"Page 2\" \u2192 rechargement du tableau c\u00f4t\u00e9 client), la page 2 n'existe pas du point de vue d'un crawler. Il n'y a qu'une seule URL, et elle affiche toujours les 10 premiers articles. Googlebot ne clique pas sur des boutons JavaScript pour voir la suite. Les articles en page 3 ou 4 ne seront jamais crawl\u00e9s. La correction est simple en principe : le serveur doit rendre le HTML des articles pour la page courante. Le JavaScript peut ensuite prendre la main pour la navigation interactive \u2014 mais le premier rendu doit \u00eatre visible dans le source. JSON-LD et articleBody : ce que Google veut vraiment Schema.org BlogPosting est la donn\u00e9e structur\u00e9e de base pour un article de blog. Elle permet \u00e0 Google d'afficher la date, l'auteur, et potentiellement le breadcrumb dans les r\u00e9sultats enrichis. Mais le champ le plus utile est articleBody : c'est le texte brut de l'article, que Google utilise pour les featured snippets. Le probl\u00e8me : quand le JSON-LD est g\u00e9n\u00e9r\u00e9 dans blog_header() (en d\u00e9but de page), le contenu de l'article n'a pas encore \u00e9t\u00e9 rendu. On ne peut pas injecter articleBody \u00e0 ce moment-l\u00e0. La solution est de passer par l'output buffering PHP. Dans blog_header(), on d\u00e9marre un buffer et on pose un placeholder dans le JSON-LD : ob_start(); \/\/ JSON-LD avec placeholder $json_ld = '{ \"@type\": \"BlogPosting\", \"articleBody\": \"ARTICLE_BODY_PLACEHOLDER\", ... }'; Ensuite, dans blog_footer(), on r\u00e9cup\u00e8re tout le HTML rendu, on extrait le contenu de la div .article-content, on strip les balises, et on injecte le texte \u00e0 la place du placeholder avant d'envoyer le tout au navigateur : \/\/ Dans blog_footer() \u2014 capturer le HTML rendu par l'article $article_html = ob_get_clean(); if (preg_match('\/(.*)\/s', $article_html, $body_match)) { $article_body = strip_tags($body_match[1]); $article_body = preg_replace('\/\\s+\/', ' ', trim($article_body)); $article_body = substr($article_body, 0, 5000); $json_ld = str_replace('\"ARTICLE_BODY_PLACEHOLDER\"', json_encode($article_body), $json_ld); } echo $article_html; Le JSON-LD complet est inject\u00e9 dans <head> juste avant que le buffer soit envoy\u00e9. Google voit un articleBody r\u00e9el, pas un placeholder. La limite \u00e0 5000 caract\u00e8res est arbitraire \u2014 Google tronque de toute fa\u00e7on. Le ToC PHP et le pi\u00e8ge iconv Une table des mati\u00e8res g\u00e9n\u00e9r\u00e9e c\u00f4t\u00e9 serveur a deux avantages : elle est visible dans le source (donc crawlable), et elle ne d\u00e9pend d'aucune biblioth\u00e8que JS. L'impl\u00e9mentation est simple \u2014 on parse les <h2> et <h3> du HTML de l'article, on g\u00e9n\u00e8re des ancres, et on injecte le ToC au d\u00e9but de .article-content. Le pi\u00e8ge classique est la g\u00e9n\u00e9ration des IDs d'ancre pour les titres accentu\u00e9s. Le r\u00e9flexe habituel est d'utiliser iconv pour translitt\u00e9rer : \/\/ \u274c D\u00e9pend de la locale syst\u00e8me \u2014 vide sur les serveurs sans fr_FR.UTF-8 $id = preg_replace('\/[^a-z0-9]+\/', '-', strtolower(iconv('UTF-8', 'ASCII\/\/TRANSLIT', $heading_text))); Sur un serveur sans la locale fr_FR.UTF-8 install\u00e9e, iconv avec \/\/TRANSLIT retourne une cha\u00eene vide pour les caract\u00e8res accentu\u00e9s. L'ancre g\u00e9n\u00e9r\u00e9e est #--- au lieu de #les-3-pieges. Le lien du ToC pointe dans le vide. La correction est un mapping explicite avec strtr() : \/\/ \u2705 Mapping explicite, portable $id = preg_replace('\/[^a-z0-9]+\/', '-', strtolower(strtr($heading_text, [ '\u00e0'=>'a','\u00e2'=>'a','\u00e9'=>'e','\u00e8'=>'e','\u00ea'=>'e','\u00eb'=>'e', '\u00ee'=>'i','\u00ef'=>'i','\u00f4'=>'o','\u00f9'=>'u','\u00fb'=>'u','\u00fc'=>'u', '\u00e7'=>'c','\u00e6'=>'ae','\u0153'=>'oe', ]))); Pas de d\u00e9pendance \u00e0 la locale. Pas de comportement impr\u00e9visible entre le serveur de dev et la prod. Le m\u00eame titre g\u00e9n\u00e8re toujours le m\u00eame ", ... }';

Ensuite, dans blog_footer(), on récupère tout le HTML rendu, on extrait le contenu de la div .article-content, on strip les balises, et on injecte le texte à la place du placeholder avant d'envoyer le tout au navigateur :

// Dans blog_footer() — capturer le HTML rendu par l'article
$article_html = ob_get_clean();

if (preg_match('/(.*)<\/article>/s', $article_html, $body_match)) {
    $article_body = strip_tags($body_match[1]);
    $article_body = preg_replace('/\s+/', ' ', trim($article_body));
    $article_body = substr($article_body, 0, 5000);
    $json_ld = str_replace('"SommaireLe probl\u00e8me JS-firstJSON-LD et articleBody : ce que Google veut vraimentLe ToC PHP et le pi\u00e8ge iconvPagination crawlable : PHP hybridehreflang, canonical, og:type : les d\u00e9tails qui comptentConclusion Google Search Console affichait z\u00e9ro article index\u00e9 apr\u00e8s trois semaines de publication. Les articles existaient. Les URLs r\u00e9pondaient en 200. Le sitemap \u00e9tait soumis. Le probl\u00e8me \u00e9tait ailleurs : le listing du blog chargeait posts.json via fetch(), puis rendait tout le HTML en JavaScript. Pour Googlebot, la page \u00e9tait une coquille vide avec un spinner. Ce que je d\u00e9cris ici, c'est l'ensemble des corrections appliqu\u00e9es au template PHP du blog \u2014 pas de framework, pas de build, Apache pur. Chaque point a une raison pr\u00e9cise, pas juste \"parce que les bonnes pratiques SEO disent de le faire\". Le probl\u00e8me JS-first Googlebot peut ex\u00e9cuter JavaScript. Google le dit depuis des ann\u00e9es, et c'est vrai. Mais \"peut\" ne veut pas dire \"syst\u00e9matiquement\" ni \"imm\u00e9diatement\". Le crawl JS passe par une file de rendu secondaire \u2014 les pages HTML brutes sont index\u00e9es en priorit\u00e9. R\u00e9sultat : un blog full-JS peut mettre des semaines \u00e0 \u00eatre index\u00e9, et encore, seulement si Googlebot juge que la page vaut le co\u00fbt d'un rendu. Le deuxi\u00e8me probl\u00e8me est structurel : si la pagination est g\u00e9r\u00e9e enti\u00e8rement en JS (clic sur \"Page 2\" \u2192 rechargement du tableau c\u00f4t\u00e9 client), la page 2 n'existe pas du point de vue d'un crawler. Il n'y a qu'une seule URL, et elle affiche toujours les 10 premiers articles. Googlebot ne clique pas sur des boutons JavaScript pour voir la suite. Les articles en page 3 ou 4 ne seront jamais crawl\u00e9s. La correction est simple en principe : le serveur doit rendre le HTML des articles pour la page courante. Le JavaScript peut ensuite prendre la main pour la navigation interactive \u2014 mais le premier rendu doit \u00eatre visible dans le source. JSON-LD et articleBody : ce que Google veut vraiment Schema.org BlogPosting est la donn\u00e9e structur\u00e9e de base pour un article de blog. Elle permet \u00e0 Google d'afficher la date, l'auteur, et potentiellement le breadcrumb dans les r\u00e9sultats enrichis. Mais le champ le plus utile est articleBody : c'est le texte brut de l'article, que Google utilise pour les featured snippets. Le probl\u00e8me : quand le JSON-LD est g\u00e9n\u00e9r\u00e9 dans blog_header() (en d\u00e9but de page), le contenu de l'article n'a pas encore \u00e9t\u00e9 rendu. On ne peut pas injecter articleBody \u00e0 ce moment-l\u00e0. La solution est de passer par l'output buffering PHP. Dans blog_header(), on d\u00e9marre un buffer et on pose un placeholder dans le JSON-LD : ob_start(); \/\/ JSON-LD avec placeholder $json_ld = '{ \"@type\": \"BlogPosting\", \"articleBody\": \"ARTICLE_BODY_PLACEHOLDER\", ... }'; Ensuite, dans blog_footer(), on r\u00e9cup\u00e8re tout le HTML rendu, on extrait le contenu de la div .article-content, on strip les balises, et on injecte le texte \u00e0 la place du placeholder avant d'envoyer le tout au navigateur : \/\/ Dans blog_footer() \u2014 capturer le HTML rendu par l'article $article_html = ob_get_clean(); if (preg_match('\/(.*)\/s', $article_html, $body_match)) { $article_body = strip_tags($body_match[1]); $article_body = preg_replace('\/\\s+\/', ' ', trim($article_body)); $article_body = substr($article_body, 0, 5000); $json_ld = str_replace('\"ARTICLE_BODY_PLACEHOLDER\"', json_encode($article_body), $json_ld); } echo $article_html; Le JSON-LD complet est inject\u00e9 dans <head> juste avant que le buffer soit envoy\u00e9. Google voit un articleBody r\u00e9el, pas un placeholder. La limite \u00e0 5000 caract\u00e8res est arbitraire \u2014 Google tronque de toute fa\u00e7on. Le ToC PHP et le pi\u00e8ge iconv Une table des mati\u00e8res g\u00e9n\u00e9r\u00e9e c\u00f4t\u00e9 serveur a deux avantages : elle est visible dans le source (donc crawlable), et elle ne d\u00e9pend d'aucune biblioth\u00e8que JS. L'impl\u00e9mentation est simple \u2014 on parse les <h2> et <h3> du HTML de l'article, on g\u00e9n\u00e8re des ancres, et on injecte le ToC au d\u00e9but de .article-content. Le pi\u00e8ge classique est la g\u00e9n\u00e9ration des IDs d'ancre pour les titres accentu\u00e9s. Le r\u00e9flexe habituel est d'utiliser iconv pour translitt\u00e9rer : \/\/ \u274c D\u00e9pend de la locale syst\u00e8me \u2014 vide sur les serveurs sans fr_FR.UTF-8 $id = preg_replace('\/[^a-z0-9]+\/', '-', strtolower(iconv('UTF-8', 'ASCII\/\/TRANSLIT', $heading_text))); Sur un serveur sans la locale fr_FR.UTF-8 install\u00e9e, iconv avec \/\/TRANSLIT retourne une cha\u00eene vide pour les caract\u00e8res accentu\u00e9s. L'ancre g\u00e9n\u00e9r\u00e9e est #--- au lieu de #les-3-pieges. Le lien du ToC pointe dans le vide. La correction est un mapping explicite avec strtr() : \/\/ \u2705 Mapping explicite, portable $id = preg_replace('\/[^a-z0-9]+\/', '-', strtolower(strtr($heading_text, [ '\u00e0'=>'a','\u00e2'=>'a','\u00e9'=>'e','\u00e8'=>'e','\u00ea'=>'e','\u00eb'=>'e', '\u00ee'=>'i','\u00ef'=>'i','\u00f4'=>'o','\u00f9'=>'u','\u00fb'=>'u','\u00fc'=>'u', '\u00e7'=>'c','\u00e6'=>'ae','\u0153'=>'oe', ]))); Pas de d\u00e9pendance \u00e0 la locale. Pas de comportement impr\u00e9visible entre le serveur de dev et la prod. Le m\u00eame titre g\u00e9n\u00e8re toujours le m\u00eame "', json_encode($article_body), $json_ld);
}

echo $article_html;

Le JSON-LD complet est injecté dans <head> juste avant que le buffer soit envoyé. Google voit un articleBody réel, pas un placeholder. La limite à 5000 caractères est arbitraire — Google tronque de toute façon.

Le ToC PHP et le piège iconv

Une table des matières générée côté serveur a deux avantages : elle est visible dans le source (donc crawlable), et elle ne dépend d'aucune bibliothèque JS. L'implémentation est simple — on parse les <h2> et <h3> du HTML de l'article, on génère des ancres, et on injecte le ToC au début de .article-content.

Le piège classique est la génération des IDs d'ancre pour les titres accentués. Le réflexe habituel est d'utiliser iconv pour translittérer :

// ❌ Dépend de la locale système — vide sur les serveurs sans fr_FR.UTF-8
$id = preg_replace('/[^a-z0-9]+/', '-', strtolower(iconv('UTF-8', 'ASCII//TRANSLIT', $heading_text)));

Sur un serveur sans la locale fr_FR.UTF-8 installée, iconv avec //TRANSLIT retourne une chaîne vide pour les caractères accentués. L'ancre générée est #--- au lieu de #les-3-pieges. Le lien du ToC pointe dans le vide.

La correction est un mapping explicite avec strtr() :

// ✅ Mapping explicite, portable
$id = preg_replace('/[^a-z0-9]+/', '-', strtolower(strtr($heading_text, [
    'à'=>'a','â'=>'a','é'=>'e','è'=>'e','ê'=>'e','ë'=>'e',
    'î'=>'i','ï'=>'i','ô'=>'o','ù'=>'u','û'=>'u','ü'=>'u',
    'ç'=>'c','æ'=>'ae','œ'=>'oe',
])));

Pas de dépendance à la locale. Pas de comportement imprévisible entre le serveur de dev et la prod. Le même titre génère toujours le même ID. Le même pattern est appliqué à la fois pour les IDs des <h2> dans le corps de l'article et pour les liens dans le ToC — cohérence garantie.

Pagination crawlable : PHP hybride

L'objectif est que Googlebot puisse atteindre tous les articles, pas seulement ceux de la première page. La contrainte : ne pas casser la navigation interactive existante (recherche, filtres par catégorie, pagination au clic).

La solution hybride : PHP charge posts.json et rend les cards pour la page courante (déterminée par le paramètre ?page=N). JavaScript conserve ses fonctions de recherche et de filtre, mais détecte si PHP a déjà rendu le contenu au chargement initial — et dans ce cas, ne re-rend pas.

<?php foreach ($page_posts as $post):
    $meta = $post[$lang];
    $url = $base_url . $post['slug'];
?>
<article class="blog-card" data-slug="<?= htmlspecialchars($post['slug']) ?>">
    <h2 class="blog-card-title">
        <a href="<?= htmlspecialchars($url) ?>"><?= htmlspecialchars($meta['title']) ?></a>
    </h2>
    ...
</article>
<?php endforeach; ?>

Les liens de pagination sont des <a href="?page=2"> réels, avec un attribut data-page pour que JavaScript les intercepte :

document.querySelectorAll('a[data-page]').forEach(function(link) {
    link.addEventListener('click', function(e) {
        e.preventDefault();
        currentPage = parseInt(this.dataset.page);
        render(filterPosts());
        window.history.pushState({}, '', '?page=' + currentPage);
    });
});

Pour éviter que JS re-rende les cards que PHP vient de rendre, on ajoute un garde au chargement initial :

// Si pas de filtre actif et que PHP a déjà rendu les articles, ne pas re-render
var hasPhpContent = document.querySelector('#posts-container article') !== null;
if (searchTerm || (activeCategory !== 'Tous' && activeCategory !== 'All') || !hasPhpContent) {
    render(filterPosts());
}

Googlebot crawle /blog/?page=2, voit les cards en HTML pur, suit les liens vers les articles. JS n'est plus un prérequis pour l'indexation. L'utilisateur, lui, ne voit aucune différence — la navigation reste instantanée.

hreflang, canonical, og:type : les détails qui comptent

Ces trois éléments sont souvent traités comme du copier-coller de template. Chacun a une raison précise.

Le canonical doit pointer vers l'URL sans query string. Sans ça, /blog/mon-article?page=1 et /blog/mon-article sont deux URLs distinctes pour Google, qui ne sait pas laquelle indexer. Une ligne suffit :

$canonical = strtok($current_url, '?');

Les liens hreflang indiquent à Google qu'il existe une version française et une version anglaise du même contenu. Sans eux, Google peut décider de montrer la mauvaise version selon la langue du visiteur. Le x-default est obligatoire — il indique quelle version afficher quand aucune locale ne correspond (typiquement un utilisateur japonais sur un blog FR/EN) :

<link rel="alternate" hreflang="fr" href="https://www.web-developpeur.com/blog/" />
<link rel="alternate" hreflang="en" href="https://www.web-developpeur.com/en/blog/" />
<link rel="alternate" hreflang="x-default" href="https://www.web-developpeur.com/blog/" />

L'og:type doit être article sur les pages d'articles, et website sur le listing et la homepage. La distinction a un impact sur la façon dont Facebook et LinkedIn génèrent la preview au partage. og:locale est complémentaire — fr_FR vs en_US selon la langue de l'article.

Conclusion

Aucune de ces modifications n'a nécessité de changer l'architecture du blog. Tout tient dans le template PHP partagé, et dans un ajustement mineur du JavaScript de la page listing. Pas de SSR framework, pas de build step, pas de CDN dédié.

Le point le plus contre-intuitif est le output buffering pour articleBody : c'est une technique des années 2000 qui résout élégamment un problème de séquençage entre le header et le footer d'un template. Idem pour le mapping strtr() — c'est moins "propre" qu'iconv, mais c'est ce qui fonctionne en prod.

Deux semaines après le déploiement, Search Console montrait les premiers articles indexés. Pas parce que Google avait soudainement décidé de mieux crawler le JS — mais parce que le HTML était enfin là, visible dès le premier octet de la réponse.