Canonical Tags sollen Google sagen, welche Version einer Seite die richtige ist. Sie haben sie implementiert, genau nach Anleitung. Trotzdem indexiert Google die falsche Version oder gar keine. Der Grund: Sie senden widersprüchliche Signale, ohne es zu wissen.
Das passiert häufiger als gedacht, weil Canonical-Anweisungen aus mehreren Quellen kommen können und nicht immer übereinstimmen.
**Die drei Ebenen, die kollidieren**
HTTP-Header können ein Canonical setzen. Das HTML kann ein anderes Canonical im head enthalten. Die Sitemap listet eine dritte URL als die zu indexierende Version. Google sieht alle drei Signale gleichzeitig.
Typisches Szenario: Ihr CMS generiert automatisch Canonical-Tags im HTML. Ihr CDN oder Webserver fügt aus Sicherheitsgründen oder durch Legacy-Konfiguration HTTP-Header hinzu. Die Sitemap wird von einem separaten Tool generiert, das eigene Logik hat.
Wenn diese nicht übereinstimmen, behandelt Google alle Signale als unzuverlässig. Im schlechtesten Fall indexiert es keine Version, weil es nicht entscheiden kann, welcher Anweisung es folgen soll.
**Parametrisierte URLs ohne konsistente Behandlung**
Ihre Produktseite existiert unter example.de/produkt und example.de/produkt?ref=newsletter. Sie setzen ein Canonical von der parametrisierten Version auf die saubere URL. Korrekt.
Aber: Die parametrisierte URL wird in der Sitemap gelistet, weil das Skript, das die Sitemap generiert, nicht alle Parameter filtert. Oder interne Links zeigen manchmal auf die Parameter-Version, manchmal nicht. Google sieht: Canonical sagt A, aber die Sitemap und interne Links behandeln B als gleichwertig.
**Self-Referencing Canonicals mit Fallen**
Best Practice ist, jede Seite mit einem self-referencing Canonical zu versehen. Also example.de/seite hat ein Canonical auf genau diese URL. Klingt simpel.
Die Falle: URL-Normalisierung. Ihre kanonische URL ist example.de/seite/ mit Trailing Slash. Aber die Seite ist auch unter example.de/seite ohne Slash erreichbar. Beide Versionen setzen ein self-referencing Canonical - auf ihre jeweils eigene Version. Google sieht zwei Seiten, die beide behaupten, das Original zu sein.
Ähnlich bei HTTP vs HTTPS oder www vs non-www. Wenn beide Versionen technisch erreichbar sind und beide self-referencing Canonicals haben, ist das ein Konflikt.
**Pagination ohne durchdachte Strategie**
Seite 1 einer Artikelliste hat ein self-referencing Canonical. Seite 2 ebenfalls. Richtig wäre: alle Seiten canonicalen auf Seite 1, oder jede Seite hat ein self-referencing Canonical.
Aber oft sieht man: Seiten 2-5 canonicalen auf Seite 1, ab Seite 6 self-referencing, weil jemand die Konfiguration mittendrin geändert hat. Google indexiert dann willkürlich.
**Debugging-Methode**
Prüfen Sie jede problematische URL auf drei Ebenen. Erst: HTTP-Header mit curl -I. Zweites: HTML-Quellcode direkt ansehen, nicht durch Browser-Tools, die manchmal JavaScript-injizierte Canonicals zeigen. Drittes: Sitemap durchsuchen nach dieser URL.
Dokumentieren Sie alle drei Ergebnisse. Wenn sie nicht identisch sind, haben Sie den Konflikt gefunden. Dann arbeiten Sie rückwärts: welches System setzt welches Signal und warum.