Crawl-Budget. Jeder redet darüber, die meisten verstehen es falsch. Sie haben Ihre Sitemap optimiert, robots.txt konfiguriert, und trotzdem tauchen Ihre neuen Seiten nicht im Index auf. Gleichzeitig crawlt Google täglich hunderte URLs, die niemand braucht.
Das Problem liegt selten an fehlenden Anweisungen. Es liegt an dem, was Sie übersehen haben: Ihre Website produziert technischen Müll, den Google pflichtbewusst durcharbeitet.
**Wo das Crawl-Budget wirklich verschwindet**
Facettierte Navigation ist der häufigste Übeltäter. Jede Filterkombination erzeugt eine neue URL. Sortierungsoptionen multiplizieren das Problem. Ein Onlineshop mit 200 Produkten kann so 50.000 crawlbare URLs generieren. Google findet diese URLs durch interne Verlinkung und crawlt sie alle, während Ihre Produktseiten Wochen auf Indexierung warten.
Session-IDs in URLs sind ein weiteres Leck. Auch wenn Sie glauben, das Problem gelöst zu haben, weil Sie rel canonical nutzen - Google muss diese URLs trotzdem erst crawlen, um das zu erkennen. Das verbraucht Budget.
Dann sind da die vergessenen Subdomains. Alte Staging-Umgebungen, nicht genutzte Sprachversionen, ausrangierte Microsites. Alle noch verlinkt, alle noch crawlbar, alle ziehen Budget ab.
**Was die Server-Logs tatsächlich zeigen**
Laden Sie Ihre Server-Logs der letzten 30 Tage herunter. Filtern Sie nach Googlebot. Sortieren Sie nach Häufigkeit. Die URLs, die Google am meisten crawlt, sind vermutlich nicht die, die Sie im Index haben wollen.
Bei den meisten Websites entfallen 60-80 Prozent der Crawl-Aktivität auf parametrisierte URLs, Paginierung ohne Inhalt und technische Endpoints. Die eigentlichen Inhaltsseiten bekommen die Reste.
**Konkrete Reparatur**
Setzen Sie aggressive URL-Parameter-Behandlung in der Search Console. Nicht die vorsichtige Variante - blockieren Sie aktiv. Für Facetten nutzen Sie JavaScript-basierte Filter ohne URL-Änderung oder konsolidieren Sie auf eine kanonische URL pro Produktseite.
Prüfen Sie jede Subdomain einzeln. Wenn sie nicht aktiv genutzt wird: 410-Status setzen und DNS-Eintrag entfernen. Nicht einfach auf noindex setzen - das muss Google trotzdem regelmäßig überprüfen.
Pagination braucht rel next/prev nicht mehr, aber sie braucht echten Inhalt. Leere Seiten am Ende der Paginierung mit 404 oder canonical zur letzten gefüllten Seite behandeln.