it-swarm.com.de

Wie lösche ich URL-Parameter aus der Google Search Console über .htaccess?

Meine WordPress Seite, nicht so viel riesiger Inhalt. Vor kurzem aufgetretenes Problem der hohen CPU-Bandbreitennutzung. Innerhalb von Sekunden wird es 100% und der Server wird heruntergefahren. Nach einer umfassenden Analyse stellte ich fest, dass in der Google Search Console der indizierte Status etwa 2,64,023 beträgt. Und die URL-Parameter, bei denen URLs über 24.981.662 nach einzelnen Parametern überwacht wurden. Das ist verrückt. Verwendete Filteroption. Nachdem Sie das Problem herausgefunden haben noindex, bearbeiten Sie die Parameter. Aber keine Änderung des Indexstatus. Es nimmt von Tag zu Tag zu. Daher möchte ich diese Parameter dauerhaft in der Google Search Console no-index und auch löschen. Wie kann ich das über die .htaccess-Datei tun? Dadurch wird die indizierte Gesamtzahl von Google Search Console mit Sicherheit verringert.

Hier sind die indizierten URL-Parameter von Google Search Console:

enter image description here

3
Mourin

Es sieht so aus, als ob Sie diese URLs (mit URL-Parametern) in Ihrer robots.txt -Datei blockieren sollten, um zu verhindern, dass Suchmaschinen-Bots (z. B. Googlebot) diese URLs überhaupt crawlen. So blockieren Sie beispielsweise alle URLs mit Abfragezeichenfolgen:

User-agent: *
Disallow: /*?

In der Google Search Console (ehemals Webmaster-Tools) können Sie Google auch explizit mitteilen, wie mit den einzelnen URL-Parametern umgegangen werden soll. Klicken Sie unter Crawl> URL-Parameter auf. Beispielsweise könnte Ihr filter_display -Parameter wie folgt definiert sein:

  • Ändert dieser Parameter den Seiteninhalt, den der Benutzer sieht?
    "Ja: Seiteninhalt ändern, neu anordnen oder einschränken"
  • Wie wirkt sich dieser Parameter auf den Seiteninhalt aus?
    "Narrows"
  • Welche URLs mit diesem Parameter sollten von Googlebot gecrawlt werden?
    "Keine URLs" (oder vielleicht "Googlebot entscheiden lassen", ob Sie Google vertrauen, wenn die vorherigen Optionen gegeben sind)

Wie kann ich das durch .htaccess-Datei tun?

Sie haben in Kommentaren erwähnt, dass diese URL-Parameter "nicht wichtig" sind. Sie sehen jedoch so aus, als würden sie einige Benutzerfunktionen bereitstellen (z. B. Filtern, Sortieren usw.). In diesem Fall möchten Sie wahrscheinlich .htaccess nicht verwenden. Mit .htaccess können Sie die URL kanonisieren und URLs mit diesen URL-Parametern umleiten. Dies würde diese URL-Parameter vollständig von Ihrer Site entfernen - was könnte sogar die Funktionalität Ihrer Site beeinträchtigen?


PDATE: Deine robots.txt Datei (aus Kommentaren kopiert):

User-agent: *
Disallow: /*?

User-agent: *
Disallow: /

User-agent: Googlebot
Disallow:

User-agent: *
Allow: /wp-content/uploads/
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/
Disallow: /images/
Disallow: /wp-content/
Disallow: /index.php
Disallow: /wp-login.php

Dies würde nicht wie vorgesehen funktionieren. Sie haben widersprüchliche Gruppen. dh Drei Gruppen, die alle mit User-agent: * übereinstimmen. Bots verarbeiten nur einen Regelblock. Der übereinstimmende Block ist derjenige, der dem "spezifischsten" User-agent entspricht. Der Block User-agent: * entspricht allen Bots, die keinem anderen Block entsprechen. Nach diesen Regeln crawlt der Googlebot einfach alles (ohne Einschränkungen), einschließlich aller Ihrer URL-Parameter - wenn dies (wie Sie vorschlagen) Probleme für Ihren Server verursacht das ist nicht was du willst Und von diesen Regeln würde ich "erraten", dass alle anderen Bots mit dem ersten User-agent: * übereinstimmen.

(Aber selbst wenn Sie andere Überlegungen anstellen und davon ausgehen, dass mehrere Blöcke verarbeitet werden könnten, würde dies keinen Sinn ergeben ...?)

Abhängig von Ihren Anforderungen sollte dies in etwa so geschrieben werden:

User-agent: *
Disallow: /

User-agent: Googlebot
Allow: /wp-content/uploads/
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/
Disallow: /images/
Disallow: /wp-content/
Disallow: /index.php
Disallow: /wp-login.php
Disallow: /*?

Ich gehe davon aus, dass Sie, wenn dies eine WordPress Website ist, nicht möchten, dass auch Googlebot überall crawlt ?

Durch diese Regeln wird verhindert, dass alle anderen (guten) Bots Ihre Website crawlen.

1
DocRoot