it-swarm.com.de

Google crawlt meine Website nicht (robots.txt-Fehler)

Ich führe derzeit SEO für das Projekt meines Kunden durch. Ich bin ein bisschen neu in diesem Bereich, bitte trage es mit mir.

Ich habe eine Menge gemischter Kritiken über die Einbindung von robots.txt gelesen (einige sagen, es sei gut, sie einzuschließen, selbst wenn Sie keine zu blockierenden URLs haben, andere sagen, wir sollten sie nicht einmal haben).

Viele Online-Tools erwähnten außerdem, dass die Site meines Kunden keine robots.txt enthielt, weshalb ich mich entschied, die robots.txt in meine Site aufzunehmen.

Meine Entwickler haben jedoch die robots.txt bereitgestellt, die die folgenden Elemente enthält:

User-agent: *
Disallow: /

Wenn Sie diesen Backslash für Disallow hinzufügen, wird Google dazu aufgefordert, nicht alle Inhalte auf meiner Website zu crawlen

31. Januar : Falsche robots.txt wurde bereitgestellt

6. Februar : Ich stellte fest, dass ich meine Website in SERPs nicht finden konnte und fand den robots.txt-Fehler, den ich meinen Entwicklern mitteilte, ihn zu ändern sofort.

14. Februar: Richtige robots.txt wurde bereitgestellt

User-agent: *
Disallow: 

9. März: Bis heute sind alle meine Seiten (außer Homepge) nicht in Google zu finden

Ich kann einfach nicht herausfinden, wo das Problem liegt. Meine einzige gute Vermutung ist, dass Google wegen des nicht zulässigen Backslashs alle meine Webseiten auf eine "schwarze Liste" gesetzt hat. Nachdem ich die robots.txt-Datei in die richtige geändert habe, muss Google meine Website noch crawlen, und daher befinden sich meine Webseiten immer noch in ihrer "Blacklist".

Was sollte ich jetzt tun?

================================================ ==

Bearbeitete Informationen:

Ich dachte, es könnte an der Verlagerung von HTTP zu HTTPS liegen, da das Google-Webmaster-Tool http und https als separate Websites ansieht. Ich habe von hier gelesen (https://webmasters.stackexchange.com/questions/68435/moving-from-http-to-https-google-search-console) das müssen wir haben alte und neue Sitemaps in GWT.

In meinem GWT hatte ich nur http, also habe ich kürzlich https eingefügt. Die sitemap.xml für meine http- und https-Konsole verlinkt jedoch auf dasselbe. Könnte das ein Problem sein?

2

einige sagen, es ist gut, einzuschließen, auch wenn Sie keine URLs zu blockieren haben

Dies verhindert einfach, dass Ihre Protokolle mit vielen unnötigen 404s verschmutzt werden - da die Bots dies sowieso anfordern. Dies ist jedoch kein Problem - es hängt nur davon ab, wie Ihre Statistik-Software dies meldet. (Die Anfrage wird trotzdem protokolliert, unabhängig davon, ob sie existiert oder nicht - entweder mit einem "200 OK", falls vorhanden, oder mit einem "404 Not Found", falls nicht.)

Wenn Sie eine robots.txt -Datei angeben und möchten, dass die Bots alle Seiten crawlen, sollte diese entweder leer sein oder das Minimum enthalten:

User-agent: *
Disallow:

(Beachten Sie, dass der URL-Pfad der Anweisung Disallow keinen Schrägstrich enthält.)

Sie müssen Ihre Website mit der Google-Suchkonsole (früher Google Webmaster-Tools) überprüfen, sofern dies noch nicht geschehen ist, und mit den Tools Crawl> "robots.txt-Tester" und "Als Google abrufen" überprüfen, ob robots.txt Google erkennt, wann darauf zugegriffen wurde und ob Ihre Seiten zugänglich sind.

  • Überprüfen Sie Ihre Serverprotokolle. Hat Googlebot Ihre Website besucht?

  • Was gibt eine site: -Suche in den SERPs zurück?

aufgrund des nicht zulässigen Backslashs hat Google alle meine Webseiten auf eine "schwarze Liste" gesetzt.

Google führt keine "Blacklist" Ihrer Seiten auf diese Weise durch. Das einfache "Korrigieren" Ihrer robots.txt -Datei sollte ausreichen. Übrigens ist dies ein (Vorwärts-) Schrägstrich, kein Backslash .

Tatsächlich ist es nicht ungewöhnlich, dass eine Site während der Entwicklung mit robots.txt blockiert wird. Diese Blockierung wird nur dann entfernt, wenn die Site live geschaltet wird.

Es kann viele Gründe geben, warum Ihre Website noch nicht in den SERPs angezeigt wird. Eine Sache ist, dass Ihre Website neu ist und einige Zeit in Anspruch nimmt - Sie haben möglicherweise nicht genug Zeit dafür. Und das Bereitstellen einer blockierenden robots.txt -Datei hat möglicherweise nur zu einer Verlangsamung geführt.

Für mehr Informationen:

2
MrWhite

Ich denke, Disallow:/verhindert, dass Google Bots Ihre gesamte Domain indizieren.

  • Nicht zulassen: [der URL-Pfad, den Sie blockieren möchten]

  • Zulassen: [Der URL-Pfad in einem Unterverzeichnis innerhalb eines blockierten übergeordneten Elements
    Verzeichnis, das Sie entsperren möchten]

Haben Sie den robots.txt-Tester ausprobiert ?: https://support.google.com/webmasters/answer/6062598

0
Enrico

FIRST
Dadurch:

User-agent: *
Disallow: /

Sie möchten Ihre Website nicht indizieren. Das bedeutet, dass Ihre gesamte Website nicht in den Suchergebnissen angezeigt wird. Wenn Sie beispielsweise einen Verzeichnisaufruf "test" haben und in Ihrem Verzeichnis Seiten für Ihre Tests vorhanden sind, können Sie Folgendes tun:

User-agent: *
Disallow: /test/

robots.txt gilt für alle Suchmaschinen, die diese Datei interpretieren können, und das bedeutet nicht nur Google, sondern auch Yahoo und Bing (und wahrscheinlich noch viel mehr kleinere Suchmaschinen).

SEKUNDEN
Wenn Sie sowohl "http" als auch "https" haben, haben Sie möglicherweise doppelten Inhalt. Eines Ihrer Verzeichnisse sollte leer sein, mit Ausnahme der htaccess-Datei, die zur anderen Site umleitet (HTTP zu HTTPS, HTTPS zu HTTP).
Vergewissern Sie sich in Ihren Domain-Registrar-Einstellungen, dass Sie keine Weiterleitung eingerichtet haben. Die einzige Funktion, die die Weiterleitung steuert, sind Ihre htaccess-Dateien.

DRITTES
Richten Sie ein Google Search Console-Konto für diese Website ein. Sobald Sie Ihre Website überprüft haben (wenn Sie Analytics so schnell eingerichtet haben), sehen Sie eine Reihe von Optionen, mit denen Sie Folgendes überprüfen können:

  • Crawling-Fehler.
  • Crawling-Statistiken.
  • robots.txt-Tester.
  • sitemaps.xml Tester (über den wir nicht gesprochen haben, der aber auch SEHR wichtig ist).
  • Indexstatus.
  • Blockierte Ressourcen.
  • Viel mehr.
0
viktta