it-swarm.com.de

So beheben Sie Google "Indiziert, obwohl durch robots.txt blockiert"

Vor kurzem hat sich Google über bestimmte Seiten beschwert, auf denen steht:

Indexed, though blocked by robots.txt

Ich bin durch diesen Fehler verwirrt. Ja, die Seite wird von robots.txt blockiert und das war schon immer so. Es ist nichts Neues passiert und Ich möchte nicht, dass es gecrawlt oder indexiert wird. Warum indiziert Google die Seite, wenn ich es ausdrücklich sage es nicht zu? Mir ist klar, dass ich ein Meta-Tag wie <meta name="robots" content="noindex"> hinzufügen kann, aber warum sollte dies notwendig sein?

6
billynoah

Google durchsucht Ihre Seite nicht, indiziert jedoch die URL. Es indiziert nicht den Inhalt der Seite, sondern nur die URL selbst, möglicherweise zusammen mit dem Ankertext von Links, die darauf verweisen. Google sagt :

Eine gesperrte Seite kann weiterhin indexiert werden, wenn sie von anderen Websites aus verlinkt wird. Google crawlt oder indexiert den von robots.txt blockierten Inhalt zwar nicht, es kann jedoch dennoch vorkommen, dass eine nicht zugelassene URL gefunden und indexiert wird, wenn sie von anderen Stellen im Web aus verlinkt wird. Daher können die URL-Adresse und möglicherweise auch andere öffentlich zugängliche Informationen, z. B. Ankertext in Links zur Seite, weiterhin in den Google-Suchergebnissen angezeigt werden. Um zu verhindern, dass Ihre URL ordnungsgemäß in den Google-Suchergebnissen angezeigt wird, sollten Sie die Dateien auf Ihrem Server mit einem Kennwort schützen oder das noindex-Metatag oder den Antwortheader verwenden (oder die Seite vollständig entfernen).

Der Grund dafür ist, dass einige wichtige Websites kein Crawling zulassen. Eine solche Site ist (oder war) der kalifornische DMV. Es ist wichtig, dass Benutzer nach dem kalifornischen DMV suchen können, auch wenn Google die Website nicht crawlen kann. Googles Matt Cutts veröffentlicht zu diesem Problem im Jahr 2006.

Wenn Google eine Seite indexiert, die von robots.txt blockiert wird, wird sie normalerweise in den Suchergebnissen wie folgt angezeigt ( Bildquelle ):

Wenn die Seite überhaupt nicht indiziert werden soll, müssen Sie sie von Google crawlen lassen und das <meta name="robots" content="noindex"> -Tag verwenden. Beachten Sie, dass Google dieses Tag niemals sehen kann, wenn die Seite von robots.txt blockiert wird, und die URL weiterhin indiziert wird.

Die andere "experimentelle" Option wäre, Noindex: anstelle von Disallow: in robots.txt zu verwenden. Siehe Wie funktioniert “Noindex:” in robots.txt? Der einzige Nachteil ist, dass Google sagt, dass es an jedem Punkt nicht mehr unterstützt werden kann. Andere Suchmaschinen wissen nicht, was sie mit dieser Direktive anfangen sollen, daher müssten Sie sie in einen Google-spezifischen Abschnitt von robots.txt einfügen. Im Jahr 2019 Google gab bekannt, dass es eine noindex: nicht mehr unterstützt Direktive in robots.txt.

9

Cool...! Gemäß meiner Analyse möchten Sie noindex & disallow für bestimmte Seiten oder Kategorien oder Tags implementieren.

Noindex: Wenn Sie Noindex für eine Seite implementieren; Diese Seiten sind nicht auf SERP indiziert, aber ein Roboter kann diese Seiten immer noch crawlen.

Disallow: Wenn Sie Disallow für eine Datei/Seite/ein Verzeichnis implementieren, werden diese Seiten nicht von den Robotern gecrawlt, sondern in den Suchergebnissen angezeigt. In diesem Fall müssen Sie zuerst noindex für diese Seiten festlegen. Nachdem die Site gecrawlt wurde, müssen Sie disallow in der robots.txt-Datei implementieren.

Hoffe du kannst meine Sachen verstehen.

0
cstpl123

Es ist ein häufiges Problem, aber es tritt auf, wenn wir interne oder externe verlinkte Seiten blockieren. Sie können diese Links entfernen oder warten, bis sie automatisch aufgelöst werden. Wie Sie festgestellt haben, dass diese Beiträge bereits indexiert sind, müssen Sie noindex tag implementieren und disallow aus robots.txt entfernen