it-swarm.com.de

Sollten wir unsere Joomla robots.txt ändern, nachdem Google das Crawlen von CSS und JavaScript angekündigt hat?

Ist auf eine Ankündigung von Google gestoßen: http://googlewebmastercentral.blogspot.in/2014/10/updating-our-technical-webmaster.html

Es sagt aus:

Für ein optimales Rendern und Indizieren gibt unsere neue Richtlinie an, dass Sie Googlebot den Zugriff auf die von Ihren Seiten verwendeten JavaScript-, CSS- und Bilddateien erlauben sollten. Auf diese Weise können Sie Ihre Site optimal rendern und indizieren. Wenn Sie das Crawlen von Javascript- oder CSS-Dateien in der robots.txt-Datei Ihrer Website nicht zulassen, wirkt sich dies direkt darauf aus, wie gut unsere Algorithmen Ihre Inhalte rendern und indizieren. Dies kann zu suboptimalen Platzierungen führen.

Standardmäßig ist in der robots.txt-Datei von Joomla Folgendes nicht zulässig:

Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/

Bitte geben Sie an, ob wir die folgenden Elemente aus der robots.txt-Datei entfernen sollen, basierend auf der Ankündigung von Google.

Disallow: /components/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/

Wird dies laut Ankündigung für Websites empfohlen, die auf Joomla basieren?

8
Gag

Ehrlich gesagt, ist es besser, wenn Sie alles aus Ihrer robots.txt entfernen. Soweit ich sehen kann, enthalten alle PHP -Dateien in Joomla die Zeile

defined('_JEXEC') or die;

Das heißt, wenn Sie eine PHP -Datei direkt in den Browser laden, erhalten Sie lediglich eine leere Datei, die von den Suchmaschinen ignoriert wird. (Sie sollten sowieso nie darauf stoßen, es sei denn, Sie haben sie direkt verknüpft.)

Das Problem beim Blockieren einiger dieser Verzeichnisse besteht darin, dass einige Komponenten und Module ihre CSS/JS-Dateien in diesen jeweiligen Verzeichnissen und nicht in den bevorzugten Medien- oder Bildordnern aufbewahren.

Es gibt also keinen Grund, Joomla-Dateien von Google zu blockieren.

3
DisgruntledGoat

Abgesehen von der allgemeinen Verwendung/dem Fehlen von robots.txt in einer gut verwalteten Joomla-Site mit "guten" Erweiterungen von Drittanbietern - die einzigen Stellen, die CSS, JS oder Bilder enthalten sollten, sind:

/images
/media
/templates

nd natürlich deren Unterverzeichnisse.

Sie können diese also einfach aus robots.txt entfernen.

2
Craig

In Joomla 3.3 wurden diese Zeilen aus der robots.txt-Datei entfernt:

Disallow: /templates/
Disallow: /media/

Weitere Informationen hier: http://www.energizethemes.com/blog/joomla/have-you-updated-the-joomla-robots-txt-file.html

2
Michel

Die neuesten Versionen von Joomla blockieren die Ordner /media/ und /templates/ nicht mehr:

User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/

Nicht alle Erweiterungen halten sich an die Richtlinien, wo CSS- und JS-Dateien usw. abgelegt werden sollen. Es empfiehlt sich daher, Google den Zugriff auf diese Dateien zu ermöglichen, unabhängig davon, wo sie sich befinden.

Sie erreichen dies, indem Sie ein paar Zeilen an den Anfang Ihrer robots.txt -Datei einfügen:

#Googlebot
User-agent: Googlebot
Allow: *.css
Allow: *.js

User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/

EDIT:

Vielen Dank an @ w3dk und @Stephen Ostermiller für das Feedback! Du liegst ziemlich richtig. Es ist besser so etwas zu machen:

User-agent: *
Allow: *.css
Allow: *.js
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/

Leider scheint dies nicht wie beabsichtigt zu funktionieren, da die längeren (spezifischeren) Regeln die kürzeren Regeln überschreiben und die Zulassungszeilen ignoriert werden. Es scheint keinen Unterschied zu machen, ob die Zulassungszeilen den Nichtzulassungszeilen folgen oder umgekehrt.

Die einzige Möglichkeit, dies zu umgehen, besteht darin, etwas in der Art zu tun, das zu funktionieren scheint, wenn ich es in den Webmaster-Tools teste:

User-agent: *
Allow: /************************************************************.css
Allow: /************************************************************.js
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/

EDIT 2 - BESTE LÖSUNG:

OK, also habe ich ein bisschen mehr nachgeforscht und die Antwort unter https://stackoverflow.com/a/30362942/1983389 gefunden

Die korrekteste und am meisten unterstützte Lösung für alle Webcrawler sieht folgendermaßen aus (Zugriff auf *.css- und *.js -Dateien in /bin, /cache, /installation, /language, /logs und /tmp Ordner und möglicherweise einige der anderen Ordner machen wenig Sinn):

User-agent: *
Allow: /administrator/*.css
Allow: /administrator/*.js
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Allow: /cli/*.css
Allow: /cli/*.js
Disallow: /cli/
Allow: /components/*.css
Allow: /components/*.js
Disallow: /components/
Allow: /includes/*.css
Allow: /includes/*.js
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Allow: /layouts/*.css
Allow: /layouts/*.js
Disallow: /layouts/
Allow: /libraries/*.css
Allow: /libraries/*.js
Disallow: /libraries/
Disallow: /logs/
Allow: /modules/*.css
Allow: /modules/*.js
Disallow: /modules/
Allow: /plugins/*.css
Allow: /plugins/*.js
Disallow: /plugins/
Disallow: /tmp/
1
Neil Robertson

Wenn Sie Ihre Seiten beim Abrufen als Google in WMT fehlerfrei sehen, ist dies wahrscheinlich in Ordnung. In Zukunft können Sie jedoch einige Inhalte auf Ihrer Website aktualisieren, was einige Skripte/CSS von einigen blockierten Ordnern erfordert. Aus diesem Grund sind Sie möglicherweise besser in der Lage, Suchmaschinen das Crawlen all dieser Ordner mit CSS/JavaScript zu ermöglichen.

1
Bojan Miljevic