it-swarm.com.de

Massiver 404-Angriff mit nicht vorhandenen URLs. Wie kann man das verhindern?

Das Problem ist eine ganze Menge von 404-Fehlern, die von Google Webmaster-Tools gemeldet wurden, mit Seiten und Abfragen, die noch nie dort waren. Einer von ihnen ist viewtopic.php, und ich habe auch eine beängstigende Anzahl von Versuchen bemerkt, zu überprüfen, ob es sich bei der Site um eine WordPress Site (wp_admin) handelt, sowie für die cPanel-Anmeldung. Ich blockiere TRACE bereits und der Server ist mit einer gewissen Verteidigung gegen Scannen/Hacken ausgestattet. Dies scheint jedoch nicht zu stoppen. Der Referrer ist laut Google Webmaster totally.me.

Ich habe nach einer Lösung gesucht, um dies zu stoppen, denn sie ist sicherlich nicht gut für die armen realen tatsächlichen Benutzer, geschweige denn für die SEO-Belange.

Ich verwende die Mini-Blacklist von Perishable Press ( hier zu finden ), einen Standard-Empfehlungsblocker (für Porno-, Kräuter-, Casino-Websites) und sogar einige Software zum Schutz der Website (XSS-Blockierung, SQL-Injection, usw). Der Server verwendet auch andere Maßnahmen, sodass davon ausgegangen werden kann, dass die Site sicher ist (hoffentlich), sie jedoch nicht endet.

Hat sonst noch jemand das gleiche Problem, oder sehe ich das nur als Einziger? Ist es das, was ich denke, d. H. Eine Art Angriff? Gibt es eine Möglichkeit, das Problem zu beheben oder besser, diese unnütze Verschwendung von Ressourcen zu verhindern?

EDIT Ich habe die Frage noch nie benutzt, um mich für die Antworten zu bedanken, und hoffe, dass dies möglich ist. Ich danke Ihnen allen für Ihre aufschlussreichen Antworten, die mir geholfen haben, einen Ausweg zu finden. Ich bin allen Vorschlägen gefolgt und habe Folgendes umgesetzt:

  • ein Honigtopf
  • ein Skript, das auf verdächtige URLs auf der 404-Seite hört und mir eine E-Mail mit User Agent/IP sendet, während ein Standard-404-Header zurückgegeben wird
  • ein Skript, das legitime Benutzer auf derselben benutzerdefinierten 404-Seite für den Fall belohnt, dass sie auf eine dieser URLs klicken. In weniger als 24 Stunden konnte ich einige verdächtige IP-Adressen, die alle in Spamhaus aufgelistet sind, isolieren. Alle bisher protokollierten IPs gehören Spam-VPS-Hosting-Unternehmen.

Nochmals vielen Dank, ich hätte alle Antworten akzeptiert, wenn ich könnte.

14
tattvamasi

Ich sehe oft eine andere Site, die auf Tonnen von Seiten auf meiner Site verweist, die nicht existieren. Auch wenn Sie auf diese Seite klicken und den Link nicht sehen:

  • Möglicherweise hatte die Site zuvor diese Links
  • Die Website verbirgt sich möglicherweise und stellt diese Links nur für Googlebot und nicht für Besucher bereit

Es ist eine Verschwendung von Ressourcen, aber es wird Google nicht verwirren und Ihre Platzierungen nicht beeinträchtigen. Dies ist, was Googles John Müller (der an Webmaster-Tools und Sitemaps arbeitet) muss über 404-Fehler sagen, die in Webmaster-Tools auftreten :

HILFE! MEINE WEBSITE HAT 939 CRAWL-FEHLER !! 1

Ich sehe diese Art von Frage mehrmals pro Woche. Sie sind nicht alleine - viele Websites weisen Crawling-Fehler auf.

  1. 404-Fehler bei ungültigen URLs beeinträchtigen in keiner Weise die Indizierung oder das Ranking Ihrer Website . Es spielt keine Rolle, ob es 100 oder 10 Millionen gibt, sie schaden dem Ranking Ihrer Website nicht. http://googlewebmastercentral.blogspot.ch/2011/05/do-404s-hurt-my-site.html
  2. In einigen Fällen können Crawling-Fehler von einem legitimen strukturellen Problem innerhalb Ihrer Website oder Ihres CMS herrühren. Wie sagst du es? Überprüfen Sie den Ursprung des Durchforstungsfehlers. Wenn auf Ihrer Website ein fehlerhafter Link im statischen HTML-Code Ihrer Seite vorhanden ist, lohnt es sich immer, diesen zu beheben. (Danke + Martino Mosna )
  3. Was ist mit den funky URLs, die "deutlich kaputt" sind? Wenn unsere Algorithmen wie Ihre Website versuchen, mehr großartigen Inhalt darauf zu finden, zum Beispiel indem sie versuchen, neue URLs in JavaScript zu entdecken. Wenn wir diese "URLs" ausprobieren und einen 404 finden, ist das großartig und wird erwartet. Wir möchten einfach nichts Wichtiges verpassen (fügen Sie hier ein überhängendes Googlebot-Mem ein). http://support.google.com/webmasters/bin/answer.py?answer=1154698
  4. Sie müssen keine Crawling-Fehler in den Webmaster-Tools beheben. Die Funktion „Als fest markiert“ soll Ihnen nur helfen, wenn Sie Ihren Fortschritt dort verfolgen möchten. Es ändert nichts an unserer Web-Such-Pipeline. Ignorieren Sie es einfach, wenn Sie es nicht benötigen. http://support.google.com/webmasters/bin/answer.py?answer=24674
  5. Wir listen Crawling-Fehler in den Webmaster-Tools nach Priorität auf, was auf mehreren Faktoren beruht. Wenn die erste Seite mit Durchforstungsfehlern eindeutig irrelevant ist, werden Sie auf weiteren Seiten wahrscheinlich keine wichtigen Durchforstungsfehler finden. http://googlewebmastercentral.blogspot.ch/2012/03/crawl-errors-next-generation.html
  6. Es ist nicht erforderlich, Crawling-Fehler auf Ihrer Website zu beheben. Das Finden von 404 ist normal und wird von einer gesunden, gut konfigurierten Website erwartet. Wenn Sie über eine gleichwertige neue URL verfügen, empfiehlt es sich, diese umzuleiten. Andernfalls sollten Sie keine gefälschten Inhalte erstellen, nicht auf Ihre Startseite umleiten und nicht die URLs von robots.txt sperren. All diese Dinge erschweren es uns, die Struktur Ihrer Website zu erkennen und ordnungsgemäß zu verarbeiten. Wir nennen diese "weichen 404" -Fehler. http://support.google.com/webmasters/bin/answer.py?answer=181708
  7. Wenn diese Crawling-Fehler für URLs angezeigt werden, die Sie interessieren, z. B. für URLs in Ihrer Sitemap-Datei, sollten Sie sofort entsprechende Maßnahmen ergreifen. Wenn der Googlebot Ihre wichtigen URLs nicht crawlen kann, werden sie möglicherweise aus unseren Suchergebnissen entfernt und Nutzer können möglicherweise auch nicht darauf zugreifen.
16

Es gibt Unmengen von Skripten, die zufällige IP-Adressen im Internet auf Schwachstellen untersuchen, die in verschiedenen Arten von Software bekannt sind. In 99,99% der Fälle finden sie nichts (wie auf Ihrer Website), und in 0,01% der Fälle pwnt das Skript den Computer und macht, was der Skript-Controller will. In der Regel werden diese Skripte von anonymen Botnetzen von Computern ausgeführt, die zuvor pwnd waren, und nicht vom tatsächlichen Computer des ursprünglichen Skriptkiddies.

Was tun?

  1. Stellen Sie sicher, dass Ihre Website nicht anfällig ist. Dies erfordert ständige Wachsamkeit.
  2. Wenn dies so viel Last erzeugt, dass die normale Standortleistung beeinträchtigt wird, fügen Sie eine IP-basierte Blockierungsregel hinzu, um zu vermeiden, dass Verbindungen von einem bestimmten Standort akzeptiert werden.
  3. Erfahren Sie, wie Sie beim Durchsuchen Ihrer Serverprotokolle nach CMD.EXE oder cPanel oder phpMyAdmin oder einer Vielzahl anderer Sicherheitslücken suchen.

Sie scheinen zu glauben, dass jeder von Ihrem Server an Dritte zurückgegebene 404-Code die Meinung von Google zu Ihrer Website beeinflusst. Das ist nicht wahr. Nur 404-Werte, die von Google-Crawlern und möglicherweise Chrome Nutzern zurückgegeben wurden, wirken sich auf Ihre Website aus. Solange es sich bei allen Links auf Ihrer Website um ordnungsgemäße Links handelt und Sie keine Links für ungültig erklären, die Sie zuvor der Welt gezeigt haben, werden Sie keine Auswirkungen feststellen. Die Skript-Bots sprechen in keiner Weise mit Google.

Wenn Sie auf reale Weise angegriffen werden, müssen Sie sich für eine Art DoS-Mitigation-Provider-Dienst anmelden. Verisign, Neustar, CloudFlare und Prolexic sind Anbieter, die verschiedene Pläne für verschiedene Arten von Angriffen haben - vom einfachen Web-Proxying (das bei manchen Anbietern sogar kostenlos sein kann) über DNS-basierte On-Demand-Filterung bis hin zum vollständigen BGP basierte Point-of-Presence-Swings, die den gesamten Datenverkehr durch "Scrubbing" -Rechenzentren mit Regeln senden, die Angriffe abschwächen.

Aber es klingt nach dem, was Sie sagen, dass Sie nur die normalen Schwachstellenskripte sehen, die jede IP im Internet sieht, wenn sie auf Port 80 lauscht. Sie können buchstäblich einen neuen Computer einrichten, einen leeren Apache starten, Innerhalb weniger Stunden werden diese Zeilen im Zugriffsprotokoll angezeigt.

5
Jon Watte

Dies ist wahrscheinlich kein Angriff, sondern ein Scan oder eine Untersuchung.

Abhängig vom Scanner/Prober kann dies harmlos sein, dh es werden nur Probleme in einer bestimmten Art von Forschungskapazität gesucht, oder es kann eine Funktion zum automatischen Angreifen vorhanden sein, wenn eine Öffnung gefunden wird.

Webbrowser geben gültige Referrer-Informationen an, aber andere Programme können einfach jeden Referrer ausmachen, den sie möchten.

Der Verweiser ist lediglich eine Information, die optional von Programmen bereitgestellt wird, die auf Ihre Website zugreifen. Es kann alles sein, was sie wählen, um es zu setzen, wie totally.me oder random.yu. Es kann sogar eine echte Website sein, die sie gerade ausgewählt haben.

Sie können dies nicht wirklich beheben oder verhindern. Wenn Sie versucht haben, jede Anforderung dieses Typs zu blockieren, müssen Sie am Ende eine sehr große Liste führen, die sich nicht lohnt.

Solange Ihr Host mit Patches Schritt hält und Schwachstellen verhindert, sollte dies keine tatsächlichen Probleme verursachen.

3
Grax

In der Tat klingt es nach Bot-Raserei. Tausende von IPs auf vielen Hosts haben uns ebenfalls beeindruckt, höchstwahrscheinlich ohne Kenntnis des Site-OP. Bevor ich einige hilfreiche Lösungen anbiete, ist eine meiner Fragen:

F: Wie sehen Sie in den Google Webmaster-Tools die 404-Werte Ihrer gesamten Website? GWT ist die Ausgabe von Googlebots-Ergebnissen, nicht die Ausgabe anderer Bots. Außerdem führen diese anderen Bots JS for Analytics nicht aus. Haben Sie eine Art API, die zu GWT geht, wo Sie Ihre Serverstatistiken sehen können? Wenn nicht, kann dies zu einem Alarm führen, da der googlebot selbst Fehler findet.

  • Wenn dies NUR Googlebot-Fehler sind, könnte dies darauf hinweisen, dass jemand Links zu Ihrer Website in Foren und für Ziele von böswilligen Real-Human-PC-Bots gesetzt hat. Stellen Sie sich vor, harverstor + planter läuft auf einem ausgenutzten Server und richtet eine Menge Ziele für zukünftige "Spam-Verträge" ein, durch die portiert werden soll.

  • Wenn Sie in der Tat wissen, dass Ihre vollständigen Serverstatistiken gemeldet werden, benötigen Sie einige Tools. Ein paar Apps und Dienste können Ihnen dabei helfen, es zu reduzieren. Angenommen, Sie betreiben einen Linux-Server:

1) Beginnen Sie, einer htaccess-Blacklist anstößige IP-Adressen hinzuzufügen. Es sieht aus wie "verweigern von 192.168.1.1" und wird ihnen 403 verboten. Lassen Sie sich nicht mitreißen, sondern blockieren Sie die Biggens. Überprüfen Sie sie anhand der Sites in Schritt 4), um sicherzustellen, dass es sich nicht um echte Internetdienstanbieter handelt. Sie können diese Datei kopieren und sie auch über die Firewall hinaus auf jeden Account/jede App kleben.

2) Installieren Sie APF. Es ist wirklich einfach, die Firewall über SSH unter Linux zu verwalten. Fügen Sie sie wie folgt in APF hinzu: "apf -d 192.168.1.1". Ht scheint wegen APF überflüssig, aber Ht ist portabel.

) Installieren Sie cPanel Hulk und vergewissern Sie sich, dass Sie Ihre IP-Adressen auf eine Whitelist setzen, damit Sie nicht gesperrt werden, wenn Sie einen Pass vergessen. Dies wird auch eine gute Quelle für IPs sein, die zu ht + apf hinzugefügt werden können. Es hat einige Besonderheiten, so dass es die Anmeldeversuche mit Brute Force auf intelligente Weise abschwächen kann.

4) Verbinde dich mit stopforumspam.com und projecthoneypot.org und starte ihre Module. Beide helfen viel, bekannte Anfragen abzulehnen und neue Tiere/Netze/Chinaspam zu identifizieren + zu melden. Es gibt auch E-Mail-Filter, die Sie verwenden können, aber Google Mail besitzt sie, wenn es um Spam-Filter geht.

5) Da die Bots niemals nachlassen, schützen Sie Ihre Admin-Pfade. Wenn Sie WordPress ausführen, den Administrationspfad ändern, Captcha hinzufügen usw. Wenn Sie SSH verwenden, ändern Sie den Anmeldeport in einen nicht verwendeten, und deaktivieren Sie dann die SSH-Root-Anmeldung. Erstellen Sie ein "radmin", bei dem Sie sich zuerst anmelden müssen, dann su für root.

  • Ein Hinweis zu Captcha: Wenn Sie Ihr eigenes Captcha auf einer Website mit hohem Datenaufkommen ausführen und den Bot-Rausch auf Firewall-/HT-Ebene nicht leugnen, kann dies aufgrund der Bilderzeugung in all diesen "Antispam" -Widgets zu einer Beeinträchtigung Ihrer CPU-Zyklen führen.

  • Hinweis zur Auslastung: Wenn Sie CentOS auf Ihrem Server ausführen und über VPS-Fähigkeiten verfügen, eignet sich CloudLinux hervorragend für die Absicherung und Auslastungskontrolle. Angenommen, ein Bot kommt durch, CageFS ist da, um es auf ein Konto zu beschränken. Nehmen wir an, sie entscheiden sich für DDoS .... LVE ist dafür da, die Auslastung des Kontos (der Site) zu begrenzen, damit Ihr Server nicht abstürzt. Es ist eine gute Ergänzung, um das gesamte System des "Missintent Entity Management" zu betonen :)

Nur ein paar Gedanken, ich hoffe das hilft dir weiter

3
dhaupin

Erläuterung des Problems

Zunächst einmal sind Sie nicht der Einzige, der dieses Problem hat - das sind alle. Was Sie gesehen haben, ist das Ergebnis automatisierter Bots, die jede IP-Adresse durchsuchen und nach allgemeinen Schwachstellen suchen. Sie versuchen also im Grunde, herauszufinden, welche Dinge Sie verwenden, und wenn Sie phpmyadmin verwenden, versuchen sie später eine Reihe von Standardkennwortkombinationen für Benutzernamen.

Ich bin überrascht, dass Sie so etwas gerade gefunden haben (vielleicht haben Sie gerade Ihren Server gestartet). Das Problem ist, dass Sie ihre IP-Adresse nicht für immer blockieren können (höchstwahrscheinlich ist dies ein infizierter Computer, und sein tatsächlicher Benutzer weiß nicht, was er tut, außerdem gibt es viele solcher IPs).

SEO-Effekt

Es hat überhaupt keine Wirkung. Es bedeutet nur, dass jemand versucht hat, auf etwas auf Ihrem Computer zuzugreifen, und dass es nicht vorhanden war

Ist es wirklich wichtig?

Sicher, diese Leute versuchen, Sie auf einige Probleme zu untersuchen. Darüber hinaus verschwenden sie Ihre Ressourcen (Ihr Server muss auf irgendeine Weise reagieren) und belasten Ihre Protokolldatei

Wie soll ich das beheben

Ich hatte das gleiche Problem, das ich zu beheben versuchte, und das beste Tool (Einfachheit im Vergleich zu dem, was ich damit machen kann), das ich finden konnte, ist fail2ban

Sie haben auch das Glück, dass ich bereits einen Weg gefunden habe, das gleiche Problem zu beheben, und es sogar hier dokumentiert habe (sodass Sie nicht finden müssen, wie man es installiert und wie es funktioniert). Überprüfen Sie meine Frage auf ServerFault . Aber bitte lies ein bisschen über fail2ban, um zu wissen, ob es funktioniert.

1
Salvador Dali

Wie viele bereits gesagt haben, handelt es sich hierbei nicht um einen Angriff, sondern um den Versuch, Ihre Site-App und/oder Ihre Serverfunktionen zu untersuchen oder zu scannen. Der beste Weg, um all diesen nutzlosen Datenverkehr und potenziell gefährlichen Scans herauszufiltern, ist die Implementierung einer WAF (Web Application Firewall). Dies fängt alle verschiedenen Versuche ab und markiert sie und sendet nur dann echten legitimen sauberen Datenverkehr an Ihre Server und Web-App.

Sie können Cloud-basiertes DNS-WAF oder dedizierte Geräte verwenden. Ich persönlich benutze Incapsula und F5 ASM für verschiedene Kundenstandorte. Die monatlichen Kosten betragen nur 500 US-Dollar und helfen enorm. Es bietet Ihren Kunden auch einen besseren Schutz und verringert die Ressourcen auf den Webservern selbst, wodurch Sie Geld sparen und die Geschwindigkeit erhöhen. Außerdem bieten diese Geräte PCI 6.6-Konformität und ermöglichen das Überprüfen von Berichten.

Hoffe das hilft.

1
Tony-Caffe