it-swarm.com.de

Was bedeutet es, wenn ein User-Agent einen anderen User-Agent enthält?

Grundsätzlich wird dem Benutzeragenten manchmal sein normaler Benutzeragent angezeigt, und am Ende wird das Tag "Benutzeragent:" angezeigt, und direkt danach wird ein anderer Benutzeragent angezeigt. Manchmal wird der zweite User-Agent nur an den ersten ohne das Tag "User-Agent:" angehängt.

Hier sind einige Beispiele, die ich gesehen habe: Die ersten enthalten irgendwo in der Mitte das Tag "User-Agent:", und ich habe die Schriftart geändert, um die Anzeige zu vereinfachen.

Mozilla/4.0 (kompatibel; MSIE 7.0; Windows NT 6.0; Trident/4.0; GTB6; User-agent: Mozilla/4.0 (kompatibel; MSIE 6.0; Windows NT 5.1; SV1); SLCC1; .NET CLR 2.0.50727; NET CLR 3.0.04506)

Mozilla/4.0 (kompatibel; MSIE 8.0; Windows NT 5.1; Trident/4.0; GTB6; MRA 5.10 (Build 5339); User-agent: Mozilla/4.0 (kompatibel; MSIE 6.0; Windows NT 5.1; SV1); .NET CLR 1.1.4322; .NET CLR 2.0.50727)

Mozilla/4.0 (kompatibel; MSIE 8.0; Windows NT 5.1; Trident/4.0; User-agent: Mozilla/4.0 (kompatibel; MSIE 6.0; Windows NT 5.1; SV1); .NET CLR 2.0.50727; .NET CLR 3.0. 4506.2152; .NET CLR 3.5.30729)

Mozilla/4.0 (kompatibel; MSIE 8.0; Windows NT 5.1; Trident/4.0; User-agent: Mozilla/4.0 (kompatibel; MSIE 6.0; Windows NT 5.1; SV1); .NET CLR 1.1.4322; .NET CLR 2.0. 50727; .NET CLR 3.0.4506.2152)

Hier sind einige ohne das "User-Agent:" - Tag in der Mitte, aber nur zwei Benutzeragenten, die zusammengesetzt zu sein scheinen.

Mozilla/4.0 (kompatibel; MSIE 8.0; Windows NT 6.0; Trident/4.0; Mozilla/4.0 (kompatibel; MSIE 6.0; Windows NT 5.1; SV1); .NET CLR 3.5.30729)

Mozilla/4.0 (kompatibel; MSIE 8.0; Windows NT 5.1; Trident/4.0; GTB6; IPMS/6568080A-04A5AD839A9; TCO_20090713170733; Mozilla/4.0 (kompatibel; MSIE 6.0; Windows NT 5.1; SV1); InfoPath.2)

Nun, nur um ein paar Anmerkungen hinzuzufügen. Ich verstehe, dass das "User-Agent:" - Tag normalerweise eine Kopfzeile ist und was auf eine typische "User-Agent:" - Zeichenfolge folgt, ist der tatsächliche Benutzeragent, der an Server usw. gesendet wird, aber normalerweise der "User-Agent:" Die Zeichenfolge sollte nicht Teil des tatsächlichen Benutzeragenten sein, dh eher wie die Voreinstellung oder ein Tag, das angibt, dass das Folgende der tatsächliche Benutzeragent ist.

Außerdem habe ich vielleicht gedacht, hey, das sind nur zwei zusammengefügte Benutzeragenten, aber bei näherer Betrachtung stellen Sie fest, dass dies nicht der Fall ist. Wenn Sie sich bei all diesen Dual-User-Agent-Listen die öffnende Klammer "(" kurz vor dem Schlüsselwort "compatible", erkennen Sie, dass das Paar mit dieser Klammer ")" genau am Ende, dem Ende des zweiten Benutzers, befindet Agent. Das Schließen der Klammer ")" für den ersten Benutzeragenten erfolgt also nie vor Beginn des zweiten Benutzeragenten, sondern immer direkt am Ende. Daher ähnelt der zweite Benutzeragent eher einem der Merkmale des ersten Benutzeragenten, z. Trident/4.0 "oder" GTB6 "etc etc ...

Die andere Sache zu beachten, dass der zweite Benutzer-Agent immer MSIE 6.0 (Internet Explorer 6.0) ist, interessant.

Was ich anfangs gedacht hatte, war, dass es sich um eine Art virtuelle Maschine handelt, die den verwendeten Browser und den installierten Browser anzeigt, aber dann dachte ich, worum geht es dabei?

Schließlich denke ich, dass es sich wahrscheinlich um eine Art "Kompatibilitätsansicht" handelt, bei der der Benutzeragent selbst dann, wenn MSIE 7.0 oder 8.0 installiert ist, wenn der hypothetische Modus "Anzeige in Internet Explorer 6.0" aktiviert ist ändert sich zu so etwas. Das heißt, IE 8.0 ist installiert, rendert aber alles wie IE 6.0.

Gibt es oder gab es eine solche Funktion im Internet Explorer? Bin ich hier auf etwas? Was denkst du darüber? Wenn Sie weitere Ideen haben, teilen Sie uns diese bitte mit.

Im Moment versuche ich nur zu verstehen, ob es sich um gültige User Agents handelt oder ob sie ungültig sind. In einer Liste von ungefähr 44.000 User Agents habe ich diese Art von Dual User Agent ungefähr 400 Mal gesehen. Ich habe 40 davon genau untersucht, und jeder einzelne hatte MSIE 6.0 als "zweiten" Benutzeragenten (und der erste Benutzeragent eine höhere Version von MSIE, wie z. B. 7 oder 8). Dies galt für alle außer für einen, bei dem beide Benutzeragenten MSIE 8.0 waren. Hier ist es:

Mozilla/4.0 (kompatibel; MSIE 8.0; Windows NT 5.1; Trident/4.0; Mozilla/4.0 (kompatibel; MSIE 8.0; Win32; GMX); GTB0.0)

Dies geschah einmal bei meinen 40 Nahkontrollen. Ich habe die 400 in 44.000 geschätzt, indem ich eine Stichprobe der ersten 4.400 Benutzeragenten genommen und 40 davon in den MSIE/Windows-Benutzeragenten gefunden und diese auf 40 hochgerechnet habe. Es gab auch ähnliche Ereignisse für Nicht-MSIE-Benutzeragenten Wenn in einem Benutzeragenten zwei Mozillas vorhanden waren, würden die Nicht-MSIE-Agenten wahrscheinlich weitere 30% zu den von mir notierten hinzufügen. Ich kann Ihnen Beispiele davon zeigen, wenn jemand möchte.

Da haben wir es, hier bin ich, was denkt ihr?

5

Mit ziemlicher Sicherheit ist dies ein Fehler in der Software, die auf Ihre Website zugreift - ein Browser, ein Browser-Plugin oder ein Skript/Befehlszeilenprogramm wie wget. Es ist, als hätte jemand versucht, den Header User-agent zu ändern, aber stattdessen in einen Standardheader eingefügt.

Sofern die IP-Adresse des Benutzers keine Probleme beim Überlasten des Servers verursacht, können Sie keine wirklichen Maßnahmen ergreifen.

2
DisgruntledGoat

"User-Agent:" in der Zeichenfolge ist nicht W3C-normal. Ich habe keine Rechtfertigung für diese Zeichenfolge gefunden. Ich persönlich blockiere sie. Tonnenweise Stunden damit verbracht, IPs, Agentenketten, Referrer usw. zu analysieren.

Wenn es anderen hilft:

Ich verwende Kaskadenverfahren, um den fehlerhaften Datenverkehr zu isolieren und die Überprüfungszeit sowie die Serverressourcen so gering wie möglich zu halten:

1) ROBOTS.txt

Mit der vollständigsten Liste der schlechten Bots könnte ich sie verbieten und schlechten Verkehr verkürzen.

2) SESSION_Start

Routine mit Arrays von schlechten Sachen:

  • URLs, die direkt gehackt werden sollen: "xmlrpc | wordpress | wp-admin | ..."
  • Gute Bots: "baidu | bingpreview | bingbot | adidxbot | googlebot.com | ..."
  • Häufige Fehler im Agenten: "user-agent: | genieo | majestic12 | ..."
  • Große Liste NICHT üblicher fehlerhafter Zeichenfolgen: "abcdatos | almaden | amsu.ru | chaos | ..." (diese Liste kann leicht 3.000 Zeichenfolgen enthalten)

a) Wenn die Anfrage eine fehlerhafte URL ist, erhält der Benutzer den Fehler 401.3. Fängt wp-admin, xmlrpc.xml und andere URL-Angriffe ab.

b) Schleife, wenn "Good Bots" Zeichenfolgen in User-Agent sind, und umgehe den Rest der Prüfung.

c) Kehren Sie in die "kurze Liste der bekannten fehlerhaften Agenten" zurück und senden Sie Fehler 403.1, falls gefunden

d) Wenn nicht in der Kurzliste, gehen Sie in eine große Liste von "schlechten Zeichenfolgen" und senden Sie 401.3 (Ende der Straße für den Benutzer).

3) MONITOR Seite

Wenn eine Zeichenfolge gefunden wird; IP, Land, Zeichenfolge, URL, Referrer und Agent werden im Speicher gehalten, um in Echtzeit auf der rot hervorgehobenen Monitorseite überprüft zu werden.

Beispiel: "puffin" oder "user-agent:" kann ein Fehler sein, daher werden beide untersucht, ob sie Teil eines Browsers, einer Software, eines Fernsehgeräts, eines Geräts, eines Tablets oder eines Telefons und eines korrekten Arrays sind.

Mit einer umfangreichen Liste von Browsern und Versionen können Sie die Zeichenfolge des Agenten überprüfen.

FAZIT:

Ich fand unter anderem heraus, dass "User-Agent:" Zeichenfolgen zu bestimmten Tageszeiten auftreten, IPs meistens aus den USA stammen und sich in der Nähe desselben Netzwerks und geografischen Standorts befinden, in enger Beziehung zu demselben Browsertyp, derselben Version und Kompatibilität stehen .

Ablehnen von "User-Agent:" scheint nach einer Woche, die seit Tagen oder Wochen nicht mehr kommt, wie was auch immer es tut, die 403.1 verboten zu haben und nicht mehr darauf zu bestehen.

Die Analyse dieser Zeichenfolge unter http://www.useragentstring.com/index.php scheint effektiv zu sein, dass "user-agent:" eine unbekannte Funktion unter anderen Hinweisen ist, mit deren Hilfe festgestellt werden konnte, dass es sich weder um einen normalen Benutzer noch um einen normalen Benutzer handelt eine gute Spinne.

0
user2033838

Schauen Sie sich das akzeptierte Antwort am Stackoverflow an, dort finden Sie Links zu den Standarddefinitionen RFC2616 und RFC1945.

Aus meinen eigenen Experimenten während der Entwicklung eines Besucher-Tracking-Plugins kann ich hinzufügen, dass Sie in Ihren Protokollen viele falsche und gefälschte Benutzeragenten-Header finden.

Beispiel: Wenn jemand Ihre Site mit Befehlszeilentools wie wget spinnt, gibt es einen User-Agent-String-Parameter, mit dem Sie alles hinzufügen können, was Sie möchten. Viele SEO-Spider-Tools ermöglichen es Ihnen auch, einzelne Zeichenfolgen hinzuzufügen, sei es nur, um sich selbst zu verstecken. Einige Datenschutz-Plugins fälschen Header (oder lassen Sie sie ändern). Skript-Kiddie-Hacker-Tools sind ebenfalls gefälscht. Oh ja, und wenn Sie auf Ihrer Website Stimmen haben, die wichtig sind (zum Beispiel: Leute können etwas gewinnen oder es kommt ein Hype auf), werden Sie viele Fälschungen sehen :-)

0
initall