it-swarm.com.de

Öffentlich verfügbarer Spamfilter-Trainingssatz

Ich bin ein Neuling im Bereich des maschinellen Lernens, und für mein erstes Projekt möchte ich einen naiven Bayes-Spam-Filter schreiben. Ich habe mich gefragt, ob es öffentlich verfügbare Trainingssätze für gekennzeichnete Spam-/Nicht-Spam-E-Mails gibt, vorzugsweise in Klartext und nicht als Abbild einer relationalen Datenbank (es sei denn, sie drucken diese hübsch aus?). 

Ich weiß, dass eine solche öffentlich zugängliche Datenbank für andere Arten der Textklassifizierung existiert, insbesondere für Artikelartikel. Ich habe einfach nicht das Gleiche für E-Mails finden können.

36
JeremyKun

Hier ist was ich gesucht habe: http://untroubled.org/spam/

Dieses Archiv enthält etwa ein Gigabyte komprimierter Spam-Nachrichten aus den Jahren 1998 - 2011. Jetzt muss ich nur noch Spam-E-Mails erhalten. Daher frage ich einfach mein eigenes Google Mail-Programm mit dem Programm getmail und dem Tutorial unter mattcutts.com ab.

29
JeremyKun

Sicher, es gibt Spambase , was meines Wissens nach der am häufigsten zitierte Spam-Datensatz in der Literatur zum maschinellen Lernen ist.

Ich habe diesen Datensatz viele Male verwendet. Ich bin jedes Mal beeindruckt, wie viel Aufwand in die Formatierung und Dokumentation dieses Datensatzes investiert wurde.

Einige Eigenschaften des Spambase-Sets:

  • 4601 Datenpunkte - alles komplett

  • jedes umfasst 58 Funktionen (Attribute)

  • jeder Datenpunkt wird als "Spam" oder .__ bezeichnet. "Kein Spam".

  • ca. 40% sind als Spam gekennzeichnet

  • alle Features sind kontinuierlich .__ (vs. diskret)

  • ein repräsentatives Merkmal: Durchschnitt kontinuierliche Folge von Großbuchstaben Buchstaben


Spambase wird im UCI Machine Learning Repository archiviert. Darüber hinaus ist es auch auf der Website für die ausgezeichnete ML/Statistical Computation Treatise, Elemente des statistischen Lernens von Hastie et al.

10
doug

SpamAssassin verfügt über ein public corpus aus Spam- und Nicht-Spam-Nachrichten, obwohl es seit einigen Jahren nicht mehr aktualisiert wurde. Lesen Sie die Datei readme.html, um zu erfahren, was dort ist.

8
ViennaMike

Vielleicht möchten Sie einen Blick auf den TREC-Spam/Ham-Corpus werfen (was meiner Meinung nach die Sammlung von E-Mails von Enron ist, die aus dem Gerichtsverfahren veröffentlicht wurde). TREC führt im Allgemeinen eine Reihe von Textverarbeitungsaufgaben im Wettbewerb durch, so dass Sie zum Vergleich einige Referenzen finden können.

Der Nachteil ist, dass sie im Raw-Mbox-Format gespeichert werden, obwohl Parser in vielen Sprachen verfügbar sind (Apache Tika ist ein gutes Beispiel).

Die Webseite ist nicht TREC, aber dies scheint ein guter Überblick über die Aufgabe mit Links zu den Daten zu sein: http://plg.uwaterloo.ca/~gvcormac/spam/

6
Keith Trnka

Ein moderneres One-Spam-Trainingsset finden Sie unter kaggle . Darüber hinaus können Sie die Genauigkeit Ihres Klassifizierers auf seiner Website testen, indem Sie Ihre Ergebnisse hochladen.

4
warmspringwinds

Ich habe auch eine Antwort, hier Sie können eine täglich aktualisierte Bayes'sche Datenbank für das erste Training sowie ein täglich erstelltes Archiv mit erfassten Spams finden. Die Anweisungen zur Verwendung finden Sie auf der Website.

0
Frantique