Spamfilter

Methoden der Kontrolle

Zusammenfassung

Kontext

Blacklist-Methode

Diese Methode überprüft den Inhalt der E-Mail nach bestimmten Ausdrücken bzw. Stichworten oder den Absender auf Einträge aus einer Negativliste (Blacklist). Ist der Ausdruck in der E-Mail enthalten, wird die E-Mail aussortiert. Diese Blacklists müssen im Allgemeinen manuell erstellt werden und sind entsprechend aufwendig zu verwalten. Viele Spamfilter enthalten jedoch bereits voreingestellte Blacklists. Außerdem ist die Trefferquote nicht sehr hoch, da hin und wieder Spam als gute E-Mail und gute E-Mail als Spam einsortiert werden können. Auch lassen sich solche Filter leicht umgehen: steht z. B. Viagra in der Blacklist, wird der Filter Vla*gr-a nicht erkennen. Lässt der Filter die Eingabe von regulären Ausdrücken zu, kann man jedoch entsprechend ausgefeilte Filtermuster verwenden, die alle denkbaren Schreibweisen berücksichtigen, z. B. v.{0,1}[!iíì1\|l].{0,1}[aáàãå@].{0,1}g.{0,1}r.{0,1}[aáàãå@].

Eines der bekanntesten Programme unter Linux und anderen Unix-Derivaten ist SpamAssassin, das jede Mail nach verschiedenen Kriterien (offensichtlich ungültige Absender, bekannte Spam-Textpassagen, HTML-Inhalt, in die Zukunft datierte Absendedaten usw.) bepunktet und ab einer bestimmten Punktzahl als Spam klassifiziert. Ebenfalls mit einer Blacklist arbeiten SpamPal und SPAVI, das außer der jeweiligen E-Mail selbst auch die in der E-Mail verlinkten Seiten auf verdächtige Begriffe untersucht. Razor und Pyzor wiederum erzeugen zu jeder E-Mail einen Hash-Wert und überprüfen in zentralen Datenbanken, ob andere Personen, die diese E-Mail ebenfalls erhalten haben, sie als Spam klassifiziert haben oder nicht.

Bayes-Klassifikator-Methode

Alternativ kann der Spam mit einem selbstlernenden Bayes-Spamfilter auf Grund der bayesschen Wahrscheinlichkeit gefiltert werden. Der Benutzer muss etwa die ersten 1000 E-Mails manuell als Spam oder Nicht-Spam klassifizieren. Danach erkennt das System fast selbständig mit einer Trefferquote von meistens über 95 % die Spam-E-Mail. Vom System fehlerhaft einsortierte E-Mails muss der Anwender manuell nachsortieren. Dadurch wird die Trefferquote stetig erhöht. Diese Methode ist der Blacklist-Methode meistens deutlich überlegen.

Diesen Mechanismus machen sich Bogofilter und Mozilla Thunderbird sowie der vor allem im deutschen Sprachraum beliebte Spamihilator in den aktuellen Versionen zunutze. Dabei muss das Programm vom Benutzer trainiert werden, bevor es zuverlässig Spam erkennt.

Eine dem Bayes-Filter artverwandte Methode ist der Markow-Spamfilter. Er nutzt dazu eine Markow-Kette und ist effektiver als ein Bayes-Filter, wie William Yerazunis mit seinem Spamfilter CRM114 zeigen konnte.

Datenbank-basierte Lösungen

Im Usenet wurde schon in den 90er Jahren diskutiert, Spam aufgrund der in der Mail beworbenen URLs (und ggf. Telefonnummern) zu erkennen. Zwar können die Spammer die Nachrichten beliebig modifizieren und personalisieren, aber da es letztlich (bei UCE) immer darum geht, den Benutzer zu einer Kontaktaufnahme zu verleiten, und der mögliche Adressraum nicht unbegrenzt variabel ist, ermöglicht dieser Ansatz eine theoretisch sehr gute Erkennung. Besonders interessant ist dabei, dass keine Heuristiken verwendet werden, die immer das Risiko von Fehlerkennungen mit sich bringen. Aufgrund der technischen Anforderungen, Reaktionsgeschwindigkeiten usw. hielt man dieses jedoch lange für nicht praktikabel. Der Spamfilter SpamStopsHere basiert (als zentral gehostete Lösung) im Kern jedoch auf genau dieser Idee und zeigt, dass dieses durchaus auch in der Praxis funktionieren kann.

Probleme

Das Einsortieren von E-Mails ist immer mit einer gewissen Fehlerrate verbunden. Zum einen werden Spam-Mails nicht erkannt und gelangen so als „falsch negativ“ in den Posteingang. Werden erwünschte Mails als Spam eingestuft, spricht man von „falsch positiver“ Erkennung. Wird der Filter hinreichend lange trainiert, so lassen sich (etwa unter Einsatz einer weißen Liste) „positive“ Fehler fast vollständig ausschließen und „negative“ auf 10 % bis unter 1 % drücken. Allerdings ist das mit gewissem Aufwand verbunden. Außerdem müssen Filter ständig durch verbesserte Methoden an die neuen Methoden der Spammer angepasst werden.

Beispiel einer Verschleierungsmethode

Zusammenfassung

Kontext

Der folgende Spam wurde in Abständen weniger Tage an die gleiche Empfängerliste verschickt.^[1] Er kommt vom gleichen Absender, hat den gleichen Inhalt und macht die Technik des Spammers deutlich, durch kleine Varianzen Spamfilter zu täuschen und so direkt an die Adressaten zu gelangen.

Weitere Informationen erster Spam, zweiter Spam ...

	erster Spam	zweiter Spam
Betreff	behandeln, wie dringend von Christopher	GrьЯe von Christopher
Antwortadresse	jchrist1@____.org (Domain hier wurde unkenntlich gemacht)	jchrist@____.org
Anredezeile	gute ay.	Hallo Freund.
Erster Satz	ich bin mr.christopher Johnson Leiter Rechnungswesen udit Abteilung der Credit Suisse Bank london 38 Strang, Stadt westminister, London WC2N 5JB, hier in England.	Ich bin Mr.Christopher Johnson Leiter Rechnungswesen Revision der Credit Suisse Bank London 38 Strand, City of Westminster, LONDON WC2N 5JB, hier in England.
Textmitte	Dies ist sehr dringend bitte.	Dies ist sehr URGENT PLEASE.
Textmitte	1. vollstдndiger Name, 2. Ihr direkter Handy-Nummer, Ihre Adresse, 4. Tдtigkeit, 5. Alter, 6. Sex, 7. Staatsangehцrigkeit	1. Vollstдndiger Name, 2. Ihr direkter Mobile Number, 3. Ihr Kontakt Adresse, 4. Beruf, 5. Alter, 6. Sex, 7. Nationalitдt
Ende des Texts	Bitte auf Ihrer Bestдtigung dieser Nachricht und geben Sie Ihr Interesse werde ich Ihnen weitere Informationen liefern. bemьhen sich, lassen Sie mich Ihre Entscheidung, anstatt mich warten. danken Ihnen im Voraus fьr Ihre positive Antwort. GrьЯen, mr.christopher johnson	Bitte auf Ihrer Bestдtigung dieser Nachricht und geben Sie Ihr Interesse werde ich Ihnen weitere Informationen liefern. Endeavour, lassen Sie mich wissen, Ihre Entscheidung, anstatt mich warten. Ich danke Ihnen im Vorgriff auf Ihre positive Antwort. GrьЯe, Mr.Christopher Johnson

Schließen

Ansatz der Kontrolle

Methoden der Kontrolle

Blacklist-Methode

Bayes-Klassifikator-Methode

Datenbank-basierte Lösungen

Probleme

Beispiel einer Verschleierungsmethode

Siehe auch

Weblinks

Einzelnachweise

Wikiwand - on