SPAM: Massenmails & Tracking vs. Schutz & Individualisierung

From
Revision as of 12:56, 14 November 2018 by Natalie (talk | contribs) (→‎Fazit)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
Jump to navigation Jump to search

Motivation

Abb. 1: Globaler Anteil an Spam (Quelle Statista 2018)

Spam, unerwünschte Massenmails, betrug im März 2018 48,16 % des absoluten globalen E-Mailverkehrs. Fast die Hälfte des globalen E-Mailverkehrs ist somit unerwünscht. Jede zweite E-Mail, die versendet wird, verbraucht Internetressourcen und gefährdet die Internetsicherheit. Industrien sind dabei gleichermaßen betroffen. Das SMTP-Protokoll führt fast keine Sicherheitsaspekte, sodass sich im Laufe der Zeit verschiedene Möglichkeiten entwickelt haben, um die MTAs und den Empfänger vor Spam zu schützen. Spammers professionellisieren sich und umgehen die entwickelten Schutzmöglichkeiten. Bis heute wurde keine wirksame Schutzmaßnahme gegen Spam gefunden. Im Folgenden wird die Begriffsdefinition von Spam, die Historie von Spam und Anti-Spam, Möglichkeiten für den Schutz vor Spam und verfügbare Tools unter dem Gesichtspunkt betrachtet, inwieweit individualisierter Spam für Spammer interessant ist.

Einleitung

Begriffsdefinition und Einordnung des Begriffs Spam

Von dem Begriff Spam gibt es keine einschlägige Definition in der Literatur. Spam zeichnet aus, dass es unerwünschte Texte oder Bilder sind, die in Masse verbreitet werden über Informationssysteme wie E-Mails, das Web oder soziale Netzwerke (Geerthik 2013). Abbildung 1 zeigt eine Klassifizierung von dem Begriff Spam. Die Klassifizierung erfolgt nach den Informationssystemen, in welchen Spam verbreitet wird. Der folgende Text behandelt E-Mail-Spam und fasst den Begriff unter Spam zusammen. Die anderen Arten werden vernachlässigt. Für die genaue Definition sei auf Geerthik (Geerthik 2013) verwiesen.

Der Begriff Spam bedeutet, dass ein Sender über einen Übertragungsweg an mehrere Empfänger unerwünschte Massenmails versendet. Der Fachbegriff von Spam in Englisch heißt Unsolicited Bulk Email (UBE). Die Hauptmerkmale sind, dass Spam a) unerwünscht ist und b) Teil einer Massenmail ist. Unerwünscht bedeutet, dass der Sender nicht die nachweisbare explizite, wiederrufbare Erlaubnis vom Empfänger bekommen hat, ihm eine oder mehrere E-Mail zu senden. Massenmails sind alle Nachrichten, die zu einer größeren Menge an Nachrichten mit dem gleichen Inhalt gehören, die zusammen versendet werden. Eine E-Mail wird als Spam klassifiziert, wenn sie sowohl unerwünscht ist, als auch im Rahmen einer Massenmail versendet wurde (Internet Society of China 2018).

Abb. 2: Klassifikation Internet Spam (Quelle Geerthik 2013, modifiziert)

Die technische Definition von Spam nach dem Industriestandard grenzt den Begriff weiter ein. Nach der technischen Definition ist der Inhalt einer E-Mail nicht bestimmend, ob sie Spam oder Ham ist. Inhalte wie Malware oder werbende Inhalte zählen häufig zur Definition von Spam. Die technische Definition grenzt den Inhalt jedoch aus. Folglich definiert weder die Identität einer Person noch der Kontext, ob eine Nachricht Spam ist. Der Grund ist, dass eine Nachricht an viele Empfänger gerichtet ist, die mit der gleichen Chance Opfer werden können. Spam richtet sich nicht gezielt auf bestimmte Personen. Die Masse ist der Fokus von Spammern. Die Zustellungserlaubnis, die das Adjektiv „unerwünscht“ definiert, zählt auch zu der technischen Definition. Der Empfänger hat nicht nachweisbar die explizite, wiederrufbare Erlaubnis gegeben, die E-Mail zu versenden. Der Slogan It’s not about content, it’s about consent (Spamhaus 2018, Page Landing Page) fasst die Definition zusammen. Spam ist nicht über den Inhalt einer Nachricht definiert, sondern über seine Zustellungsmethode.

Der Versand von Spam ermöglicht es Spammern mit wenig Ressourcen schnell viel Geld zu machen. Die Erstellung des E-Mail-Textes und des Headers erfolgt manuell oder mit Hilfe von Ratware automatisiert und zufällig. Für den Ressourcenverbrauch für den Versand kommen Spammer nicht auf, sie greifen auf bestehende Open Relay Server, SOCKS/PROXY-Konfigurationen oder verteilte Systeme zurück. Eine häufige Verwendung sind Botnetze. Es genügt bereits eine geringe Reaktion auf Spam für gewinnbringende Einnahmen. Folgende Merkmale charackterisieren den Aufbau von Spam (Zhenfang 2015):

  • Feste Struktur: Titel, Anrede, Text und Anhang/ Link
  • Randomisierte Titel, Anrede und Text
  • Kleine und einfache Texte, welche einfach zu verstehen sind in einer kurzen Zeit
  • Ähnlicher oder gleicher Inhalt bei Massenmails, die Spam sind

Spam wirkt sich negativ auf den Emfpänger, Internetressourcen und die Internetsicherheit aus (India Law 2018). Der Empfänger erhält dubiose Angebote oder infizierte Anhänge, Malware, die Zeit zum Lesen, Bearbeiten und Löschen kostet als auch Schaden am Betriebssystem oder andersweitigen Folgen mit sich bringt. Zusätzlich kann Spam zum Ausfall oder zur Verlangsamung des erwünschten E-Mailverkehrs führen. Internetressourcen werden ohne Nutzen oder ohne wertschöpfenden Anteil verbraucht. Der Versand von Spam konsumiert Bandbreite, Speicherkapazitäten und Administratorenaufwand. Das globale Spamvolumen von dem totalen E-Mailverkehr weltweit betrug im März 2018 48,16 % (Statista 2018). Ferner ist die Internetsicherheit gefährdet. Sender von Spam nutzen illegal Dienste von nichtswissenden Nutzern für den Versand von Spam. Imageschäden von Personen oder Organisationen sind die Folge.

Aus diesen Gründen ist der Versand von Spam, definiert als UBE, weltweit von allen ISP verboten worden. Eine Liste von Spammern, deren Vergehen viel Aufmerksamkeit erregt hatten mit den darauffolgenden Strafen führt der Wikipedia-Aritkel „List of Spammers“ (Wikipedia 2018).

Zusammenfassung

Ein Hauptmerkmal von Spam ist es, dass es als Massenmail verschickt wird. Der technischen Definition nach ist der Inhalt der Spam-E-Mail nicht entscheidend für die Definition. Die Motivation von Spammern ist es viele Personen zu erreichen, um so die Wahrscheinlichkeit zu erhöhen, dass einer der Personen auf die Spam-E-Mail reagiert. Davon grenzen sich individualiserte E-Mails ab wie Phishing-E-Mails, die gezielt in der Konservation eine Person fokussieren und ausbeuten als auch kommerzielle E-Mails im Rahmen eines Newsletters mit Tracking-Feldern. Nach der Definition ist die Individualisierung von Spam nicht Teil von dem Thema Spam. Der Fokus liegt auf dem Erreichen der Masse mit der gleichen unerwünschten Massen-E-Mail.

Historie von Spam und Anti-Spam in Stichpunkten

Die Historie folgt den Schilderungen des Autors Geerthik (Geerthik 2013).

  • 1978: Gary Thuerk versendet Ketten-Mail mit Computerwerbung an 400 ARPANET-Nutzer.
  • Frühe 1990er: Spam beinhaltet Scherze, Kettenbriefe oder unangemessene Nachrichten an Mailing Listen, keine Malware. Sehr wenige bis gar keine versuchen ihren Inhalt zu verdecken.
  • 1994: Der Vorfall Canter and Siegel „Green card lawyers“, die Überflutung von Usenet-Gruppen mit Werbung, markiert den Beginn des kommerziellen Spammings. Als Gegenmaßnahme wird mit „Cancelbot“ 6000 Usenet-Gruppen bereinigt von dem Spam aus dem Vorfall Canter und Siegel.
    • Es wird begonnen E-Mailadressen für den Versand von kommerziellen Massenmails über den eigenen Mailserver zu sammeln. Als Gegenmaßnahme wird die Liste Mail Abuse Protection System Realtime Blackhole List (MAPS RBL) erstellt.
    • Open Relays, z. Bsp. Sendmail 5, werden als Intermediäre missbraucht zum Versand von Massenmails. Die Folge war, dass die Mailserver auf eine Blacklist gesetzt wurden und so auch legitime E-Mails nicht mehr über sie versendet wurden. Betreiber der Open Relays wurden angehalten ihre Mailserver zu sichern, ansonsten wurden sie auf die Blackliste gesetzt und vom Netzwerk genommen.
  • Bis 1998 sicherten ESP ihre Mailserver, sie waren nicht mehr die Hauptquelle von Spam.
  • Seit 1996 entwickelte sich Web Spam, Manipulation des Ranking mit Verlinkung, Cloaking, Click Fraud and Tag Spam, welche Problem für Suchmaschinenanbieter bildeten.
    • Zum Umgehen von Blacklisten nutzten Spammer ihre dynamic dial up internet protocol-Adressen für die Zuweisung einer neuen IP-Adresse. Gegenmaßnahmen waren automatische Beschwerden und das Blockieren aller bekannten dial-up IP-Adressen.
    • Spammer sendeten identische Nachrichten. Das Merkmal nutzten ESP aus. Nach Identifizierung einer Nachricht als Spam wurde der Nachrichtentext auf eine Liste gesetzt und so konnte der Text von E-Mails verglichen werden für die Filterung von Spam-E-Mails. Bei variabler Anpassung von Wörtern einer Nachricht durch Spammer entstanden so exponentielle viele Nachrichten auf der Sperrliste.
  • Bis 2002 wurden identische Nachrichten als Spam versendet. Nach 2002 wurden Textklassifizierungsalgorithmen eingesetzt. Der Versand von identischen Nachrichten war nicht mehr möglich.
  • Nach 2002 Ausnutzung von Open-Proxy-Software, die offen ist für alle User. Über Rechner von unwissenden Usern wurde so Spam versendet.
    • Sobig.a virus enthielt einen getarnten Proxy-Server für den Spamversand, es entstand ein Black Market für SOCKS/PROXIEs.
    • Statistische Filter und Anti-Spam-Verbünde machten sowohl Anti-Spam- als auch Spam-Software professioneller.
  • 2003: Die Ratware Dark Mailer, Send Safe und später Reactor Mailer waren für Spammer verfügbar.
  • 2009: Social Network Spam begann.
  • 2011: Image Spam begann.

Nach 2011 gliedert sich die Entwicklung von Spam und Anti-Spam in verschiedene Bereiche ähnlich der Klassifizierung in Abb. 2.

Hauptteil

Theoretische Grundlagen: Das SMTP-Protokoll

Das Simple Mail Transfer Protocol (SMTP) ist das Standardprotokoll zum Austausch von E-Mails in Computernetzen. Seine aktuelle Spezifikation ist im RFC 5321 hinterlegt.

Über das Protokoll SMTP auf Port 25 werden E-Mails vorrangig gesendet und weitergeleitet. Die Protokolle POP3 oder IMAP dienen zum Abholen der E-Mails von einen Empfänger. SMTP-Relay-Server, auch Mailserver genannt, sind für das Weiterleiten von E-Mails zuständig. Sie leiten in zwei Fällen weiter. Sie leiten E-Mails an beliebige Empfänger weiter, wenn sie für E-Mails von einem bestimmten Sender zuständig sind. Dazu zählen Mailserver von Sendern. Im zweiten Fall leiten Mailservers E-Mails von beliebigen Sendern an einen bestimmten Empfänger weiter, wenn der Betreiber des Mailservers für den E-Mailverkehr des Empfängers zuständig ist. Das Erfüllen der beiden Fälle decken Mailserver durch das Setzen von entsprechenden Firewallregeln ab. Mailserver, die von beliebigen Sendern an beliebige Empfänger E-Mails weiterleiten, so genannte Open Mail-Relays, sind ausnutzbar für Spamattacken.

Abb. 3: Sequenzdiagramm von dem Versand einer E-Mail, eigene Darstellung

Ein Mail Submission Agent (MSA) ist ein Server, der E-Mails von Mail User Agents (MUA) entgegennimmt und an einen Mail Delivery Agent (MDA) oder Mail Transfer Agent (MTA) auf Port 25 übergibt. Der Abgleich der Identität des Senders ist die Hauptaufgabe eines MSA. Ihr liegt die Spezifikation RFC 6409 zu Grunde. Der Abgleich des Senders ist wichtig, weil bei einem Anwuchs von zugestellten E-Mails von MUA, nur die weitergeleitet werden sollen, die von einem Benutzer kommen, für den ein MSA zuständig ist. Ein MSA unterscheidet zwischen eigenen und fremden Benutzern und nimmt E-Mails von Benutzern, für die er zuständig ist, auf Port 587 entgegen und traditionell auf Port 25. Bei einer Spamattacke oder E-Mailüberflutung wird der Port 25 gesperrt und der Port 587 weitergenutzt. So wird gewährleistet, dass der E-Mailverkehr weiterhin besteht.

Der MSA empfängt von und sendet an MUA E-Mails. MUA sind E-Mail-Clients mit welchen E-Mails empfangen, gelesen, geschrieben und versendet werden. MUA senden E-Mails per SMTP an einen SMTP-Relay-Server oder an einen lokalen Mail Transfer Agent (MTA). Will ein Benutzer E-Mails lesen, werden E-Mails dirket vom Mailserver über IMAP/IMAPS abgerufen oder vom Mailserver heruntergeladen über POP3/POP3S. MTA ist ein Dienst von einem Mailserver, der E-Mails entgegennimmt und sendet. Im Mehrbenutzersystem kann alternativ zum MTA auch ein Mail Delivery Agent (MDA) benutzt werden. Ein MUA sendet seine E-Mails über SMTP an seinen MTA. Der MTA sammelt E-Mails in einer Warteschlange. Für die Zustellung einer E-Mail geht der MTA die MX Resource Records des Adressaten durch, bei Nichtzustelllung sendet der MTA die E-Mail zurück mit der Information nicht zustellbar. Beispiele für MTAs sind Postfic, Exim, Sendmail, Postmaster, ymail oder Smail. MDA dahingegend werden in Mehrbenutzersystemen eingesetzt. Er ist für die Zustellung von E-Mails an die betreffenden Benutzerkonten zuständig. Weil jeder MUA nur auf ein Benutzerverzeichnis eines Benutzers zugreifen kann, wird in Mehrbenutzersystemen ein MDA mit der Zustellung beauftragt.

Das Protokoll SMTP selbst hat fast keine Sicherheitsaspekte. SMTP erfüllt die Aufgabe eine Nachricht von einem Sender zu einem Empfänger zu übertragen. Es gibt keine Sicherheit, verschlüsselt die Übertragung nicht und lässt zu, dass die Nachricht auf dem Weg verändert werden kann. SMTP stellt keine Funktion bereit den Sender zu authentifizieren. Weiter kann ein Empfänger nicht einsehen, wer die E-Mail gesendet hat und wer sie auf dem Weg gesehen hat. Dem Sender widerum werden keine Informationen bereitgestellt, warum ein Zustellungsversuch fehlgeschlagen ist. Zusammenfassend fehlt SMTP die Sicherheit auf dem Transportweg, es fehlen Funktionen den Sender und seine Quelle zu identifizieren und authentifizieren zu können und es findet kein Informationsaustausch zwischen Sender und Empfänger statt.

Möglichkeiten für den Schutz vor Spam

Wie in der Ausführung über das SMTP-Protokoll geschildert, führt SMTP fast keine Funktionen, die Sicherheit gewährleisten. Ohne zusätzliche Software sind Empfänger Sicherheitsrisiken wie Spam ausgesetzt. Im Folgenden werden Möglichkeiten aufgezeigt sich vor Spam zu schützen. Dabei werden die drei Perspektiven „Empfänger“, „Übertragung“ und „Sender“ eingenommen, die aus der Prozessbetrachtung des SMTP-Protokolls abgeleitet wurden. Gegliedert nach den drei Perspektiven wird zuerst die Funktionsweise der Möglichkeit aufgezeigt und anschließend auf seine Vor- und Nachteile eingegangen.

Möglichkeiten des Empfängers

Empfänger haben die Möglichkeiten Blacklisting, Whitelisting und inhaltsbasierte Filter anzuwenden.

Blacklisting

Blacklisting ist die Möglichkeit gezielt IP- oder E-Mail-Adressen abzulehnen. Dafür werden an zentraler Stelle Listen von IP-Adressen geführt, von welchen Spam versendet wurde. Vor der Annahme einer E-Mail, wird eine oder mehrere Blacklists überprüft. Steht die IP- oder E-Mail-Adresse des Senders auf der Blacklist, wird der Empfang abgelehnt. Die Überprüfung erfolgt häufig in Form einer DNS-Abfrage gegen eine aktuelle Liste von als Spammer identifizierten IP- oder E-Mail-Adressen. Jeder Empfänger kann eine persönliche Blacklist führen. Zentrale öffentliche Blacklists überprüft der zugehörige Mailserver des Empfängers vor Zustellung des E-Mailverkehrs zum Empfänger.

Beispiele solcher Listen sind

Der Vorteil von Blacklisting ist, dass zentrale öffentlich geführte Listen es Spammern erschwert, IP-Adressen erneut zu benutzen. Zum Beispiel versendet Spammer X über die IP-Adresse Y Spam. Der erste Empfänger bzw. Übertrager, der feststellt, dass es Spam ist, teilt einer Blacklist die IP-Adresse mit. Die IP-Adresse wird geblacklistet. Versendet Spammer X nun ein zweites Mal Spam über die IP-Adresse Y, lehnen Mailserver die E-Mails ab, weil die IP-Adresse auf einer Blacklist geführt wird. Der Spammer ist gezwungen eine neue IP-Adresse Z zu verwenden. In diesem Punkt liegt ein Nachteil von Blacklisting. Es schützt nicht vor Spammern, die die IP-Adressen stetig ändern oder ihre IP-Adresse verstecken. Ein weiterer Nachteil ist, dass auch legitime IP-Adressen auf eine Blackliste gesetzt werden können, was zu Schäden des Verwenders der legitimen IP-Adresse führt. Zu Beginn der Nutzung von Blacklists (1990 bis 2000) haben Betreiber von Blacklist das auch als Machtinstrument missbraucht. Ferner ist dem Autor bei der Recherche aufgefallen, dass eine zentrale Verwaltung fehlt, die Richtlinien und Domänen festlegt. So gibt es keine Richtlinien, welche Informationen bei Abruf einer geblacklisteten IP-Adresse angezeigt werden sollen. Z. Bsp. die Informationen, warum die IP-Adresse auf der Blacklist steht und welche User Agents verwendet wurden oder z. Bsp. eine zentrale geographisch strukturierte Verwaltung von Blacklists.

Whitelisting

Das Gegenteil von Blacklisting ist Whitelisting, IP- oder E-Mail-Adressen gezielt annehmen anstatt sie abzulehnen. Whitelisting folgt auch der gleichen Funktionsweise wie Blacklisting mit dem Unterschied, dass gelistete Adressen zugestellt und nicht abgelehnt werden. Auch bei Whitelisting gibt es die Möglichkeit persönliche Listen zu führen neben der Whiteliste des sendenden MTAs. Whitelists werden von einer Person oder für eine Organisation geführt. Whitelist werden häufig zuerst vor Blacklists, Greylists und inhaltsbasierten Filtern geprüft. Die alleinige Verwaltung des E-Mailsverkehrs mit Whitelisting ist jedoch erfolglos. Jeder Sender, der nicht auf der Whitelist geführt wird, erhält eine automatische Antwort geeignet zu reagieren. Bei einer geeigneten Antwort ist sichergestellt, dass die E-Mail von einem Menschen bearbeitet worden ist. Die E-Mail oder IP-Adresse wird auf die Whitelist gesetzt und die ursprüngliche E-Mail wird ausgeliefert. Der Aufwand für eine geeignete Reaktion lohnt für Spammer nicht.

Der Vorteil von Whitelisting ist der absolute Schutz vor Spam. E-Mails von nicht geführten E-Mail-Adressen oder IP-Adressen werden nicht zugestellt. Der absolute Schutz kostet jedoch viel Aufwand bei der Pflege der Whitelist und beim Filtern des E-Mailverkehrs nach Spam, er kostet Zeit und Unzuverlässigkeit, weil E-Mails gar nicht oder nur verzögert zugestellt werden. Wichtige E-Mails erreichen den Empfänger dabei nicht sofort. Als alleinige Methode für den Schutz vor Spam ist Whitelisting nicht empfehlenswert.

Inhaltsbasierte Filter

Formel 1: Annahmen und Satz von Bayes (Quelle Graham 2002)

Neben der E-Mail- und IP-Adresse hat der Empfänger die Möglichkeit basierend auf dem Inhalt seiner E-Mails eingehenden Verkehr zu überprüfen. Dazu werden mathematisch-statistische Verfahren verwendet. Der einfachste Filter basiert auf dem Satz von Bayes. Zuerst wird die zugrundeliegende Theorie von einem inhaltsbasierten Filter erklärt, der den Satz von Bayes verwendet. Anschließend ein Ausblick auf fortgeschrittene Klassifizierungsverfahren gegeben.

Inhaltsbasiertes Filtern nach dem Satz von Bayes basiert auf zwei Annahmen (Graham 2002).

  1. Die Wahrscheinlichkeiten, dass eine E-Mail Spam oder Ham ist, sind beide gleich 0,5.
  2. Die betrachteten Worte treten in Ham und Spam voneinander unabhängig auf.

Der Satz von Bayes gibt die Wahrscheinlichkeit an, unter der ein Ereignis A eintritt unter einer Bedingung B. Zum Beispiel wie hoch die Wahrscheinlichkeit ist, dass das Ereignis eintritt, das eine E-Mail Spam ist unter der Bedingung B. Zum Beispiel ist Bedingung B erfüllt, wenn in dem Text der E-Mail das Wort „Geld“ vorkommt. Je häufiger eine E-Mail Spam ist, in welcher das Wort „Geld“ vorkommt, desto wahrscheinlicher ist es, dass die nächste E-Mail mit dem Wort „Geld“ auch Spam ist.

Nun enthält eine E-Mail mehr als ein Wort. Inhaltsbasiertes Filtern nach dem Satz von Bayes berücksichtigt die bedingten Wahrscheinlichkeiten für die Klassifizierung der E-Mail in Spam oder Ham nach allen auftretenden Wörtern im E-Mail-Text. Ab dem Erreichen eines gewissen Schwellwerts wie 0,9 wird die E-Mail als Spam klassifiziert (Graham 2002). Vor Anwendung eines mathematisch-statischen Modells wie der Satz von Bayes für die Klassifzierung von E-Mails nach Spam oder Ham wird der Text gereinigt. Aus dem Text werden Token, bereinigte und gekürzte Wörter, abgeleitet. Zur Reinigung der Daten zählt das Entfernen von Syntax wie Kommas, Punkten und Ausrufezeichen, das Entfernen von Füllwörtern wie und, Artikel und Pronomen und das Kürzen von Wörtern zu Ihrem Wortstamm mithilfe von Lemmatization oder Stemming. Die Tokens werden schließlich in einer aussagefähigen Matrix zusammengefasst und an Klassifizierungsalgorithmen weitergegeben.

Seit 2004 sind Bayesian Filter Standard für inhaltsbasierte Filtern geworden. Sie erreichen eine Genauigkeit von 99,9 %. Die Forschung probiert die Genauigkeit der Quote von 99,9 % weiter zu heben (Yerazunis 2004). Weitere Klassifizierungsalgorithmen, die eingesetzt werden, sind zum Beispiel Vowpal Wabbit (Vowpal Rabbit 2017). Zuerst entwickelt von Yahoo! Mail und anschließend von Microsoft Research übernommen, erreicht in Kombination mit Regeln eine Genauigkeit von 99,89 % (kein Durchschnittswert, Einzelwert über eine Testmenge). Regeln wie „Wenn das Datum in der Zukunft liegt, ist die E-Mail Spam“ oder „Wenn das Senderfeld leer oder ausgeblendet ist, ist die E-Mail Spam“ ergänzen einen Klassifizierungsalgorithmus und erhöhen seine Genauigkeit (MLWave 2014). Eine weitere Möglichkeit mit einer höheren Genauigkeit als Vowpal Rabbit bildet das Ensemble Learning. Beim Ensemble Learning wird der Durchschnitt von mehreren Klassifizierungsalgorithmen gebildet. Zum Beispiel kann ein Ensemble die Algorithmen Random Forest, ExtraTreesClassifier und Gradient Boosting enthalten (MLWave 2014).

ESP bieten cloudbasierte Spam-Filter mit inhaltsbasierten Filtern an. Dazu greifen sie auf alle eingehenden E-Mails von allen Nutzern für das Lernen des Algorithmus zurück. Clientbasierte inhaltsbasierte Filter greifen nur auf ihre eigenen E-Mails zurück. Somit liegt der Unterschied zwischen clientbasierten und providerbasierten Tools in der zur Verfügung stehenden Datenmenge zum Trainieren des Bayes-Filters. Aufgrund der kleinen Trainingsmenge ist es fraglich, ob sich clientbasierte Tools lohnen (Zhenfang 2015).

Vorteile von inhaltsbasierten Filtern sind das Erkennen von Spam mit einer Genauigkeit von 99,9 %. Der Nachteil von inhaltsbasierten Filtern ist, dass legitime E-Mails als Spam klassifiziert werden. Die Nicht-Zustellung dieser falsch-positiven E-Mails verursacht größeren Schaden als die Zustellung von Spam. Ein weiterer Nachteil ist, dass der Algorithmus erst trainiert werden muss, bevor er erfolgreich angewendet wird. Mit einem Minimum von 200 E-Mails muss ein Algorithmus traniert werden. Die Lernfähigkeit wiederum nutzen Spammer aus. Sie passen ihre E-Mails dahingegend an, dass sie dem gelernten Ham des Algorithmus entsprechen.

Möglichkeiten während der Übertragung

Blacklisting, Whitelisting und inhaltsbasierte Filter konfiguriert der Empfänger für seinen persönlichen Gebrauch. Während der Übertragung finden diese Methoden auch bereits Anwendung. Bei der Übertragung finden zusätzlich noch Greylisting, DKIM, SPF und DMARC Anwendung. Wie in der Historie geschildert, sind Betreiber von Mailservern dazu verpflichtet, ihre Mailserver zu schützen und sie nicht als Open-Relay zu konfigurieren.

Greylisting

Greylisting soll die Vorteile von Whitelisting und Blacklisting vereinen. E-Mails von E-Mail-Adressen oder IP-Adressen, die nicht auf einer Whitelist geführt werden, werden angenommen und gleichzeitig werden Spam-E-Mails abgelehnt, indem der Empfang von E-Mails verzögert wird. Für Greylisting kommt die Eigenschaft von SMTP zum Einsatz, dass eine SMTP Verbindung durch den Empfänger abgebrochen werden kann. Eine E-Mail mit einem unbekannter IP-Adresse oder E-Mail-Adresse wird im ersten Schritt abgelehnt. Der MTA legt ein temporäres Feld mit IP-Adresse und Empfänger an und vermerkt den Zustellungsversuch. Im zweiten Schritt wird bei erneutem Eingang einer E-Mail von der gleichen IP-Adresse und dem gleichen Empfänger überprüft, ob eine sinnvolle Mindestzeit vergangen ist. Ist das der Fall, wird die E-Mail angenommen. Ist keine sinnvolle Mindestzeit verstrichen, wird die E-Mail abgelehnt. Eine sinnvolle Mindestzeit geht von einigen Minuten über 30 Minuten bis hin zu einer Stunde.

Vorteile von Greylisting sind, dass Spam nicht zugestellt wird, wenn der MTA des Spammers keine Übertragungswiederholung macht und dass Spammer mehr Ressourcen verwenden muss, um den Spam an den Empfänger zu senden. Sendet ein Spammer den Spam erneut, ist die IP-Adresse des Spam versendenden MTAS mit hoher Wahrscheinlichkeit bereits auf einer Blacklist. Demgegenüber steht die verzögerte Zustellung von legitimen E-Mails. Sie müssen auch erneut zugestellt werden. Die Übertragungswiederholung findet nur statt, wenn der Mailserver des legitimen Senders auch richtig konfiguriert ist. Ein falsch konfigurierter Mailserver führt die Übertragungswiederholung nicht durch. Wie legitime Sender können auch Spammer ihre MTAs richtig konfigurieren. Sie richten die Konfiguration ihrer MTAs nach den Anforderungen von Greylisting aus.

Die Protokolle Domain Keys Identified Mail und Sender Policy Framework

Sollten nicht alle Probleme behoben sein, wenn bei Empfang einer E-Mail der Absender authentifiziert wird? SMTP lässt zu, dass der Sender den Header einer E-Mail frei modifizieren kann und somit seine Absenderadresse fälschen kann. Die Protokolle DomainKeys Identified Mail (DKIM) und Sender Policy Framework (SPW) wurden entwickelt, umd den Sender zu authentifizieren.

DKIM, spezifiziert im RFC 4871, signiert E-Mails. Der Sender-MTA signiert ausgehende E-Mails. Der Empfänger-MTA überprüft die Signatur. Er rfut einen speziellen DNS-Record mit dem passenden öffentlichen Schlüssel ab. Eine positive Überprüfung der Authentizität des Senders führt zu der Annahme der E-Mail, ein negatives Ergebnis zu seiner Ablehnung oder Weiterbehandlung mit z. Bsp. Greylisting.

SPF, spezifiert im RFC 4408, verfolgt einen DNS-basierten Ansatz für die Überprüfung des Absenders. Domains werden auf IP-Adressen von MTAs abgebildet und in einem TXT-Eintrag hinterlegt. Alle hinterlegten MTAs dürfen für die angegebene Domain E-Mails verschicken. Vor Annahme einer E-Mail überprüft der Empfänger-MTA den DNS-Eintrag. Fällt die Überprfüng positiv aus, nimmt der Empfänger-MTA die E-Mail an, fällt sie negativ aus, lehnt er sie ab.

DKIM wird häufig von Mailservern eingesetzt, SPF ist weit verbreitet. Die praktische Anwendung hat einige Fehlerquellen aufgeworfen (dmarc.org 2018). Dazu zählt, dass komplexe E-Mailumgebungen mit verschiedenen Systemen von Sendern mit den gegebenen Protokollen DKIM und SPF nur schwer angemessen authentifiziert werden. So versenden Domainbesitzer ein Mix aus authentifzierten und nicht authentifzierten E-Mails. Empfänger nehmen authentifzierte E-Mails an und lehnen nicht authentifizierte E-Mails ab. Werden nicht authentifizierte E-Mails als Spam gekennzeichnet, lernen inhaltsbasierte Filter solche E-Mails als Spam zu klassifizieren. Das hat zur Folge, dass Falsch Positive als Spam klassifiziert werden. Der Sender erhält im gleichen Zug keine Informationen darüber, wie viele seiner E-Mails zugestellt wurden, wie viele nicht und aus welchen Gründen die E-Mail nicht zugestellt wurde. Problembehandlungen sind so nur schwer möglich.

Abb. 4: DMARC und der E-Mail-Authentifizierungsprozess (dmarc.org 2018)

Auf grund dieser Fehlerquellen wurde Domain-based Message Authetication & Conformance (DMARC) entwickelt. Das Protokoll ist im RFC 7489 spezifziert und ist eine Erweiterung von DKIM und SPF. DMARC gibt die Möglichkeit, dass Sender und Empfänger Informationen austauschen. DMARC umfasst Funktionen für die Authentifzierung des Absenders, das Festlegen von Richtlinien und das Erstellen von Auswertungen. 2007 begann PayPal in Zusammenarbeit mit Yahoo! Mail und später auch in Zusammenarbeit mit Gmail die Entwicklung. Im ersten Schritt überprüft auch das DMARC-Protokoll die Authentitzität des Senders. Fällt die Überprüfung positiv aus, wird die E-Mail weitergeleitet. Fällt die Überprüfung negativ aus kommt die E-Mail in Quarantäne und der Sender erhält eine Auswertungsbericht über die fehlerhafte Zustellung. Der Empfänger greift dabei auf die Richtlinien des Senders zurück. Die Richtlinien des Senders sind TXT DNS-Records, die aufführen, was ein Empfänger mit einer E-Mail machen soll, wenn sie nicht als vertrauenswürdig eingestuft wird. Ein Bsp. eines TXT DNS-Records zeigt der folgende Eintrag:

v=DMARC1;p=reject;pct=100;rua=mailto:postmaster@dmarcdomain.com

DMARC setzt bei den Fehlerquellen von DKIM und SPF an. Diese Nachteile wandelt es in Vorteile um. Es stellt die Funktion zur Verfügung, dass ein Bericht vom Empfänger an den Sender geschickt wird, der enthält, warum eine E-Mail nicht angenommen wurde. Als zweites hat es die Funktion, dass der Empfänger angibt, wie E-Mails behandelt werden sollen, die nicht angenommen werden. Durch den Informationsaustausch wird der Sender in die Lage versetzt, seine E-Mails erneut fehlerfrei zu senden. Für einen Überblick für den Sender über seine versendeten E-Mails gilt die Voraussetzung, dass alle Empfänger DMARC implementiert haben. DMARC ist jedoch nur in geringem Umfang verbreitet. Nachteilig ist der Aufwand für die Implementierung durch einen Fachmann und die anschließende Administration. Der größte Nachteil ist, dass Spammer DMARC umgehen können, indem sie zum Beispiel Hijacking oder legitime Domänen verwenden.

Ausblick in die Forschung

Vollständigkeitshalber werden hier die Verbindungsanalyse und der Proof-of-Work-Ansatz Hash Cash kurz erläutert. Ersteres ist eine Forschungsrichtung und findet noch keine praktische Anwendung, letzteres wurde bereits implementiert und erwies sich als nicht praktikabel.

Die Verbindungsanalyse verfolgt den Ansatz, dass sich Spam bereits von Ham auf der Transportschicht unterscheidet (Beverly und Sollins 2008). Zum Beispiel ist eine Spam-E-Mail Teil einer Massenmail, die von Botnetzen versendet wurden, deren Mitglieder über DSL angschlossen sind. Ham dahingegen wird einzelnd oder in Form von individualisierten Massenmails versendet. Die Zahl der E-Mails in Massenmails hält sich in Grenzen und die sendenden MTAS sind häufig breitbandig ans Internet angeschlossen. Weitere Unterschiede gibt es in der Latenzzeit, Verlustrate, dem Verhalten bei Übertragungswiederholungen etc.

Hash-Cash verfolgt den Ansatz, den Rechenaufwand auf Seitens des Senders zu erhöhen (hashcash.org 2018). Dazu wird der Header um eine weitere Zeile erweitert. Der Sender füllt dieses Feld mit der Berechnung einer partiellen Kollision mit dem 0-String. Der Empfänger überprüft die partielle Kollision. Ergibt die Überprüfung, dass es keine Kollision gibt, wird die E-Mail als Spam klassifiziert. Hashcash fordert vom Sender einen erhöhten Aufwand, das Finden einer partiellen Kollision mit dem 0-String und gewährleistet gleichzeitig eine schnelle ressourcenarme Überprüfung auf Empfängerseite, ob die E-Mail Spam ist oder nicht.

Möglichkeiten für den Sender

Legitime Sender sind für die Zustellung der E-Mails an die Empfänger zuständig. Mit niedriger Wahrscheinlichkeit werden ihre E-Mails als Spam klassifziert. Sie haben die Möglichkeiten sich davor zu schützen, indem sie die Richtlinien der ESP einhalten, Tools für die Bewertung und Verbesserung der Zustellung von E-Mails, sogenannte Postmastertools, verwenden und die Protokolle DKIM, SPF und DMARC anwenden.

Zusammenfassung

Schutz vor Spam bieten die Möglichkeiten der Klassifizierung einer E-Mail als Spam oder Ham anhand von IP- bzw. E-Mailadressen, Latenzzeiten bei Übertragungswiederholungen, Authentifizierungen des Senders, Einahlten von Richtlinien für den Versand von E-Mails und anhand von inhaltsbasierten Filtern. Der Fokus liegt mehrheitlich auf der Zustellungsmethode und der Identifizierung des Senders. Inhaltsbasiertes Filtern stellt eine Ausnahme dar. Die Individualisierung liegt hierbei jedoch beim Empfänger und nicht beim Spammer. Ihm ist überlassen, welche E-Mails er/sie emfpangen möchte und welche nicht.

Recherche von Tools

Die Möglichkeiten für den Schutz vor Spam werden hauptsächlich während der Übertragung von Sender-MTAs und Empfänger-MTAs betrieben. Der Empfänger hat die Möglichkeit in sehr begrenztem Rahmen die vorsortierten E-Mails in seinem Posteingang individuell mit Blacklisting, Whitelisting und inhaltsbasierten Filtern zu personalisieren. E-Mails im Posteingang sind vorsortiert, weil ESP die E-Mails analysieren und in den Spam-/Junk-Ordner weiterleiten oder in den Posteingang. E-Mails, die als Spam erkannt wird, jedoch nicht auf einer offiziellen Blackliste gelistet ist, wird dem Empfänger zugestellt. Es besteht mit geringer Wahrscheinlichkeit die Möglichkeit, dass die E-Mail falsch als Spam erkannt wurde und eine legitime E-Mail ist.

Gmail.com, yahoo.com und hotmail.com sind die drei beliebtesten E-Mail-Domains nach Anzahl der benutzten E-Mail-Benutzerkonten (Email-Verify.My-Addr.com 2016). Im Folgenden werden Gmail.com und hotmail.com weiter betrachtet. Tabelle 1 listet Funktionen der Domänen auf nach Angaben der Dokumentationen der jeweiligen Domänen. Die Hauptfunktionen DKIM, SPF, DMARC, Blacklisting, Whitelisting und inhaltsbasierte Filter bieten beide Domänen an. Gmail.com bietet Greylisting an, Hotmail.com trifft keine genaue Aussage dazu. Greylisting gilt dabei als umstritten im Einsatz. Gmail bietet noch zusätzliche Funktionen aus dem Bereich der E-Mail-Kampagnen und dem Newsletter-Versand an.

Vergleich Domänen
Domain Gmail.com Outlook.com
Dokumentation Ja Ja
Authentifizierung des Senders DKIM, SPF, DMARC DKIM, SPF, rDNS, DMARC
Postmaster Tool Ja Ja
Blacklisting Ja Ja
Whitelisting Ja Ja
Greylisting ? Ja
Tags Unsubscribe und Subscribe ?
Format RFC 5322, HTML Standard ?
Inhaltsbasierte Filter Ja Ja
Linkvalidierung Ja ?

Tab. 1: Gegenüberstellung der Anti-Spam-Funktionen der Domänen Gmail.com und Outlook.com

Wikipedia stellt eine Gegenüberstellung von Anti-Spam Funktionen von Mailservern zur Verfügung. Das dritte Kapitel unter Wikipedia: Comparison of Mail servers 2018 stellt tabellarisch 35 Mailserver wie Sendmail, IBM Lotus Domino und Apache James gegenüber. Der Artikel vergleicht die Funktionen DNSBL, SURBL, Spamtraps, Greylisting, SPF, DKIM, DMARC, Tarpit, inhaltsbasierte Filter auf Basis von Bayes, Regulare Ausdrücke, eingebette Antivirussoftware und eingebettete Antispamsoftware. Die meisten Mailserver unterstützen DNSBL, SURBL, Greylisting, SPF und Reguläre Ausdrücke. Inhaltsbasierte Filter auf Basis von Bayes wird häufig optional mit Spamassassin als Funktion angeboten. Für eingebette Antivirus- und Antispamsoftware wird auch auf optionale Drittprodukte zurückgegriffen. Der prominenteste Vertreter ist Spamassassin.

Tools für Spammer

Für die Entwicklung von Möglichkeiten für den Schutz vor Spam ist es wichtig zu verstehen, was Spammer verwenden. Wie gelangen E-Mails von Spammers zum Empfänger trotz der Schutzmaßnahmen, die gegliedert nach Empfänger, Übertragung und Sender oben aufgeführt wurden?

Spammer verwenden häufig Botnetze für den Versand von Massenmails. Sie überprüfen Black- und Whitelisten vor der Verwendung von E-Mail- und IP-Adressen. E-Mail-Inhalt und Header testen sie mit einem Dictionary, genauso wie sie Rechtschreib- und Syntaxfehler überprüfen. Für das Umgehen von inhaltsbasierten Filtern verwenden sie zu 100% Stop-Words. Für die Erstellung und Überprüfung der genannten Punkte gibt es verschiedene Software, sogenannte Ratware, die Spammer verwenden (Stern 2011). Der Autor Stern vergleicht die drei Ratwares Dark Mailer, Send Safe und Reactor Mailer. Die folgende Tabelle zeigt eine Gegenüberstellung der Funktionen der drei Tools.

Vergleich Ratware
Funktion DM SS RM
Windows user interface Ja Ja Nein
Web user interface Nein Nein Ja
Per-task Konfiguration Nein Ja Ja
MX record cache Nein Nein Ja
Interoperate with third-party applications Nein Nein Ja
Attachment support Nein Ja Ja
Image generation Nein Ja Ja
Direct mailing Ja Ja Nein
Open relays Ja Ja Nein
SOCKS/HTTP Proxies Ja Ja Nein
Proxy locking Nein Ja Nein
Cluster-based mailing Nein Ja Nein
Distributed, malware-based mailing Nein Nein Ja

Tab. 2: Hauptfunktionen von Dark Mailer (DM), Send Safe (SS) und Reactor Mailer (RM) (Quelle Stern 2011)

Dark Mailer ist nach Angaben von Stern beliebt und seit 2003 verfügbar für den freien Download auf einen Windows PC. Der Benutzer gibt einen Text und mehrere Header manuell ein. Die Ratware versendet eine Massenmail entweder dirket über einen Open-Relay-Server oder über einen Proxy via HTTP. Für die Erstellung der Massenmail wird der Text mit einem zufällig gewählten Header zu einer E-Mail zusammengefasst. Dark Mailer greift dabei auf die manuell eingegebenen Header zurück. Es finden bei der Erstellung der Massenmail keine Überprüfung von Syntaxfehlern, Rechtschreibfehlern oder anderen Fehlern statt.

Send Safe wird von Ian Ibragimov verkauft an einzelne Benutzer und Firmen. Es ist auf den Betriebssystemen Windows, Linux und FreeBSD lauffähig. Die kommerzielle Ratware ist umfangreicher als Dark Mailer und stellt die Verwaltung und Erstellung von Kampagnen und Massenmails zur Verfügung. Gegen eine nicht mehr aktuelle Version von Spamassassine wurde Send Safe getestet.

Reactor Mailer, auch Trojan.Srizbi genannt, war 2006 für 60% des weltweiten Versands von Spam verantwortlich. Der Benutzer greift über ein Web-User Interface auf die Ratware zu. Text, Header und Anhänge werden automatisch zufällig erzeugt. Aus dem Text der Spamnachricht werden automatisch auch Bilder erzeugt, um inhaltsbasierte Filter zu umgehen. Sie ist die schnellste Ratware bei der Zustellung, weil sie über verteilte Systeme Spam versendet. Der Versand über Open-Relay-Server, SOCKS/HTTP Proxies oder über Cluster wird nicht unterstützt.

Zusammenfassung

Mailserver implementieren nur in bestimmten Umfang Möglichkeiten für den Schutz vor Spam. Die häufigsten Implementierungen sind DNSBL, SURBL, Greylisting, SPF und Reguläre Ausdrücke. Weitere Antispam-Funktionen bieten Mailserver über Drittprodukte, in der Regel Spamassassin, an. Die aufgeführten Möglichkeiten für den Schutz vor Spam implementieren die beliebtesten ESP Gmail.com und Hotmail.com. Diskussionen rufen der Einsatz von Greylisting hervor, weswegen Hotmail.com den Einsatz nicht eindeutig offziell angibt. Auf Seiten des Spammers liegt der Fokus und die Entwicklung auf die schnelle Zustellung z.Bsp. über verteilte Systeme und die Verschleierung der Spam-E-Mail durch Zufälligkeitsgeneratoren und Image-Erstellung des Textes.

Fazit

Zusammengefasst gibt es viele verschiedene Ansätze, die Spam reduzieren. Spam ist dabei als unerwünschte Massenmail definiert und zeichnet sich insbesondere durch seine Zustellungsmethode und nicht durch seinen Inhalt aus. Individualsierungen von Spam steht werder im Fokus von Spammern noch im Fokus von Empfängern. Trotz der entwickelten Möglichkeiten gibt es keine Möglichkeit, die eine wahr oder falsch-Aussage treffen kann, ob eine eingehende E-Mail Spam oder Ham ist. Das Problem ist grundsätzlich nicht gelöst. Im Rahmen des Wettbewerbs zwischen Spam und Anti-Spam werden weitere Funktionen für Spammer erschlossen werden und Schutzmaßnahmen gegen diese Spamfunktionen entwickelt werden.

Quellen

Alle angegebenen Internetseiten hat der Autor zuletzt am 05.11.2018 aufgerufen, wenn nichts anderes angegeben ist.

Quellen Domainrecherche

Abbildungen