SPAM: Massenmails & Tracking vs. Schutz & Individualisierung
Motivation
Spam, unerwünschte Massenmails, betrug im März 2018 48,16 % des absoluten globalen E-Mailverkehrs. Fast die Hälfte des globalen E-Mailverkehrs ist somit unerwünscht. Jede zweite E-Mail, die versendet wird, verbraucht Internetressourcen und gefährdet die Internetsicherheit. Industrien sind dabei gleichermaßen betroffen. Das SMTP-Protokoll führt fast keine Sicherheitsaspekte, sodass sich im Laufe der Zeit verschiedene Möglichkeiten entwickelt haben, um die MTAs und den Empfänger vor Spam zu schützen. Spammers professionellisieren sich und umgehen die entwickelten Schutzmöglichkeiten. Bis heute wurde keine wirksame Schutzmaßnahme gegen Spam gefunden. Im Folgenden wird die Begriffsdefinition von Spam, die Historie von Spam und Anti-Spam, Möglichkeiten für den Schutz vor Spam und verfügbare Tools unter dem Gesichtspunkt betrachtet, inwieweit individualisierter Spam für Spammer interessant ist.
Einleitung
Begriffsdefinition und Einordnung des Begriffs "Spam"
Von dem Begriff Spam gibt es keine einschlägige Definition in der Literatur. Spam zeichnet aus, dass es unerwünschte Texte oder Bilder sind, die in Masse verbreitet werden über Informationssysteme wie E-Mails, das Web oder soziale Netzwerke (Geerthik 2013). Abbildung 1 zeigt eine Klassifizierung von dem Begriff Spam. Die Klassifizierung erfolgt nach den Informationssystemen, in welchen Spam verbreitet wird. Der Begriff E-Mail-Spam bedeutet, dass ein Sender über einen Übertragungsweg an mehrere Empfänger unerwünschte Massenmails, in Englisch „Unsolicited Bulk Email“ (UBE) verschickt. Unerwünscht heißt, dass keiner der Empfänger eine belegbare Erlaubnis an den Sender gegeben hat, einem von ihnen E-Mails zustellen zu dürfen (Spamhaus 2018). Massenmails sind alle Nachrichten, die zu einer größeren Menge an Nachrichten mit dem gleichen Inhalt gehören. Eine E-Mail wird als Spam klassifiziert, wenn sie sowohl unerwünscht ist als auch zu einer Massenmail zählt (Internet Society of China 2018). Die Definitionen der anderen Spamarten zeigt Geerthik (Geerthik 2013) auf. Die folgenden Kapitel handeln von E-Mail-Spam, verkürzt Spam.
Die technische Definition von Spam nach dem Industriestandard grenzt den Begriff weiter ein. Nach der technischen Definition ist der Inhalt einer E-Mail nicht bestimmend. Inhalte unter anderem Malware wie Trojaner oder Viren als auch werbende Inhalte zählen häufig zur Definition von Spam.
Die Identität der Person und der Kontext sind irrelevant, weil die Nachricht an viele Empfänger gereichtet ist, die mit der gleichen Chance Opfer werden können. Die Zustellungserlaubnis, die das Adjektiv „unerwünscht“ definiert, zählt auch zu der technischen Definition. Der Empfänger hat nicht nachweisbar die explizite, wiederrufbare Erlaubnis gegeben, die E-Mail zu versenden.
Der Slogan It’s not about content, it’s about consent
(Spamhaus 2018, Page x) fasst die Definition zusammen. Spam ist nicht über den Inhalt einer Nachricht definiert, sondern über seine Zustellungsmethode.
Die Zustellungsmethode von Spam zeichnet sich durch folgende Merkmale aus
- Der Sender ist nicht sofort erkenntlich.
- Der Sender ist dem Empfänger nicht bekannt.
- Die E-Mail enthält falsche Informationen wie einen falschen Sender oder fehlende Routinginformationen vom Sender.
Der Inhalt der E-Mail zeigt auch charakteristische Merkmale (Zhenfang 2015).
- Feste Struktur: Titel, Anrede, Text und Anhang/ Link
- Randomisierte Titel, Anrede und Text
- Kleine und einfache Texte, welche einfach zu verstehen sind in einer kurzen Zeit
- Ähnlicher oder gleicher Inhalt bei Massenmails, die Spam sind
Der Versand von Spam ermöglicht es Spammern mit wenig Ressourcen schnell viel Geld zu machen. Die Erstellung des E-Mail-Textes und der Header erfolgt manuell oder mit Hilfe von Ratware automatisiert und zufällig. Für den Ressourcenverbrauch für den Versand kommen Spammer nicht auf, sie greifen auf bestehende Netzwerke oder Botnetze zurück. Es genügt bereits eine geringe Rücklaufquote auf die Spam-E-Mail für gewinnbringende Einnahmen.
Spam wirkt sich negativ auf den Emfpänger, Internetressourcen und die Internetsicherheit aus (India Law 2018). Der Empfänger erhält dubiose Angebote oder infizierte Anhänge, Malware, die Zeit zum Lesen, Bearbeiten und Löschen kostet als auch Schaden am Betriebssystem oder andersweitigen Schaden anrichten kann. Zusätzlich kann Spam zum Ausfall oder zur Verlangsamung des erwünschten E-Mailverkehrs führen. Internetressourcen werden ohne Nutzen oder ohne wertschöpfenden Anteil verbraucht. Der Versand von Spam konsumiert Bandbreite, Speicherkapazitäten und Administratorenaufwand. Das globale Spamvolumen von dem totalen E-Mailverkehr weltweit betrug im März 2018 48,16 % (Statista 2018). Ferner ist die Internetsicherheit gefährdet. Sender von Spam nutzen illegal Dienste von nichtswissenden Nutzern für den Versand von Spam. Imageschäden von Personen oder Organisationen sind die Folge
Aus diesen Gründen ist der Versand von Spam definiert als UBE weltweit von allen ISP verboten worden. Eine Liste von Spammern, deren Aktionen viel Aufmerksamkeit erregt hatten, als auch ihre Vergehen und Strafen führt der Wikipedia-Aritkel „List of Spammers“ (Wikipedia 2018).
Ein Hauptmerkmal von Spam ist es, dass es als Massenmail verschickt wird. Der technischen Definition nach ist der Inhalt der Spam-E-Mail nicht entscheidend für die Definition. Die Motivation von Spammern ist es viele Personen zu erreichen, umso die Wahrscheinlichkeit zu erhöhen, dass einer der Personen auf die Spam-E-Mail reagiert. Davon grenzen sich individualiserte E-Mails ab wie Phishing-E-Mails, die gezielt in der Konservation eine Person fokussieren als auch kommerzielle E-Mails im Rahmen eines Newsletters mit Tracking-Feldern. Nach der Definition ist die Individualisierung von Spam nicht Teil von dem Thema Spam. Der Fokus liegt auf dem Erreichen der Masse mit der gleichen unerwünschten E-Mail.
Historie von Spam und Anti-Spam
- 1978: Gary Thuerk Ketten-Mail mit Computerwerbung an 400 ARPANET-Nutzer
- Frühen 1990er: Spam waren Scherze, Kettenbriefe oder unangemessene Nachrichten an Mailing Listen (Cranor und LaMacchia 1998), keine Malware und sehr wenige bis gar keine haben ihren Inhalt versucht zu verdecken
- 1994 Vorfall Canter and Siegel „Green card lawyers“ (Campbell 1994), Beginn des kommerziellen Spammings, Spamremoval mit „Cancelbot“ 6000 Usenet-Gruppe
- Sammeln von E-Mailadressen für den Versand von kommerziellen Massenmails über den eigenen Mailserver, Verteidigung Mail Abuse Protection System Realtime Blackhole List (MAPS RBL) (MAPS 2004)
- Mailserver ohne ACLs, auch Open Relays genannt, z. Bsp. Sendmail 5, werden als Intermediäre missbraucht zum Versand von Massenmails (MAPS 2005), die Folge war, dass die Mailserver auf die Blackliste gesetzt wurden und auch legitime E-Mails nicht mehr empfangen wurden; Betreiber der Open Relays wurden angehalten ihre Mailserver zu sichern, ansonsten wurden sie auf die Blackliste gesetzt und vom Netzwerk genommen
- Bis 1998 waren Open Relays gesichert, sie waren nicht mehr die Hauptquelle von Spam-E-Mails
- Seit 1996 entwickelte sich Web Spam, Manipulation des Ranking mit Verlinkung, Cloaking, Click Fraud and Tag Spam [32], Problem für Suchmaschinenanbieter [1] [2]
- Spammers nutzten ihre dynamic dial up internet protocol-Adressen für die Zuweisung einer neuen IP-Adresse bei blockieren einer alten; Gegenmaßnahmen waren automatische Beschwerden (Haight 1998) und das Blockieren aller bekannten dial-up IP-Adressen (Fecyk 1998)
- Spammer sendeten identische Nachrichten, nach Identifizierung einer Nachricht als Spam wurde sie auf eine Liste gesetzt und so konnte der Text von E-Mails verglichen werden für die Filterung von Spam-E-Mails (Prakash 1999)
- Bei variabler Anpassung von Wörtern einer Nachricht entstanden so exponentielle viele Nachrichten auf der Sperrliste (Hall 1999)
- Bis 2002 identische Nachrichten als Spam, bis zum Beginn der Nutzung von statistischen Textklassifizierungsalgorithmen (Graham 2002)
- Nach 2002 Ausnutzung von open proxy-Software, dass offen ist für alle User, über den Rechner des unwissenden Users wurden Spam-E-Mails verschickt
- Sobig.a virus enthielt einen getarnten Proxy-Server für den Spamversand, es entstand ein Black Market für peas, Listen of SOCKS proxies (Stewart 2003)
- Statistische Filter und Anti-Spam-Verbünde machten Spam-Software professioneller, so genannten „Ratware“
- 2003: Dark Mailer, Send Safe; Später Reactor Mailer
- 2009: Social Network Spam
- 2011: Image Spam
Nach 2011 gliedert sich die Entwicklung von Spam und Anti-Spam in verschiedene Bereiche ähnlich der Klassifizierung in Abb. 2.
Hauptteil
Theoretische Grundlagen: Das SMTP-Protokoll
Das Simple Mail Transfer Protocol (SMTP) ist das Standardprotokoll zum Austausch von E-Mails in Computernetzen. Seine aktuelle Spezifikation ist im RFC 5321 hinterlegt.
Über das Protokoll SMTP auf Port 25 werden E-Mails vorrangig gesendet und weitergeleitet von einem Sender. Die Protokolle POP3 oder IMAP dienen zum Abholen der E-Mails für einen Empfänger. SMTP-Relay-Server, auch Mailserver genannt, sind für das Weiterleiten von E-Mails zuständig. Sie leiten in zwei Fällen weiter. Sie leiten E-Mails an beliebige Empfänger weiter, wenn sie für E-Mails von einem authentifzierbaren Sender zuständig sind. Dazu zählen Mailserver von Providern des Senders. Im zweiten Fall leiten Mailservers E-Mails von beliebigen Sender an einen bestimmten Empfänger weiter, wenn der Betreiber des Mailservers für den E-Mailverkehr des Empfängers zuständig ist. Das Erfüllen der beiden Fälle decken Mailserver durch das Setzen von entsprechenden Firewallregeln ab. Mailserver, die von beliebigen Sendern an beliebige Empfänger E-Mails weiterleiten, so genannte Open Mail-Relays) sind ausnutzbar für Spamattacken. Zum Beispiel in der Situation, dass ein Spammer über ein Botnetz von beliebigen Sendern an beliebig viele Empfänger die Spam-E-Mails verschickt.
Über einen Mail Submission Agent (MSA) nimmt ein Benutzer ausschließlich E-Mails von authentifizierten Benutzern an. Ein MSA ist ein Server, der E-Mails von Mail User Agents (MUA) entgegennimmt und einem Mail Delivery Agent oder Mail Transfer Agent (Port 25) übergibt. Die Authentifizierung des Senders ist die Hauptaufgabe eines MSA. Ihr liegt die Spezifikation RFC 6409 zu Grunde. Die Authentifizierung des Senders ist wichtig, weil bei einem Anwuchs von zugestellten E-Mails von MUA, nur die weitergeleitet werden sollen, die von einem authentifizierten Benutzer kommen. Tritt das Gegenteil ein, tritt ein, dass alle E-Mails ohne Benutzerauthentifizierung weitergeleitet werden, nutzen Spammer den MSA aus und es kommt zu einer Überflutung und Ausnutzung von Ressourcen. Dazu unterscheidet der MSA zwischen eigenen und fremden Benutzern und nimmt E-Mails von authentifizierten Benutzers auf Port 587 entgegen, traditionell auf Port 25. Bei einer Spamattacke wird der Port 587 für E-Mails von authentifizierten Benutzern weitergenutzt, sofern die richtigen Firewallregeln beide Ports sichern.
Der MSA empfängt von und sendet an MUA E-Mails. MUA sind E-Mail-Clients mit welchen E-Mails empfangen, gelesen, geschrieben und versendet werden. MUA senden E-Mails per SMTP an einen SMTP-Relay-Server oder an einen lokalen Mail Transfer Agent (MTA). Will ein Benutzer E-Mails lesen, werden E-Mails dirket vom Mailserver über IMAP/IMAPS abgerufen oder vom Mailserver heruntergeladen über POP3/POP3S. MTA ist ein Dienst von einem Mailserver, der E-Mails entgegennimmt und sendet. Im Mehrbenutzersystem kann alternativ zum MTA auch ein Mail Delivery Agent (MDA) benutzt werden. Ein MUA sendet seine E-Mails über SMTP an seinen MTA. Der MTA sammelt E-Mails in einer Warteschlange. Für die Zustellung einer E-Mail geht der MTA die MX Resource Records des Adressaten durch, bei Nichtzustelllung sendet der MTA die E-Mail zurück mit der Information „nicht zustellbar“. Beispiele für MTAs sind Postfic, Exim, Sendmail, Postmaster, ymail oder Smail. MDA dahingegend werden in Mehrbenutzersystemen eingesetzt. Er ist für die Zustellung von E-Mails an die betreffenden Benutzerkonten zuständig. Weil jeder MUA nur auf ein Benutzerverzeichnis eines Benutzers zugreifen kann, wird in Mehrbenutzersystemen ein MDA mit der Zustellung beauftragt.
Das Protokoll SMTP selbst hat fast keine Sicherheitsaspekte. SMTP erfüllt die Aufgabe eine Nachricht von einem Sender zu einem Empfänger zu übertragen. Es gibt keine Sicherheit, verschlüsselt die Übertragung nicht und lässt zu, dass die Nachricht auf dem Weg verändert werden kann. SMTP stellt keine Funktion bereit den Sender zu authentifizieren. Weiter kann ein Empfänger nicht einsehen, wer die E-Mail gesendet hat und wer sie auf dem Weg gesehen hat. Zusammenfassend fehlt SMTP die Sicherheit auf dem Transportweg und es fehlt Funktionen den Sender und seine Quelle zu identifizieren und authentifizieren zu können.
Möglichkeiten für den Schutz vor Spam
Wie in der Ausführung über das SMTP-Protokoll geschildert, führt SMTP fast keine Funktionen, die Sicherheit gewährleisten. Ohne zusätzliche Software sind Empfänger Sicherheitsrisiken wie Spam ausgesetzt. Im Folgenden werden Möglichkeiten aufgezeigt sich vor Spam zu schützen. Dabei werden die drei Perspektiven „Empfänger“, „Übertragung“ und „Sender“ eingenommen, die aus der Prozessbetrachtung des SMTP-Protokolls abgeleitet wurden. Gegliedert nach den drei Perspektiven wird zuerst die Funktionsweise der Möglichkeit aufgezeigt und anschließend auf seine Vor- und Nachteile eingegangen.
Möglichkeiten des Empfängers
Tools stellen dem Empfänger die Möglichkeiten zur Verfügung, Blacklists und Whitelists zu führen als auch inhaltsbasierte Filtern anzuwenden.
Blacklisting
Blacklisting ist die Möglichkeit gezielt IP- oder E-Mail-Adressen abzulehnen. Dafür werden an zentraler Stelle Listen von IP-Adressen geführt, von welchen Spam versendet wurde. Vor der Annahme einer E-Mail, wird eine oder mehrere Blacklists überprüft. Steht die IP- oder E-Mail-Adresse des Senders auf der Blacklist, wird der Empfang abgelehnt. Die Überprüfung erfolgt häufig in Form einer DNS-Abfrage gegen eine aktuelle Liste von als Spammer identifizierten IP- oder E-Mail-Adressen. Jeder Empfänger kann eine persönliche Blacklist führen. Zentrale öffentliche Blacklists überprüft der zugehörige Mailserver des Empfängers vor Zustellung des E-Mailverkehrs zum Empfänger.
Beispiele solcher Listen sind
Der Vorteil von Blacklisting ist, dass zentrale öffentlich geführte Listen es Spammern erschwert, IP-Adressen erneut zu benutzen. Zum Beispiel versendet Spammer X über die IP-Adresse Y Spam. Der erste Empfänger bzw. Übertrager, der feststellt, dass es Spam ist, teilt einer Blacklist die IP-Adresse mit. Die IP-Adresse wird geblacklistet. Versendet Spammer X nun ein zweites Mal Spam über die IP-Adresse Y, lehnen Mailserver die E-Mails ab, weil die IP-Adresse auf einer Blacklist geführt wird. Der Spammer ist gezwungen eine neue IP-Adresse Z zu verwenden. In diesem Punkt liegt ein Nachteil von Blacklisting. Es schützt nicht vor Spammern, die die IP-Adressen stetig ändern oder ihre IP-Adresse verstecken. Ein weiterer Nachteil ist, dass auch legitime IP-Adressen auf eine Blackliste gesetzt werden können, was zu Schäden des Verwenders führt. Zu Beginn der Nutzung von Blacklists (1990 bis 2000) haben Betreiber von Blacklist das auch als Machtinstrument missbraucht. Ferner ist dem Autor bei der Recherche aufgefallen, dass eine zentrale Verwaltung fehlt, die Richtlinien und Domänen festlegt. So gibt es keine Richtlinien, welche Informationen wie Grund oder User Agent bei Abruf einer geblacklisteten IP-Adresse angezeigt werden sollen und es gibt keine Domänen für Großräume.
Whitelisting
Das Gegenteil von Blacklisting ist Whitelisting, IP- oder E-Mail-Adressen gezielt annehmen anstatt sie abzulehnen. Whitelisting folgt auch der gleichen Funktionsweise wie Blacklisting mit dem Unterschied, dass gelistete Adressen zugestellt und nicht abgelehnt werden. Auch bei Whitelisting gibt es die Möglichkeit persönliche Listen zu führen neben der Whiteliste des sendenden MTAs. Whitelists werden von einer Person oder für eine Organisation geführt. Whitelist werden häufig zuerst vor Blacklists, Greylists und inhaltsbasierten Filtern geprüft. Die alleinige Verwaltung des E-Mailsverkehrs mit Whitelisting ist jedoch erfolglos. Jeder Sender, der nicht auf der Whitelist geführt wird, erhält eine automatische Antwort geeignet zu reagieren. Bei einer geeigneten Antwort ist sichergestellt, dass die E-Mail von einem Menschen bearbeitet worden ist. Die E-Mail oder IP-Adresse wird auf die Whitelist gesetzt und die ursprüngliche E-Mail wird ausgeliefert. Der Aufwand für eine geeignete Reaktion lohnt für Spammer nicht.
Der Vorteil von Whitelisting ist der absolute Schutz vor Spam. E-Mails von nicht geführten E-Mail-Adressen oder IP-Adressen werden nicht zugestellt. Der absolute Schutz kostet jedoch viel Aufwand bei der Pflege der Whitelist und beim Filtern des E-Mailverkehrs nach Spam, er kostet Zeit und Unzuverlässigkeit, weil E-Mails gar nicht oder nur verzögert zugestellt werden. Wichtige E-Mails erreichen den Empfänger dabei nicht sofort. Als alleinige Methode für den Schutz vor Spam ist Whitelisting nicht empfehlenswert.
Inhaltsbasierte Filter
Neben der E-Mail- und IP-Adresse hat der Empfänger die Möglichkeit basierend auf dem Inhalt seiner E-Mails eingehenden Verkehr zu überprüfen. Dazu werden mathematisch-statistische Verfahren verwendet. Der einfachste Filter basiert auf dem Satz von Bayes. Zuerst wird die zugrundeliegende Theorie von einem inhaltsbasierten Filter erklärt, der den Satz von Bayes verwendet. Anschließend ein Ausblick auf fortgeschrittene Klassifizierungsverfahren gegeben.
Inhaltsbasiertes Filtern nach dem Satz von Bayes basiert auf zwei Annahmen (Graham 2002).
- Die Wahrscheinlichkeiten, dass eine E-Mail Spam oder Ham ist, sind beide gleich 0,5.
- Die betrachteten Worte treten in Ham und Spam voneinander unabhängig auf.
Der Satz von Bayes gibt die Wahrscheinlichkeit an, unter der ein Ereignis A eintritt unter einer Bedingung B. Zum Beispiel wie hoch die Wahrscheinlichkeit ist, dass das Ereignis eintritt, das eine E-Mail Spam ist unter der Bedingung B. Zum Beispiel ist Bedingung B erfüllt, wenn in dem Text der E-Mail das Wort „Geld“ vorkommt. Je häufiger eine E-Mail Spam ist, in welcher das Wort „Geld“ vorkommt, desto wahrscheinlicher ist es, dass die nächste E-Mail mit dem Wort „Geld“ auch Spam ist.
Nun enthält eine E-Mail mehr als ein Wort. Inhaltsbasiertes Filtern nach dem Satz von Bayes berücksichtigt die bedingten Wahrscheinlichkeiten für die Klassifizierung der E-Mail in Spam oder Ham nach allen auftretenden Wörtern im E-Mail-Text. Ab dem Erreichen eines gewissen Schwellwerts wie 0,9 wird die E-Mail als Spam klassifiziert (Graham 2002). Vor Anwendung eines mathematisch-statischen Modells wie der Satz von Bayes für die Klassifzierung von E-Mails nach Spam oder Ham wird der Text gereinigt. Aus dem Text werden Token, bereinigte und gekürzte Wörter, abgeleitet. Zur Reinigung der Daten zählt das Entfernen von Syntax wie Kommas, Punkten und Ausrufezeichen, das Entfernen von Füllwörtern wie und, Artikel und Pronomen und das Kürzen von Wörtern zu Ihrem Wortstamm mithilfe von Lemmatization oder Stemming. Die Tokens werden schließlich in einer aussagefähigen Matrix zusammengefasst und an Klassifizierungsalgorithmen weitergegeben.
2004 sind Bayesian Filter Standard für inhaltsbasierte Filtern geworden. Sie erreichen eine Genauigkeit von 99,9 %. Die Forschung probiert die Genauigkeit der Quote von 99,9 % weiter zu heben (Yerazunis 2004). Weitere Klassifizierungsalgorithmen, die eingesetzt werden, sind zum Beispiel Vowpal Wabbit (Vowpal Rabbit 2017). Zuerst entwickelt von Yahoo! Mail und anschließend von Microsoft Research übernommen, erreicht in Kombination mit Regeln eine Genauigkeit von 99,89 % (kein Durchschnittswert, Einzelwert über eine Testmenge). Regeln wie „Wenn das Datum in der Zukunft liegt, ist die E-Mail Spam“ oder „Wenn das Senderfeld leer oder ausgeblendet ist, ist die E-Mail Spam“ ergänzen einen Klassifizierungsalgorithmus und erhöhen seine Genauigkeit (MLWave 2014). Eine weitere Möglichkeit mit einer höheren Genauigkeit als Vowpal Rabbit bildet das Ensemble Learning. Beim Ensemble Learning wird der Durchschnitt von mehreren Klassifizierungsalgorithmen gebildet. Zum Beispiel kann ein Ensemble die Algorithmen Random Forest, ExtraTreesClassifier und Gradient Boosting enthalten (MLWave 2014).
ESP bieten cloudbasierte Spam-Filter mit inhaltsbasierten Filtern an. Dazu greifen sie auf alle eingehenden E-Mails von allen Nutzern für das Lernen des Algorithmus zurück. Clientbasierte inhaltsbasierte Filter greifen nur auf ihre eigenen E-Mails zurück. Somit liegt der Unterschied zwischen clientbasierten und providerbasierten Tools in der zur Verfügung stehenden Datenmenge zum Trainieren des Bayes-Filters. Aufgrund der kleinen Trainingsmenge ist es fraglich, ob sich clientbasierte Tools lohnen (Zhenfang 2015).
Vorteile von inhaltsbasierten Filtern sind das Erkennen von Spam mit einer Genauigkeit von 99,9 %. Der Nachteil von inhaltsbasierten Filtern ist, dass legitime E-Mails als Spam klassifiziert werden. Die Nicht-Zustellung dieser falsch-positiven E-Mails verursacht größeren Schaden als die Zustellung von Spam. Ein weiterer Nachteil ist, dass der Algorithmus erst trainiert werden muss, bevor er erfolgreich angewendet wird. Mit einem Minimum von 200 E-Mails muss ein Algorithmus traniert werden. Die Lernfähigkeit wiederum nutzen Spammer aus. Sie passen ihre E-Mails dahingegend an, dass sie dem gelernten Ham des Algorithmus entsprechen.
Möglichkeiten während der Übertragung
Blacklisting, Whitelisting und inhaltsbasierte Filter konfiguriert der Empfänger für seinen persönlichen Gebrauch. Während der Übertragung finden diese Methoden auch bereits Anwendung. Bei der Übertragung finden zusätzlich noch Greylisting, DKIM, SPF und DMARC Anwendung. Wie in der Historie geschildert, sind Betreiber von Mailservern dazu verpflichtet, ihre Mailserver zu schützen und sie nicht als Open-Relay zu konfigurieren.
Greylisting
Greylisting soll die Vorteile von Whitelisting und Blacklisting vereinen. E-Mails von E-Mail-Adressen oder IP-Adressen, die nicht auf einer Whitelist geführt werden, werden angenommen und gleichzeitig werden Spam-E-Mails abgelehnt, indem der Empfang von E-Mails verzögert wird. Für Greylisting kommt die Eigenschaft von SMTP zum Einsatz, dass eine SMTP Verbindung durch den Empfänger abgebrochen werden kann. Eine E-Mail mit einem unbekannter IP-Adresse oder E-Mail-Adresse wird im ersten Schritt abgelehnt. Der MTA legt ein temporäres Feld mit IP-Adresse und Empfänger an und vermerkt den Zustellungsversuch. Im zweiten Schritt wird bei erneutem Eingang der E-Mail von der gleichen IP-Adressen und den gleichen Empfänger überprüft, ob eine sinnvolle Mindestzeit vergangen ist. Ist das der Fall, wird die E-Mail angenommen. Ist keine sinnvolle Mindestzeit verstrichen, wird die E-Mail abgelehnt. Eine sinnvolle Mindestzeit geht von einigen Minuten über 30 Minuten bis hin zu einer Stunde.
Vorteile von Greylisting sind, dass Spam nicht zugestellt wird, wenn der MTA des Spammers keine Übertragungswiederholung macht und dass Spammer mehr Ressourcen verwenden muss, um den Spam an den Empfänger zu senden. Sendet ein Spammer die E-Mail-Spam erneut, ist die IP-Adresse des Spam versendenden MTAS mit hoher Wahrscheinlichkeit bereits auf einer Blacklist. Demgegenüber steht die verzögerte Zustellung von legitimen E-Mails. Sie müssen auch erneut zugestellt werden. Die Übertragungswiederholung findet nur statt, wenn der Mailserver des legitimen Senders auch richtig konfiguriert ist. Ein falsch konfigurierter Mailserver führt die Übertragungswiederholung nicht durch. Wie legitime Sender können auch Spammer ihre MTAs richtig konfigurieren. Sie richten die Konfiguration ihrer MTAs nach den Anforderungen von Greylisting aus.
Die Protokolle DomainKeys Identified Mail und Sender Policy Framework
Sollten nicht alle Probleme behoben sein, wenn bei Empfang einer E-Mail der Absender authentifiziert wird? SMTP lässt zu, dass der Sender den Header einer E-Mail frei modifizieren kann und somit seine Absenderadresse fälschen kann. Die Protokolle DomainKeys Identified Mail (DKIM) und Sender Policy Framework (SPW) wurden entwickelt, umd den Sender zu authentifizieren.
DKIM, spezifiziert im RFC 4871, signiert E-Mails. Der Sender-MTA signiert ausgehende E-Mails mit einer Public-Key-Signatur. Der Empfänger-MTA überprüft die Signatur. Er rfut einen speziellen DNS-Record mit dem passenden öffentlichen Schlüssel ab. Eine positive Überprüfung der Authentizität des Senders führt zu der Annahme der E-Mail, ein negatives Ergebnis zu seiner Ablehnung oder Weiterbehandlung mit z. Bsp. Greylisting.
SPF, spezifiert im RFC 4408, verfolgt einen DNS-basierten Ansatz für die Überprüfung des Absenders. Domains werden auf IP-Adressen von MTAs abgebildet und in einem TXT-Eintrag hinterlegt. Alle hinterlegten MTAs dürfen für die angegebene Domain E-Mails verschicken. Vor Annahme einer E-Mail überprüft der Empfänger-MTA den DNS-Eintrag. Fällt die Überprfüng positiv aus, nimmt der Empfänger-MTA die E-Mail an, fällt sie negativ aus, lehnt er sie ab.
DKIM wird häufig von Mailservern eingesetzt, SPF ist weit verbreitet. Die praktische Anwendung hat einige Fehlerquellen aufgeworfen (dmarc.org 2018). Dazu zählt, dass komplexe E-Mailumgebungen mit verschiedenen Systemen von Sendern mit den gegebenen Protokollen DKIM und SPF nur schwer angemessen authentifiziert werden. So versenden Domainbesitzer ein Mix aus authentifzierten und nicht authentifzierten E-Mails. Empfänger nehmen authentifzierte E-Mails an und lehnen nicht authentifizierte E-Mails ab. Werden nicht authentifizierte E-Mails als Spam gekennzeichnet, lernen inhaltsbasierte Filter solche E-Mails als Spam zu klassifizieren. Das hat zur Folge, dass Falsch Positive als Spam klassifiziert werden. Der Sender erhält im gleichen Zug keine Informationen darüber, wie viele seiner E-Mails zugestellt wurden, wie viele nicht und aus welchen Gründen die E-Mail nicht zugestellt wurde. Problembehandlungen sind so nur schwer möglich.
Auf grund dieser Fehlerquellen wurde Domain-based Message Authetication & Conformance (DMARC) entwickelt. Das Protokoll ist im RFC 7489 spezifziert und ist eine Erweiterung von DKIM und SPF. DMARC gibt die Möglichkeit, dass Sender und Empfänger Informationen austauschen. DMARC umfasst Funktionen für die Authentifzierung des Absenders, das Festlegen von Richtlinien und das Erstellen von Auswertungen. 2007 begann PayPal in Zusammenarbeit mit Yahoo! Mail und später auch in Zusammenarbeit mit Gmail die Entwicklung. Im ersten Schritt überprüft auch das DMARC-Protokoll die Authentitzität des Senders. Fällt die Überprüfung positiv aus, wird die E-Mail weitergeleitet. Fällt die Überprüfung negativ aus kommt die E-Mail in Quarantäne und der Sender erhält eine Auswertungsbericht über die fehlerhafte Zustellung. Der Empfänger greift dabei auf die Richtlinien des Senders zurück. Die Richtlinien des Senders sind TXT DNS-Records, die aufführen, was ein Empfänger mit einer E-Mail machen soll, wenn sie nicht als vertrauenswürdig eingestuft wird. Ein Bsp. eines TXT DNS-Records zeigt der folgende Eintrag:
v=DMARC1;p=reject;pct=100;rua=mailto:postmaster@dmarcdomain.com
DMARC setzt bei den Fehlerquellen von DKIM und SPF an. Diese Nachteile wandelt es in Vorteile um. Es stellt die Funktion zur Verfügung, dass Ein Bericht vom Empfänger an den Sender geschickt wird, der enthält, warum eine E-Mail nicht angenommen wurde. Als zweites hat es die Funktion, dass der Empfänger angibt, wie E-Mails behandelt werden sollen, die nicht angenommen werden. Durch den Informationsaustausch wird der Sender in die Lage versetzt, seine E-Mails erneut fehlerfrei zu senden. Für einen Überblick für den Sender über seine versendeten E-Mails gilt die Voraussetzung, dass alle Empfänger DMARC implementiert haben. DMARC ist jedoch nur in geringem Umfang verbreitet. Nachteilig ist der Aufwand für die Implementierung eines Experten und die anschließende Administration. Der größte Nachteil ist, dass Spammer DMARC umgehen können, indem sie zum Beispiel Hijacking oder legitime Domänen verwenden.
Ausblick in die Forschung
Vollständigkeitshalber werden hier die Verbindungsanalyse und der Proof-of-Work-Ansatz Hash Cash kurz erläutert. Ersteres ist eine Forschungsrichtung und findet noch keine praktische Anwendung, letzteres wurde bereits implementiert und erwies sich als nicht praktikabel.
Die Verbindungsanalyse verfolgt den Ansatz, dass sich Spam bereits von Ham auf der Transportschicht unterscheidet (Beverly und Sollins 2008). Zum Beispiel ist eine Spam-E-Mail Teil einer Massenmail, die von Botnetzen versendet wurden, deren Mitglieder über DSL angschlossen sind. Ham dahingegen wird einzelnd oder in Form von individualisierten Massenmails versendet. Die Zahl der E-Mails in Massenmails hält sich in Grenzen und die sendenden MTAS sind häufig breitbandig ans Internet angeschlossen. Weitere Unterschiede gibt es in der Latenzzeit, Verlustrate, dem Verhalten bei Übertragungswiederholungen etc.
Hash-Cash verfolgt den Ansatz, den Rechenaufwand auf Seitens des Senders zu erhöhen (hashcash.org 2018). Dazu wird der Header um eine weitere Zeile erweitert. Der Sender füllt dieses Feld mit der Berechnung einer partiellen Kollision mit dem 0-String. Der Empfänger überprüft die partielle Kollision. Ergibt die Überprüfung, dass es keine Kollision gibt, wird die E-Mail als Spam klassifiziert. Hashcash fordert vom Sender einen erhöhten Aufwand, das Finden einer partiellen Kollision mit dem 0-String und gewährleistet gleichzeitig eine schnelle ressourcenarme Überprüfung auf Empfängerseite, ob die E-Mail Spam ist oder nicht.
Möglichkeiten für den Sender
Legitime Sender sind für die Zustellung der E-Mails an die Empfänger zuständig. Mit niedriger Wahrscheinlichkeit werden ihre E-Mails als Spam klassifziert. Sie haben die Möglichkeiten sich davor zu schützen, indem sie die Richtlinien der ESP einhalten, Tools für die Bewertung und Verbesserung der Zustellung von E-Mails, sogenannte Postmastertools, verwenden und die Protokolle DKIM, SPF und DMARC anwenden.
Zusammenfassung
Die Möglichkeiten für den Schutz vor Spam leiten die Klassifizierung aus der IP- bzw. E-Mailadresse, der Latenzzeit bei Übertragungswiederholungen, der Authentifizierung des Senders, der Einahlten von Richtlinien für den Versand von E-Mails und inhaltsbasierten Filtern ab. Der Fokus liegt mehrheitlich auf der Zustellungsmethode und der Identifizierung des Senders. Inhaltsbasiertes Filtern stellt eine Ausnahme dar. Die Individualisierung liegt hierbei jedoch beim Empfänger. Ihm ist überlassen, welche E-Mails er/sie emfpangen möchte und welche nicht.
Recherche von Tools
Die Möglichkeiten für den Schutz vor Spam werden hauptsächlich während der Übertragung von Sender-MTAs und Empfänger-MTAs betrieben. Der Empfänger hat die Möglichkeit in sehr begrenztem Rahmen die vorsortierten E-Mails in seinem Posteingang individuell mit Blacklisting, Whitelisting und inhaltsbasierten Filtern zu personalisieren. E-Mails im Posteingang sind vorsortiert, weil ESP die E-Mails analysieren und in den Spam-/Junk-Ordner weiterleiten oder in den Posteingang. E-Mails, die als Spam erkannt wird, jedoch nicht auf einer offiziellen Blackliste gelistet ist, wird dem Empfänger zugestellt. Es besteht mit geringer Wahrscheinlichkeit die Möglichkeit, dass die E-Mail falsch als Spam erkannt wurde und eine legitime E-Mail ist.
Gmail.com, yahoo.com und hotmail.com sind die drei beliebtesten E-Mail-Domains nach Anzahl der benutzten E-Mail-Benutzerkonten (Email-Verify.My-Addr.com 2016). Im Folgenden werden Gmail.com und hotmail.com weiter betrachtet. Tabelle 1 listet Funktionen der Domänen auf nach Angaben der Dokumentationen der jeweiligen Domänen. Die Hauptfunktionen DKIM, SPF, DMARC, Blacklisting, Whitelisting und inhaltsbasierte Filter bieten beide Domänen an. Gmail.com bietet Greylisting an, Hotmail.com trifft keine genaue Aussage. Für die verzögerte oder Nicht-Zustellung einer legitimen E-Mail haftet der ESP. Greylisting gilt dabei als umstritten im Einsatz. Gmail bietet noch zusätzliche Funktionen aus dem Bereich der E-Mail-Kampagnen und dem Newsletter-Versand an.
Vergleich Domänen | |||||
---|---|---|---|---|---|
Domain | Gmail.com | Outlook.com | |||
Dokumentation | Ja | Ja | |||
Authentifizierung des Senders | DKIM, SPF, DMARC | DKIM, SPF, rDNS, DMARC | |||
Postmaster Tool | Ja | Ja | |||
Blacklisting | Ja | Ja | |||
Whitelisting | Ja | Ja | |||
Greylisting | ? | Ja | |||
Tags | Unsubscribe und Subscribe | ? | |||
Format | RFC 5322, HTML Standard | ? | |||
Inhaltsbasierte Filter | Ja | Ja | |||
Linkvalidierung | Ja | ? |
Tab. 1: Gegenüberstellung der Anti-Spam-Funktionen der Domänen Gmail.com und Outlook.com
Wikipedia stellt eine Gegenüberstellung von Anti-Spam Funktionen von Mailservern zur Verfügung. Das dritte Kapitel unter Wikipedia: Comparison of Mail servers 2018 stellt tabellarisch 35 Mailserver wie Sendmail, IBM Lotus Domino und Apache James gegenüber. Der Artikel vergleicht die Funktionen DNSBL, SURBL, Spamtraps, Greylisting, SPF, DKIM, DMARC, Tarpit, inhaltsbasierte Filter auf Basis von Bayes, Regulare Ausdrücke, eingebette Antivirussoftware und eingebettete Antispamsoftware. Die meisten Mailserver unterstützen DNSBL, SURBL, Greylisting, SPF und Reguläre Ausdrücke. Inhaltsbasierte Filter auf Basis von Bayes wird häufig optional mit Spamassassin als Funktion angeboten. Für eingebette Antivirus- und Antispamsoftware wird auch auf optionale Drittprodukte zurückgegriffen. Der prominenteste Vertreter ist Spamassassin.
Tools für Spammer Für die Entwicklung von Möglichkeiten für den Schutz vor Spam ist es wichtig zu verstehen, was Spammer verwenden. Wie gelangen E-Mails von Spammers zum Empfänger trotz der Schutzmaßnahmen, die gegliedert nach Empfänger, Übertragung und Sender oben aufgeführt wurden?
Spammer verwenden häufig Botnetze für den Versand von Massenmails. Sie überprüfen Black- und Whitelisten vor der Verwendung von E-Mail- und IP-Adressen. E-Mail-Inhalt und Header testen sie mit einem Dictionary, genauso wie sie Rechtschreib- und Syntaxfehler überprüfen. Für das Umgehen von inhaltsbasierten Filtern verwenden sie zu 100% Stop-Words. Für die Erstellung und Überprüfung der genannten Punkte gibt es verschiedene Software, sogenannte Ratware, die Spammer verwenden (Stern 2011). Der Autor Stern vergleicht die drei Ratwares Dark Mailer, Send Safe und Reactor Mailer. Die folgende Tabelle zeigt eine Gegenüberstellung der Funktionen der drei Tools.
Vergleich Ratware | |||||
---|---|---|---|---|---|
Funktion | DM | SS | RM | ||
Windows user interface | Ja | Ja | Nein | ||
Web user interface | Nein | Nein | Ja | ||
Per-task Konfiguration | Nein | Ja | Ja | ||
MX record cache | Nein | Nein | Ja | ||
Interoperate with third-party applications | Nein | Nein | Ja | ||
Attachment support | Nein | Ja | Ja | ||
Image generation | Nein | Ja | Ja | ||
Direct mailing | Ja | Ja | Nein | ||
Open relays | Ja | Ja | Nein | ||
SOCKS/HTTP Proxies | Ja | Ja | Nein | ||
Proxy locking | Nein | Ja | Nein | ||
Cluster-based mailing | Nein | Ja | Nein | ||
Distributed, malware-based mailing | Nein | Nein | Ja |
Tab. 2: Hauptfunktionen von Dark Mailer (DM), Send Safe (SS) und Reactor Mailer (RM) (Quelle Stern 2011)
Dark Mailer ist nach seinen Angaben beliebt und seit 2003 verfügbar für den freien Download auf einen Windows PC. Der Benutzer gibt einen Text und mehrere Header bei Hand ein. Die Ratware versendet eine Massenmail entweder dirket über einen Open-Relay oder über einen Proxy via http. Für die Erstellung der Massenmail wird der Text mit einem zufällig gewählten Header zu einer E-Mail zusammengefasst. Dark Mailer greift dabei auf die manuell eingegebenen Header zurück. Es finden bei der Erstellung der Massenmail keine Überprüfung von Syntaxfehlern, Rechtschreibfehlern oder anderen Fehlern statt.
Send Safe wird von Ian Ibragimov verkauft an einzelne Benutzer und Firmen. Es ist auf den Betriebssystemen Windows, Linux und FreeBSD lauffähig. Die kommerzielle Ratware ist umfangreicher als Dark Mailer und stellt die Verwaltung und Erstellung von Kampagnen und Massenmails zur Verfügung. Gegen eine nicht mehr aktuelle Version von Spamassassine wurde Send Safe getestet.
Reactor Mailer, auch Trojan.Srizbi genannt, war 2006 für 60% des weltweiten Versands von Spam verantwortlich. Der Benutzer greift über ein Web-user interface auf die Ratware zu. Text, Header und Anhänge werden automatisch zufällig erzeugt. Aus dem Text der Spamnachricht werden automatisch auch Bilder erzeugt, um inhaltsbasierte Filter zu umgehen. Sie ist die schnellste Ratware, weil sie über verteilte Systeme Spam versendet. Der Versand über Open Relaxs, SOCKS/HTTP Proxies oder über Cluster ist nicht möglich.
Zusammenfassung
Mailserver implementieren nur in geringem Umfang Möglichkeiten für den Schutz vor Spam. Die häufigsten Implementierungen sind DNSBL, SURBL, Greylisting, SPF und Reguläre Ausdrücke. Weitere Antispam-Funktionen bieten Mailserver über Drittprodukte, in der Regel Spamassassin, an. Die aufgeführten Möglichkeiten für den Schutz vor Spam implementieren die beliebtesten ESP Gmail.com und Hotmail.com. Probleme verursachen den Einsatz von Greylisting, weswegen Hotmail.com den Einsatz nicht eindeutig offziell angibt. Auf Seiten des Spammers liegt der Fokus und die Entwicklung auf die schnelle Zustellung z.Bsp. über verteilte Systeme und die Verschleierung der Spam-E-Mail durch Zufälligkeitsgeneratoren und Image-Erstellung des Textes.
Fazit
Zusammengefasst gibt es viele verschiedene Ansätze, die Spam reduzieren. Spam ist dabei als unerwünschte Massenmail definiert und zeichnet sich insbesondere durch seine Zustellungsmethode und nicht durch seinen Inhalt aus. Individualsierungen von Spam steht werder im Fokus von Spammern noch im Fokus von Empfängern. Trotz der entwickelten Möglichkeiten gibt es keine Möglichkeit, die eine wahr oder falsch-Aussage treffen kann, ob eine eingehende E-Mail Spam oder Ham ist. Das Problem ist grundsätzlich nicht gelöst. Der Wettbewerb zwischen Spam und Anti-Spam wird weitere Spammer-Funktionen entwickeln und Schutzmaßnahmen gegen diese Spamfunktionen erschließen.
Quellen
Alle angegebenen Internetseiten hat der Autor zuletzt am 05.11.2018 aufgerufen, wenn nichts anderes angegeben ist.
- Beverly, Sollins: Exploiting Transport-Level Characteristics of Spam, CEAS 2008
- DMARC: Page Overview. 2018.
- DMARC: Page What is DMARC?. 2018.
- Geerthik 2013: Geerthik, S.; Sastha, S.: Survey on Internet Spam: Classification and Analysis. In International Journal of Computer Applications in Technology, Vol 4(3), 384-391, May 2013.
- Graham, P.: Spam. Published 2002/03, Last Seen 11 October 2018.
- Hashcash 2018
- India Law 2018.
- Klensin, J.: Simple Mail Transfer Protocol. Published October 2008, Last Seen 11 October, 2018.
- M3AAWG: Best Practices for Implementing DKIM To Avoid Key Length Vulnerability. Published October 2012, Revised July 2017, Last Seen 11 October, 2018.
- Microsoft Research: Vowpal Wabbit (Fast Learning).
- MLWave: Winning 2 Kaggle in Class Competitions on Spam. Published June 2, 2014. Last Seen 11 October 2018.
- Email-Verify.My-Addr.com: List of most popular email domains (by number of live emails) /04 June 2016
- Scheuermann, B.: Netzwerksicherheit – Anwendungssicherheit. In Netzwerksicherheit, 2018.
- Spamhaus: Spamhaus. Last Seen 11 October 2018.
- Statista 2018: Statista: Spam-Email-Traffic-Share. Last Seen 11 October 2018.
- Stern, H.: A Survey of Modern Spam Tools. Published 2011. Last Seen 11 October 2018.
- Takahashi, K.: Does Google‘s Hack Reveal DKIM Vulnerability? Not really. Published 26 October 2012, Last Seen 11 October 2018.
- Wikipedia: List of Spammers. Zuletzt bearbeitet am 17.08.18.
- Yerazunis, W.S.: The Spam-Filtering Accuracy Plateau at 99.9% Accuracy and How to Get Past It. MIT Spam Conference 2004.
- Zhenfang: Research on Spam Filtering Techniques and Trend Analysis. School of Information Science and Electric Engineering, China, 2015.
- Zetter, K.: How a Google Headhunter‘s E-Mail unraveled a massive net security hole. Published 24 October 2012, Last Seen 11 October 2018.
Quellen Domainrecherche
- Julia: Unable to Deliver Emails to Hotmail, Live, MSN and Outlook? 2016
- outlook.com: Outlook.com Postmaster 2018
- Microsoft: Office 365 und Greylisting 2015
- Google: Hilfe für G Suit-Administrator 2018
- Google: Bulk Senders Guideline 2018
- Google: Postmaster Tools 2018
Abbildungen