caravan calculus
curve priesthood / with the burden of intentions / contrive respectability
luscious recruiter / nobly explosive / snare human nature
Xerox gentility / hoarsely pyramid / retiring reprisal
Nein, ich bin nicht zu den Literaturwissenschaftlern übergelaufen, und das ist keine zeitgenössische englische Poesie. Ich habe diese Verse aus ausgewählten Betreffzeilen der E‑Mails zusammengestellt, die tagtäglich in meinem Spamordner landen. Es ist noch gar nicht lange her, da waren diese Betreffzeilen geradeheraus: „Sex all night long?“, „U can save your money“, „Need S0ftware?“ oder „Contratulations! You have won the lottery!“. Wenn man die elektronischen Wurfsendungen öffnete, ahnte man, was einen erwartete: zweifelhafte Offerten für Viagra, Hypotheken und Adobe Photoshop oder die Aufforderung, doch bitte umgehend seine Bankverbindung nach Nigeria zu übermitteln um das Preisgeld für eine Lotterie zu erhalten, an der man nie teilgenommen hatte. Doch seit einiger Zeit sind die Betreffzeilen immer häufiger kleine surrealistische Kunstwerke und wenn man die E‑Mails öffnet, enthalten sie Textwüsten aus zusammenhangslosen Sprachfetzen. Was ist da geschehen?
Es handelt sich um die jüngste Spirale im Wettrüsten zwischen Spammern und Antispamfiltern. Diese Filter versuchen, die Spammer dort zu packen, wo sie am verwundbarsten sind — bei den Sprachmustern, die sich im digitalen Werbemüll unweigerlich finden. Dabei dürfen sie natürlich nicht einfach eine Liste verbotener Wörter abarbeiten und alle Nachrichten abweisen, die eines oder mehrere dieser Wörter enthalten. Denn es könnte ja sein, dass ein alter Freund mir von seinem Lottogewinn erzählen möchte oder dass Bob Dole mich als Wirtschaftsminister der USA vorschlagen will und dabei erwäht, dass ihm die neue Viagra-Werbekampagne nicht gefällt. Diese Nachrichten müssen mich natürlich erreichen können.
Deshalb gehen gute Antispamfilter heute ausgeklügelter vor. Sie werden zunächst an zwei elektronischen Korpora (=Textsammlungen) trainiert: einem, das aus möglichst vielen meiner erwünschten E‑Mails besteht, und einem, das aus möglichst vielen der unerwüschten Sülzmails besteht. Für jedes dieser Korpora erstellen sie eine Häufigkeitsliste aller Wörter. Die jeweils zehn häufigsten Wörter in einer zufälligen Auswahl meiner erwünschten und unerwünschten E‑Mails sind beispielsweise die folgenden (dabei habe ich der Übersicht halber Wörter wie the, of, in, usw. weggelassen, die auf beiden Listen Spitzenpositionen einnehmen):
Erwünscht | Unerwünscht | |||
anatol | 34 | prize | 57 | |
journal | 33 | lottery | 45 | |
linguistics | 27 | bestseller | 42 | |
language | 24 | adobe | 36 | |
paper | 24 | free | 30 | |
stefanowitsch | 24 | viagra | 24 | |
bremen | 23 | winning | 24 | |
metaphor | 21 | money | 24 | |
student | 21 | address | 21 | |
corpus | 21 | payment | 21 |
Nun wird für jedes Wort die Spamwahrscheinlichkeit ermittelt, also die Wahrscheinlickeit, mit der es in einer Spammail vorkommt. Die Top Ten auf den beiden Listen kommen in meinen Email-Korpora jeweils zu 0 Prozent bzw. zu 100 Prozent in den unerwünschten Emails vor, aber die meisten Wörter liegen irgendwo dazwischen: das Wort offer kommt zum Beispiel zu 75 Prozent in Spammails und zu 25 Prozent in erwünschten Emails vor, beim Wort wishes (aus der Grußformel Best Wishes) ist es genau umgekehrt. Für den Filter sind diese Prozentzahlen Wahrscheinlichkeiten dafür, dass eine Nachricht, die das entsprechende Wort enthält, eine Werbemail ist. Er sucht also nach Wörtern, die besonders stark in die eine oder andere Richtung abweichen. Die Wahrscheinlichkeiten werden zusammengezählt und daraus ergibt sich eine Gesamtwahrscheinlichkeit. Würde diese bei 50 Prozent liegen, wäre der Filter unentschieden; tatsächlich liegt sie aber typischerweise deutlich darüber (dann weiß der Filter: das ist Spam) oder darunter (dann weiß der Filter: das ist eine erwünschte Nachricht).
Die guten und schlechten Wörter werden also gegeneinander aufgewogen. Wenn in einer Email beispielsweise das Wort prize vorkommt, ergibt sich daraus zunächst eine Spamwahrscheinlichkeit von 100%. Wenn in der selben Mail aber die Wörter Anatol und linguistics vorkommen, so heben sie diese Wahrscheinlichkeit nicht nur auf sondern kehren sie sogar um. Auf diese Weise würde mir eine Email, in der man mir ankündigt, dass ich den neugeschaffenen „Nobel Prize in Linguistics“ gewonnen habe, nicht entgehen.
Und hier kommen die Zufallstexte ins Spiel: sie stellen einen Versuch dar die Antispamfilter zu überlisten. Die Zufallstexte sollen dafür sorgen, dass die Filter keine aussagekräftigen Häufigkeitslisten für die Spammails aufbauen können. Die Zufallstexte sollen dafür sorgen, dass auf den schwarzen Listen der Filter jede Menge unschuldiger Wörter auftauchen, die die verräterischen Wörter relativ gesehen seltener machen.
Anfangs wurden diese Zufallstexte an die eigentliche Werbebotschaft angehängt. Das verwirrte die Antispamfilter kaum, denn obwohl verräterische Wörter wie lottery und Viagra auf den Häufigkeitslisten dadurch tatsächlich nach unten wanderten, kamen sie nach wie vor fast ausschließlich in Spammails vor. Ihre Spamwahrscheinlichkeit blieb also fast unberührt. Im nächsten Schritt entfernten die Spammer die Werbebotschaften ganz aus dem Text und hängten sie als Bild an. Zurück blieb also nur der Zufallstext. Der müsste die Filter nun eigentlich vor ein großes Problem stellen, denn es lassen sich keine typischen Spamwörter mehr ausmachen. Die Top Ten aus einer Auswahl von Zufallsspam der letzten Woche sehen bei mir beispielsweise so aus:
said | 67 |
man | 40 |
contrary | 37 |
case | 34 |
substance | 28 |
things | 27 |
called | 27 |
qualities | 26 |
knowledge | 25 |
true | 25 |
Dass diese Zufallstexte den Spamfilter trotzdem nicht überlisten können, liegt an drei Dingen. Erstens weiß der Filter ja gar nicht, dass etwa lottery ein spamtypisches Wort ist. Er weiß nur, dass es häufig in Spammails vorkommt. Deshalb behandelt er nach kurzem Training eben die Wörter said, man, contrary, etc. ebenfalls als Spamwörter. Zweitens fehlen in den Zufallsspams nach wie vor die Wörter, die typischerweise in tatsächlich an mich gerichteten Nachrichten vorkommen — die Spamwahrscheinlichkeit liegt deshalb nach wie vor deutlich über der meiner erwünschten E‑Mails. Drittens, aus sprachwissenschaftlicher Sicht weniger interessant, sammelt der Filter nicht nur Wörter, wie ich es hier gezeigt habe, sondern auch verdeckte Textelemente wie beispielsweise die HTML-Tags, mit denen die Bilder in die Werbemails eingebunden werden. Wenn die Sprache neutraler ist, bekommen diese Tags dafür ein umso größeres Gewicht.
Ein Gutes haben diese Texte aber: sie regen zu kreativem Umgang mit Sprache an. Die Idee, Gedichte daraus zu machen, stammt nämlich leider nicht von mir. Überall im Internet kann man solche „Spam Poetry“ finden. Zu Zeiten der traditionellen Massenwerbung waren diese Gedichte notwendigerweise thematisch sehr beschränkt und drehten sich, wie die Werbebotschaften selbst, hauptsächlich um Sex, Hypotheken und Lotteriegewinne. Die Zufallstexte und ‑betreffzeilen haben der Spam Poetry inzwischen zu wahren literarischen Höhenflügen verholfen.