Es war zu erwarten, dass der Foren-Spam bald denselben Weg gehen würde, wie Mail-Spam. Um Wortfilter zu umgehen, streuen die Spammer jetzt absichtlich Schreibfehler in ihre Texte ein. Ein Beispiel:
Have you ever stopped to wonder how much an average man pays for his mediecines? [...] What's worse, the same mediucine costs a lot more if it is branded. Are you intrested? So.. Visit our website!
Sehen wir uns mal die Schreibweise von "medicine" an. Genau, zwischen dem "medi" und dem "cine" steht immer noch ein Vokal. Beim Drüberlesen fällt der kaum auf. Und wenn der Stoppwortfilter nur nach "medicine" sucht, schlüpft der Spam durch.
Was tun? Natürlich die Stoppwort-Erkennung anpassen. Am besten geht das mit einer Regex, zum Beispiel:
/m.?e.?d.?i.?c.?i.?n.?e/i
Wenn ich mich nicht vertippt habe ( ;-) ) erkennt das Suchmuster jetzt auch alle Varianten, bei denen an beliebiger Stelle zwischen den Buchstaben ein weiterer eingeschleust wurde.
Doch es wird sicher noch weiter gehen. Die Spammer werden - genauso wie ihre Mail-Kollegen - anfangen, Buchstaben gegen leicht verwechselbare Zeichen auszutauschen, etwa:
medlcine
Na, gesehen? Genau. Statt des "i" hinter "med" steht da jetzt ein "l" (kleines "L"). Prima verwechseln lassen sich auch der Buchstabe O und die Ziffer 0.
Da kommt noch einiges auf uns zu. Wer immer einen Stoppwort-Filter betreibt, tut gut daran, schon jetzt an solche Muster zu denken. Das Beispiel oben, ließe sich übrigens mit folgender Regex erkennen:
/med[il1]cine/i
Die Zeichen in den eckigen Klammern gelten alternativ. Natürlich sollten Sie an den anderen Stellen auch noch die Alternativen einbauen.
Ich habe mal vor einiger Zeit einen Generator für Spamassassin geschrieben, der genau solche Muster erzeugt. Probiert mal Assgen aus. Ich fange jetzt mal an, meine Stoppwortliste umzuschreiben. (Klarer Fall von "ich hab's mir gedacht, aber warum habe ich es dann nicht gleich gemacht?")
