Le filtrage bayésien
Les statistiques Bayésiennes ont d'abord été mises en évidence par
le scientifique anglais T. Bayes.
Ses principales caractéristiques consistent en l'utilisation des
expériences passées pour effectuer des prédictions.
La méthode bayésienne est présentée comme une approche "intelligente"
qui examine tous les aspects d'un courrier électronique, par opposition
au contrôle de seuls mots-clefs ou chaînes interdites.
S'agissant du spam, si une certaine chaîne de caractères se présente
souvent dans des courriers indésirables, alors la prochaine fois
que cette même chaîne de caractères se représentera dans un nouveau
courrier, on pourra supposer que ce courrier est probablement "indésirable".
La probabilité peut être calculée en tenant compte du nombre de
fois que cette chaîne se présente en tant que spam par rapport au
courrier légitime. Cette probabilité varie avec les destinataires.
Si la probabilité est plus grande qu'un certain seuil, alors le
message est considéré comme indésirable.
Brièvement, voici quelques avantages du filtrage bayesien :
- Il tient compte de l'ensemble du message ;
- Il est multilingue et international ;
- Il utilise l'intelligence artificielle ;
- Il est difficile à contourner.
Le filtrage heuristique
Le filtrage heuristique est une technique de filtrage fondée sur
l'analyse du contenu des messages.
La technique analyse et note la présence de forme (par exemple l'objet
du message tout en MAJUSCULE), de code (présence exagérée de code
HTML visant à dégrader les performances d'un filtre sémantique).
Cette technique de filtration à l'avantage d'être indépendante de
la langue de l'utilisateur.
De plus, elle vérifie un nombre important de règles : 800 règles
sont couramment employées dans les solutions anti-spam.
Par contre le filtrage heuristique nécessite une maintenance assez
importante, car en général les spammeurs s'adaptent aux règles et
ajoutent de "nouvelles règles". Ainsi, la mise à jour de ces règles
dans ce système de filtrage sont permanentes.
Exemple d'objets dans un message pouvant être filtrées par cette
méthode :
- so|utions to common hea1th problems
- cred1ted to your acc0unt when you s1gn up
- Best s0ftware prices.
- We are having specials on C|AL|S, V1AGRA, PR0ZAC, ZYBAN and C3LEBREX
Vous pouvez ainsi constater que les "i" sont remplacés par des "1"
ou "|" ; les "o" par des "0", etc...
Les listes noires et RBL
En quelques mots, nous pouvons définir les listes "blanches" et
"noires" de la manière suivante : les expéditeurs en liste noire
sont bloqués et les expéditeurs en liste blanche sont les bienvenus.
Les listes noires sont les listes ayant identifié des spams collectifs
et sont listés afin de ne pas les délivrer.
Sur le même principe que les listes blanches, il y a des listes
noires "locales", et des listes noires générales, communément appelées
les RBL.
RBL ou Realtime Blackhole List
La RBL est une liste noire de machines ou de domaines bannis, mise
à jour en temps réel.
Les filtres anti-spam s'appuyant sur cette méthode, consultent en
général automatiquement la mise à jour des bases.
Il existe différentes RBL, comme :
- MAPS RBL
- ORBS
- SBL et XBL
- DSBL...
La base de données OBRS est utilisée par de nombreuses sociétés,
parmi lesquelles GearHost Inc. Aux USA qui rejette 5 500 000 d'emails
par jour, ou encore Bigfoot avec 4 000 000 d'adresses rejetées journalièrement.
SBL
Enfin, concernant la SBL ; le projet de Spamhaus.org donne plus
de moyens aux fournisseurs Internet pour couper à la source les
courriers non sollicités, qui polluent nos boîtes aux lettres électroniques.
Cette liste XBL est conçue pour être exploitée parallèlement à la
liste noire traditionnelle déjà mise en place par Spamhaus (la SBL),
qui recense les adresses IP de spammeurs identifiés, et non de centres-relais.
Ces services sont gratuits et ne font l'objet d'aucune propriété
quelconque.
En cas d'erreur Spamhaus donne la possibilité de retirer une adresse
IP de ses listes.
L'anti-spoofing
Tout d'abord, il convient de définir ce qu'est l'IP Spoofing. En
clair, cela signifie usurpation d'adresse IP.
Bien que cette attaque soit bien connue, elle reste d'actualité.
Effectivement, cette attaque peut être utilisée de deux manières
différentes :
- La première utilité de l'IP Spoofing va être de falsifier la source
d'une attaque.
- L'autre utilisation de l'IP Spoofing va permettre de profiter
d'une relation de confiance entre deux machines pour prendre la
main sur l'une des deux.
Il existe plusieurs types d'IP Spoofing :
La première est dite "Blind Spoofing", c'est une attaque en aveugle.
Les paquets étant forgés avec une adresse IP usurpée, les paquets
réponses iront vers cette adresse. Il sera donc impossible à l'attaquant
de récupérer ces paquets.
Pour le deuxième type, il s'agit d'utiliser l'option "IP Source
Routing" qui permet d'imposer une liste d'adresses IP des routeurs
que doit emprunter le paquet IP. Il suffit que l'attaquant route
le paquet réponse vers un routeur qu'il contrôle pour le récupérer.
Néanmoins, la grande majorité des routeurs d'aujourd'hui ne prennent
pas en compte cette option IP et jettent tous paquets IP l'utilisant.
Les manières de s'en protéger sont de quatre sortes :
- Supprimer tous les services de type rsh et rlogin.
- Ne pas utiliser uniquement l'adresse IP comme méthode d'authentification.
- Vérifier que son système n'a pas des numéros de séquence TCP facilement
prédictible.
- Utiliser une fonction anti-spoofing.
Le blocage des serveurs "open relay"
Ces serveurs ouverts "open relay" autorisent n'importe quel expéditeur
à envoyer à n'importe quel destinataire des e-mails, le plus souvent
du spam.
Des sites, tels que ORDB ou DSBL les traquent et permettent aux
administrateurs système de s'en prémunir, mais la tâche est vaste.
Normalement, un serveur de mail correctement paramétré n'accepte
que des expéditeurs et des destinataires appartenant à son domaine
local ou à sa gamme d'IP.
Quand ce n'est pas le cas, faute de sécurisation suffisante, le
serveur devient une cible idéale pour des spammeurs toujours à l'affût
de passerelles gratuites masquant leurs agissements.
Par exemple, votre fournisseur d'accès Internet s'appelle "Fournisseur"
et vous fournit un serveur de mail appelé smtp.fournisseur.com.
Si des internautes qui ne sont pas clients de "Fournisseur" sont
autorisés à utiliser smtp.fournisseur.com, alors c'est un open relay.
Le test de Turing
Les utilitaires anti-spam à base de test de Turing, plutôt rares
pour l'instant, représentent une les meilleures solution anti-spam
actuelle.
Il s'agit de s'assurer de l'humanité d'un émetteur de courrier électronique
: est-ce bien un humain ou est-ce un robot ?
Concrètement, on va lui demander de résoudre une énigme, simplissime
pour l'humain, impossible pour la machine, raison pour laquelle
certains tests de Turing s'appellent "Challenge Message".
S'il y a une réponse satisfaisante, on considère que l'émetteur
est réellement un humain et son adresse et placée automatiquement
en liste blanche. Il ne lui sera plus infligé de test de Turing.
Dans tous les autres cas, l'émetteur n'est probablement pas légitime.
Le résultat est immédiat:
- Soit l'adresse de l'expéditeur du courrier est une véritable adresse
mais usurpée (en cas de spoofing par exemple) donc, comme il ne
vous à rien envoyé, il ne répond pas à l'énigme posée par le test
de Turing et sa correspondance prétendue n'est pas délivrée. Le
message électronique reste en quarantaine.
- Soit l'adresse de l'expéditeur est forgée de toutes pièces donc
elle n'existe pas et personne ne répondra jamais à l'énigme. Le
message électronique reste également en quarantaine.
- Soit l'adresse est celle d'un robot et elle n'est jamais relevée.
Le résultat est le même (quarantaine).
- Soit l'adresse est réelle et correspond au spammeur ou à son commanditaire.
Sous l'avalanche d'énigmes à résoudre, il ne peut rien faire.
- Soit l'adresse est réelle et l'expéditeur est humain et la réponse
au test de Turing est positive. Le test est passé permettant le
"laisser-passer" du message.
Les messages placés en quarantaine peuvent être ensuite consultés
par le destinataire qui décide du sort réservé à ces emails.
Conclusion
Ces différentes méthodes de gestion et de filtrage des messages
électroniques vous permettent d'avoir une base de réflexion pour
le choix de votre outil anti-spam.
Pour une utilisation individuelle et monoposte, vous avez par exemple
Spam Assassin qui analyse les emails entrant avec un filtre heuristique
et utilise les listes noires.
Ainsi, un outil anti-spam vraiment fonctionnel et utile doit pouvoir
utiliser au moins deux méthodes de filtrages pour vous assurer une
protection minimale.
Enfin, le test de Turing et le filtrage bayésien sont les deux méthodes
les plus évoluées. Bon à savoir pour choisir son logiciel anti-spam.
LIENS UTILES :

- Dossier Secuser.com : spamming
et mailbombing
- SpamBayes
- SpamPal
|