|
|
INTRANET EXTRANET |
IBM séquence les e-mails comme l'ADN pour lutter contre le spam |
Un algorithme utilisé pour détecter des motifs récurrents dans les chaînes ADN, une fois appliqué aux spams, les identifie avec un taux de réussite de 97%.
(25/08/2004) |
|
Quand la recherche antispam profite de la recherche dans d'autres domaines... Tout commence à New York, où des chercheurs en bioinformatique chez IBM ont développé un algorithme, baptisé Teiresias, destiné à parcourir des séquences d'acides aminés et des fragments d'ADN pour y chercher des motifs récurrents, avec l'objectif d'isoler les rôles de certaines structures génétiques.
Cette technique, modifiée au sein d'un nouvel algorithme baptisé Chung-Kwei (du non d'un Taliman feng-shui censé protégé le foyer des mauvais esprits), et appliquée non plus à des séquences de matière organique, mais à des chaînes de caractères, permettrait de lutter très efficacement contre le spam en décelant, là encore, les motifs récurrents qui identifient sans coup férir la plupart des pourriels.
Le New Scientist, à l'origine de l'information, cite ainsi le chiffre de 97% de spam détecté par la méthode. Et sur quelque 65 000 messages préalablement identifiés
comme des pourriels, Teiresias/Chung-Kwei a permis d'extraire environ 6 millions de motifs récurrents.
Ces motifs doivent ensuite être comparés à ceux naturellement présents dans une collection de messages légitimes (dits courrier "ham"), ce qui permet de les retrancher les motifs non "suspects".
1 e-mail légitime sur 6000 seulement est indûment filtré |
Une fois collectés les motifs caractérisant bien les spams, il est alors possible d'attribuer aux e-mails entrants une pondération en fonction du nombre de ces motifs qu'il comprend. Résultat obtenu par l'algorithme : très précisément 96,56% des spams qui lui ont été soumis ont été effectivement libellés comme du spam, un score très performant d'autant qu'à l'inverse, la caractérisation d'un message légitime comme du spam (effet pervers de nombreuses technologies antispam)
est survenue rarement, à raison d'1 pour 6000.
Autre atout de l'algorithme : il est capable de reconnaître des motifs différents mais (par analogie avec l'ADN) au fonctionnellement équivalent. Exemple : "Viagr@", "$ex" seront traités comme les équivalents de "Viagra" et "sex".
Quel avenir pour cette technologie ? IBM envisage de l'include dans son offre antispam, SpamGuru, actuellement distribuée sous forme d'aperçu technologique au sein de Lotus Workplace 2.0. SpamGuru, outre Teiresias/Chung-Kwei, fait également appel à d'autres techniques, parmi lesquelles, bien sûr, les "classiques" filtres bayesiens (qui se fondent sur une base de données élaborée à partir de l'analyse du courrier entrant légitime : on peut estimer qu'un e-mail est un spam en le décomposant en unités lexicales, chacune pourvu d'une "probabilité spam" calculée par l'analyse et contenue dans la base, et si le calcul alors possible de la "probablité spam" globale du message électronique dépasse un certain seuil).
L'avantage de cet algorithme dérivé des recherches en bioinformatique par rapport aux filtres bayesiens est alors le suivant : il permet, avec de très bonne performance, de détecter les nombreuses astuces que déploient les spammeurs pour contourner ces filtres (changement de lettre, insertion de texte sans queue ni tête, etc.) en minimisant le risque "d'excès de zèle" (soit le placement de courrier ham dans la catégorie spam). L'avenir dira si Big Blue a, le premier, franchit un pas technologique décisif dans la lutte antispam. |
|
|