Phishing : comment le machine learning aide à contrer les sites malveillants

Comment identifier sans délai un site frauduleux ? Florent Vuillemin, développeur d’outils de cyberdéfense chez Orange, a présenté ses solutions à l’European Cyber Week.

phishing-machine-learning
Le phishing, ou hameçonnage, est une attaque courante et en augmentation. Comment y faire face ? © naum - stock.adobe.com

Lors de l’European Cyber Week, Florent Vuillemin, développeur de solutions de cyberdéfense auprès de l’Orange Innovation Factory, est venu évoquer les recherches de ses équipes, qui portent sur la lutte anti-phishing. Au sein de l’entreprise, il a développé un outil d’analyse automatique basé sur le machine learning pour identifier sans délai les sites frauduleux.

L’espace numérique est-il à reconquérir ?

Le phishing, un phénomène en constante augmentation

En quoi peut-on avoir confiance dans notre espace numérique ? Cette question est centrale, alors que les contenus volontairement trompeurs, de l’édition de pages Wikipédia à tout ce qui est mis en œuvre pour réaliser des arnaques, se multiplient. Des textes existent déjà pour nous protéger contre ces contenus malveillants, comme les lois renseignement ou la loi Avia, et des projets sont en cours, à l’image de la loi SREN, dont un article est consacré à la lutte anti-phishing et à définir plus précisément ce qu’est la fraude en ligne.

« Le phishing, c’est une attaque d’ingénierie sociale », explique Florent Vuillemin. « Il va usurper une marque ou une entité en laquelle vous avez confiance pour vous inciter à réaliser une action que vous ne feriez pas habituellement. » Et le chercheur le rappelle : « Tous les acteurs de la sécurité sont d’accord, ces attaques sont en augmentation. Et une porte d’accès aux systèmes des entreprises. »

Des solutions pour le moment insuffisantes

Pour tenter de contrer la prolifération de sites malveillants, des solutions existent. Google met par exemple en place le safe browsing sur les navigateurs, pour vous avertir en cas de site potentiellement trompeur. Mais cela nécessite que Google ait déjà indexé ces sites. Et cela peut prendre un peu, mais déjà trop, de temps. « Le pirate va acheter ou compromettre un domaine, faire son emailing et collecter d’éventuels identifiants. Google et ses partenaires reçoivent aussi ces emails de phishing, ce qui mènera au classement du site comme malveillant. Mais, la liste n’est pas mise à jour assez rapidement », décrypte Florent Vuillemin.

En plus, « les kits de phishing commencent de plus en plus à intégrer des kits d’évasion ». À la rencontre d’un potentiel défenseur, il peut ainsi éviter de mettre en œuvre ses actions pour tromper sa vigilance. « Ces mécanismes ont pour but de retarder l’analyse et garder le site en ligne le plus longtemps possible. » Cela témoigne d’une insuffisance dans la façon de prémunir ce type d’attaque.

Automatiser l’analyse des sites avec l’aide du machine learning

Quand la prévention ne suffit pas

Bien sûr, les entreprises redoublent d’efforts quant à la prévention face au phishing. Chez Orange, relate le chercheur, comme dans de nombreuses structures, des actions sont mises en place pour sensibiliser les salariés. « Un premier volet se porte sur l’envoi de faux emails de phishing aux collaborateurs. Le second est constitué d’ateliers de coaching expliquant de quoi il faut se méfier : expéditeur, contenu aberrant, etc. Le but est de former pour faire baisser le taux d’engagement, c’est-à-dire le taux de clics sur les liens contenus dans l’email. »

Des actions nécessaires, mais insuffisantes, car la vigilance ne peut être tenue constamment avec la même rigueur. Les équipes d’Orange ont alors pensé à remplacer les experts par une analyse automatique directement dans le navigateur de la victime. La méthode présente plusieurs avantages : elle aide à régler le problème d’évasion, permet de voir ce que voit la victime directement sur son écran, avec une analyse qui ne dépend pas du canal d’attaque.

Un modèle de machine learning pour classifier les sites

À la suite de l’analyse, il faut pouvoir classifier les sites comme malveillants ou non. Des modèles alimentés par le machine learning ont alors été entraînés par les équipes d’Orange. Le but est de pouvoir obtenir un score de prédiction sur l’aspect potentiellement trompeur d’un site. Le modèle est donc entraîné sur des datasets d’URL malveillantes et légitimes. Un jeu de test, inconnu du modèle, lui est proposé pour vérifier ses capacités prédictives ainsi que la réussite de la généralisation de son analyse.

« Avec des algorithmes simples, les résultats sont déjà particulièrement probants », se réjouit Florent Vuillemin. En quelques secondes, l’extension sur le navigateur de la victime analyse le site et détermine s’il s’agit ou non d’un site malveillant, avant d’en avertir immédiatement l’internaute. Elle est « aussi capable de faire de la reconnaissance de marque depuis les logos et rediriger vers le site officiel de l’entité usurpée ». Encore en prototype, l’outil a également vocation à permettre l’échange de données entre entités, afin qu’il soit possible de rapidement faire fermer ces versions frauduleuses de sites de marques. En cours d’industrialisation, l’outil pourrait donc permettre de lutter plus efficacement contre le phishing.

Sujets liés :
Publier un commentaire
Ajouter un commentaire

Votre adresse email ne sera pas publiée.

Visuel enquête Visuel enquête

Community managers : découvrez les résultats de notre enquête 2025

Réseaux, missions, salaire... Un webinar pour tout savoir sur les CM, lundi 29 septembre à 11h !

Je m'inscris

Les meilleurs outils pour les professionnels du web