Les défis des modèles du machine learning 1/2

article
7/4/22
par Isabelle Robin

Au sein de la division Innovation de Bleckwen, nous cherchons à améliorer et à former nos modèles ainsi qu'à trouver des initiatives pour compléter leur efficacité. Nous tirons parti de l'intelligence artificielle pour lutter contre la fraude au crédit et fournir à nos clients un système rapide et facile à utiliser. Mais que signifie exactement l'intelligence artificielle et l'apprentissage automatique ? Quels sont les défis spécifiques liés à leur utilisation pour la détection des fraudes, et comment les combattre ? Au-delà de ces questions, cet article vise à présenter comment nous pouvons entraîner les machines pour la détection des fraudes et les complexités de la construction d'un modèle d'IA depuis les coulisses.

Machine Learning 101

Introduisons les principes de base du Machine Learning. L'intelligence artificielle regroupe à la fois les systèmes basés sur la règle, les heuristiques et les algorithmes d'apprentissage automatique basés sur les systèmes. Un système basé sur des règles s'appuiera sur les connaissances d'un expert, tandis que l'apprentissage automatique repose sur l'apprentissage de modèles à travers les données. L'apprentissage automatique est composé de plusieurs types d'algorithmes, dont le très médiatique deep learning, natural language processing, ainsi que de nombreux autres algorithmes parfois connus uniquement des Data Scientists.

Cependant, ces différents types d'algorithmes d'apprentissage automatique peuvent être classés en deux familles : l'apprentissage supervisé et l'apprentissage non supervisé.

L'apprentissage supervisé vise à développer des modèles prédictifs basés sur des données étiquetées. Les modèles supervisés détectent des modèles semblables à ceux sur lesquels ils ont été formés.

L'apprentissage non supervisé trouve des modèles dans des données non étiquetées. Les données peuvent ainsi être regroupées (données authentiques contre données aberrantes, points similaires dans des catégories, événements dans un fuseau horaire...) ou une transformation peut être appliquée aux variables pour faciliter l'apprentissage supervisé.

Pour la détection de la fraude, les deux techniques peuvent être combinées pour détecter les modèles frauduleux existants, tout en intégrant la détection d'anomalies comme un modèle approprié. Voici un schéma simplifié des pipelines de formation et de prédiction. Ces deux étapes sont distinctes et impliquent des étapes différentes

Les défis de la détection de la fraude

La détection de la fraude à l'aide de l'apprentissage automatique soulève de nombreux défis. Tout d'abord, la définition de ce qu'est la fraude n'est pas toujours simple. La ligne de démarcation avec la solvabilité peut être mince et le processus entre le défaut de paiement et la qualification de la fraude peut varier selon les organisations. Pourtant, un étiquetage erroné peut entraîner une baisse spectaculaire des performances du modèle, car celui-ci pourrait confondre les modèles de fraude et les modèles authentiques. Ce problème de mauvais étiquetage peut également être causé par la période de maturité. Il s'agit du délai entre la réception d'un enregistrement et son étiquetage en tant que fraude. Selon le cas d'utilisation, cette période peut aller de quelques jours à plusieurs mois. Pendant cette période de maturité, des enregistrements frauduleux peuvent être étiquetés comme authentiques et perturber notre modèle !

Par conséquent, les enregistrements les plus récents ne peuvent pas être utilisés dans les données d'entraînement. Un autre défi lié à l'utilisation de l'apprentissage automatique pour la détection de la fraude réside dans la nature déséquilibrée de l'ensemble de données. Heureusement, il y a beaucoup moins de cas frauduleux que de cas authentiques.

Mais cette sous-représentation des fraudes ne facilite pas l'apprentissage des modèles de fraude, qui est notre principal objectif. Ainsi, la résolution de cette équation implique de multiples moyens tout au long du pipeline de formation, des caractéristiques utilisées à la méthodologie de création du modèle et à ses métriques d'évaluation.

Behaviour features

Des arbres aux forêts... ou pourquoi utiliser des règles ne suffit pas

Maintenant, que certaines caractéristiques intéressantes sont disponibles, nous pouvons examiner les algorithmes possibles pour notre modèle de détection des fraudes. Les gradient boosting machines sont un algorithme basé sur les arbres, particulièrement efficace sur l'ensemble de données déséquilibrées. Mais qu'est-ce qu'un arbre et comment sont-ils combinés dans cet algorithme ? Un arbre de décision peut être considéré comme un ensemble de règles où les variables et les seuils seraient choisis automatiquement. Dans l'exemple simple de l'arbre de décision, chaque nœud représente une variable et chaque branche un choix pour cette variable.


Après plusieurs niveaux, par exemple : lorsque le montant est inférieur à 500 euros et le nombre de transactions le dernier jour inférieur à 3), on atteint finalement une feuille (ici : pas de fraude). Les arbres de décision sont simples à comprendre et à représenter. Cependant, avec seulement quelques niveaux, ils ne peuvent pas représenter assez précisément la complexité des schémas de fraude et peuvent générer trop de fausses alertes.

D'autre part, s'il y a trop de niveaux et que l'arbre est trop profond, le modèle va apprendre par cœur les fraudes dans son ensemble de données d'entraînement et ne sera pas capable de généraliser le modèle sur des données différentes. C'est ce qu'on appelle le problème de l'overfitting.

C'est là qu'intervient la solution de combiner ces arbres. Plusieurs techniques existent pour les assembler mais concentrons-nous sur le boosting, utilisé dans les machines à boosting de gradient. Chaque arbre va apprendre les erreurs, les fausses alertes, les fraudes manquées, de l'arbre précédent. Ensuite, le score final sera la moyenne de tous les résultats de l'arbre.

Data three

Dans notre prochain article, nous continuerons à découvrir les liens qui se cachent derrière l'apprentissage automatique.


Vous souhaitez en savoir plus ?

Image for the blog post
Quentin Coic

Mutualiser pour mieux régner

Dans ce chapitre 2, nous nous intéresserons aux modèles sur étagère ainsi qu’aux pré-requis des techniques de mutualisation de données avant d’aborder le protocole mis en place pour mesurer l’apport de ces techniques pour nos clients.

Lire l'article
Image for the blog post
Quentin Coic

Mutualiser pour mieux régner, chapitre 1

Un des enjeux les plus importants pour créer des modèles de détection performants et viables pour nos clients (des organismes de financement tels que le crédit, le leasing et le factoring) est d’obtenir une donnée, qualifiée comme frauduleuse ou non, suffisamment importante en volume et diverse en patterns de fraude ou non-fraude.

Lire l'article
Image for the blog post
Clarisse Do Cao

La fraude financière en France : évolutions, impacts et solutions

En France, les pertes liées à la fraude financière en 2022 sont estimées à +175 millions d’euros. Et les fraudeurs améliorent constamment l'efficacité et la rentabilité de leurs transactions grâce aux technologies (deepfake, Chat GPT, nouveaux modes de paiement, etc). Des solutions concrètes existent pour lutter efficacement contre la fraude.

Lire l'article

Commencez avec

Bleckwen


DEMANDEZ UNE DÉMO
  • Résultats prouvés et économies garanties contre la fraude

  • Sur-mesure pour votre entreprise

  • Intégration facile et mise en œuvre rapide