Data Lake : quel rôle au sein d’un SOC moderne ?

Un Data Lake — lac de données en français —, désigne une infrastructure au sein du SOC qui recueille des données de sécurité de manière brute et non structurée, provenant de sources variées au sein d’un SI (Système Informatique) : journaux d’événements, données liées au réseau, données d’application SaaS, activités provenant du Cloud, alertes de détection, etc.

Les data lake centralisent les données pour faciliter leur gestion. Au fur et à mesure que les données s’accumulent, leur normalisation s’améliore et permet d’entrainer des algorithmes d’IA et de machine learning pour détecter les anomalies. En outre, plus ces données proviennent différentes sources, plus il sera en mesure de comprendre un chemin d’attaque et donc de signaler un risque cyber.

Les limites d’un SIEM traditionnel

L’architecture de données dans un SOC était historiquement centrée sur un SIEM (Security Information and Event Management) et un prestataire pour l’opérer. Le SIEM en tant qu’outil cumule en réalité deux usages différents : la collecte et le stockage de données ainsi que la création de règles de détection appliquées à ces données. Ainsi, cet outil n’est pas conçu pour l’optimisation de la collecte et du stockage de données uniquement.

Jusqu’à récemment, le volume de données à collecter était relativement limité, car il était concentré sur les journaux d’activités des éléments d’infrastructure du SI (VPN, FW, Proxy, Anti-virus, etc.). Cependant, l’extension des surfaces d’attaque des réseaux liés au Cloud, aux SaaS, ou à la pratique généralisée du télétravail ont conduit à la prolifération de la nature de données à collecter.

Ce volume croissant, couplé à une variété des données de plus en plus importante (alertes, metadonnées, résultats de scans, alertes provenant de la CTI), dépasse les capacités d’une approche SIEM traditionnelle. Ces outils étaient originellement conçus pour répondre aux besoins des organisations qui réunissaient un ensemble plus réduit de technologies, sur une durée limitée.

Les avantages d’un data lake moderne et agnostique

Aujourd’hui, il faut être capable de récolter sur le long terme une grande variété de données, qui ne se limite pas uniquement aux logs. Le fait de s’appuyer sur un SOC moderne avec un data lake agnostique présente alors de nombreux avantages pour renforcer la sécurité d’une organisation.

Visibilité accrue des données

Contrairement aux SIEM traditionnels, un Security Data Lake (SDL) centralise de grands volumes de données, provenant de sources diverses et sur une plus longue période. Il fournit ainsi une vision plus complète. Le mode de stockage et d’indexation élargis (le format Object) offre une plus grande latitude sur la nature des données collectées.

Cette visibilité accrue permet aux équipes de comprendre l’ensemble du chemin utilisé par les attaquants et donc de mettre en œuvre les mesures de protection adaptées.

Meilleure scalabilité et gestion des coûts

Sans faire de compromis sur la sécurité, le stockage des données dans les data lake est nettement moins coûteux et gomme les problèmes liés à la scalabilité des SIEM. Le volume croissant et la variété des données impliquent des défis qui n’étaient pas anticipés par ces derniers lors de leur conception.

S’il est toujours possible de recourir aux SIEM, les coûts associés à une gestion étendue sont devenus prohibitifs pour de nombreuses organisations. En effet, s’appuyer sur un socle prévu uniquement pour l’optimisation de la collecte et du stockage de la donnée, — sans avoir aussi à payer pour des licences devant couvrir les outils de créations de règles -, optimise le coût annuel de sa stack technologique.

Enfin, de plus en plus d’organisations utilisent un même data lake (appelé dans ce cas Data Swamp) pour plusieurs cas d’usage en plus de la sécurité (finance, commerce, opérations), ce qui peut optimiser encore plus le ROI de cette approche.

L’indépendance et la portabilité des données

Si autrefois les organisations pouvaient se sentir « verrouillées » par leur prestataire, les SDL abolissent désormais ces cloisons et offrent la capacité de changer de fournisseur tout en conservant les données au même endroit.

Du fait du lien technologique entre stockage de la data et ingénierie de détection, les SIEM traditionnels créaient en effet une barrière pour le client : il fallait tout changer ou ne rien changer. En modularisant ces deux fonctions distinctes, les organisations et les MSSP peuvent optimiser les deux de façon autonome.

Ainsi, les organisations peuvent choisir l’outil de data lake, lalocalisation pour l’infrastructure (interne, cloud privé, cloud public) et les modalités de rétention. C’est un élément structurant, car si les techniques et les technologies de détection continuent d’évoluer régulièrement, la couche de collecte et de stockage est l’élément le plus pérenne de l’infrastructure d’un SOC. D’où l’importance stratégique de l’optimiser.

Ainsi, pour une organisation qui externalise son processus de sécurité opérationnelle, la capacité à conserver ses données et sa stratégie de collecte est plus importante que de maintenir une même stratégie de détection – celle-ci étant dans les faits renouvelée par chaque prestataire.

Une brique essentielle pour l’avènement de l’intelligence artificielle de défense

Les data lake accompagnent des outils d’analyse avancés tels que l’analyse comportementale et le machine learning. Plus les données sont nombreuses, plus les algorithmes deviennent performants pour détecter des anomalies et donc des menaces potentielles. Ainsi, ils contribuent à la détection rapide des incidents pour améliorer l’efficacité de la réponse et la mise en place de mesures correctives.

Dans un contexte de services managés, l’utilisation d’un data lake mutualisé est un prérequis à l’entrainement d’algorithmes UEBA (User and Entity Behavior Analytics) et d’outils d’augmentation des analystes via les LLM (Large Language Model). Au vu du coût des ressources nécessaires (en termes de capacité de calcul) pour faire tourner ces nouveaux modèles, l’optimisation d’accès et de requête de la donnée est en effet primordiale.

Vous l’aurez compris : face à des attaques nouvelles, faibles et ciblées, les SIEM classiques se heurtent à un certain nombre de difficultés car ils utilisent des règles figées conçues pour faire face aux menaces connues. Les modèles de SOC avec machine learning, au contraire, se basent sur un pool de données plus large et mutualisé sur plusieurs contextes clients. Ils sont ainsi capables d’identifier des schémas de comportements qui ne sont pas connus d’avance.

Miser sur un SOC moderne avec un data lake pour une récupération optimale des alertes

À l’inverse des SOC des générations précédentes basés sur un SIEM classique, le SOC moderne doit être en mesure d’intégrer dans son périmètre de surveillance :

Le cloud : le SOC doit être capable de récupérer des alertes émanant d’outils tels que le CWPP (Cloud Workload Protection Platform) ou le CSPM (Cloud Security Posture Management) ;
Les applications : généralement, leurs données ne sont pas homogènes, ni structurées, et peuvent être à l’origine de failles ;
Et les équipements industriels connectés : le SOC doit pouvoir protéger les environnements industriels grâce à l’évaluation d’alertes provenant de logs ou de sondes réseaux OT/IoT.

Pour une entreprise, il est important de s’équiper d’un SOC construit autour d’un data lake moderne, qui ne sera pas limité par le type de données ingérées. La récupération des alertes depuis ces différents environnements permettra de bâtir un processus clair, capable de s’adapter en temps réel aux évolutions de l’environnement.

Normaliser et enrichir les données du data lake

Collecter les données est une chose, mais les valoriser dans le processus de sécurité opérationnelle en est une autre.

Avant de chercher des corrélations entre les événements de sécurité, les données brutes doivent être normalisées et enrichies. En effet, la donnée doit toujours avoir la même forme indépendamment de l’équipement qui a généré l’information.

L’enrichissement des données est nécessaire pour garantir l’efficacité d’une plateforme. Par exemple, une adresse IP à elle seule ne signifie rien : cette information doit être contextualisée afin d’évaluer son niveau de criticité et de prendre les décisions adaptées.

L’enrichissement et la normalisation des données permettent de disposer d’une vision globale. Ils créent un environnement cohérent sur lequel les modèles d’IA et les orchestrations peuvent fonctionner efficacement. Ce processus limite les faux positifs et génère des alertes plus pertinentes, car mieux triées en amont.

Les technologies les plus utilisées pour la mise en œuvre d’un data lake

Un certain nombre d’acteurs émergent ou continuent de s’affirmer sur ce segment :

Elastic
Snowflake
Databrick
Les solutions des Cloud Provider telles que Microsoft Sentinel ou Google Chronicle

La modularité continue d’évoluer également grâce à des technologies qui permettent d’optimiser tout le reste de la chaine de collecte comme les outils d’ETL (Extract-transform-load). Leur objectif est de mieux cibler la donnée à collecter en optimisant son identification, sa structuration, sa normalisation et son enrichissement :

Cribl
Tenzir
Monad
Tarsal

mySOC vous accompagne pour collecter et enrichir tous types de données. Vous souhaitez en savoir plus sur notre approche ? Découvrez mySOC