Durant la dernière décennie, de nombreuses entreprises ont adopté un modèle Data Driven basé sur l’exploitation massive de données pour orienter leurs décisions business ou opérationnelles.  

Cette démocratisation de l’utilisation des données est notamment due à l’émergence des technologies Cloud qui ont permis d’exécuter des traitements complexes sur de très grands jeux de données et de conserver un TCO maîtrisable. Toutefois, un inconvénient majeur s’est rapidement présenté : le manque de maîtrise (ou de confiance) sur la localisation des données. Ce dernier point tend aujourd’hui à disparaître, puisque la majorité des cloud providers intègrent à présent dans leur offre le choix du data center, et donc du pays d’hébergement (localisation UE/US…). 

Remarque : la maîtrise de l’information d’entreprise mise sur le cloud (et plus largement internet) est au centre de l’actualité sur la sécurisation des usages de ChatGPT. À titre d’exemple, Microsoft intègre dans l’offre Azure Open AI la possibilité d’étancher l’utilisation des données d’entreprise pour améliorer la pertinence de l’IA sur ses cas d’usage internes, tout en garantissant que ces données (potentiellement confidentielles ou personnelles) ne seront jamais exposées en dehors de l’entreprise.  

Dans un même temps, les États (particulièrement en Europe) ont largement renforcé la règlementation visant à protéger l’utilisation de données personnelles. Ils ont imposé un cadre de protection et exploitation de données de plus en plus strict, comme en témoignent les sanctions prévues en cas de non-respect de cette règlementation. 

Quelques chiffres présentés ci-après permettent de mieux appréhender la mise en application de ces contrôles. Par exemple, en Europe, les sanctions s’établissaient à 1,2 Mds€ en 2021 contre plus de 2,92 Mds€ en 2022 (dont 100 M€ en France). 

Au-delà des quelques amendes historiques (comme celle infligée à Amazon pour 746 M€ en 2022 ou 405 M€ infligée à Meta pour manquement à la protection de données personnelles des enfants sur Instagram), la forte hausse du nombre de condamnations est notable. 

Autre fait marquant, la démocratisation des services d’intelligence artificielle auprès du grand public, qui pousse les instances de régulation Européenne à suivre de près le sujet. Nous pouvons citer par exemple une amende de 7 M£ donnée par l’ICO britannique à la société de reconnaissance faciale ClearView AI. 

Pour prévenir ces risques et promouvoir une image éthique de leurs activités, nombre de sociétés s’organisent pour améliorer la sécurité et confidentialité de leurs données, à fortiori celles revêtant un caractère personnel. Les entreprises les plus matures disposent d’un Data Controller – personne en charge de la supervision et de la qualification des traitements informatiques. Ce rôle vient en complémentarité du DPO (data privacy officer), qui a une responsabilité vis-à-vis des instances de contrôle pour faire appliquer la règlementation par l’entreprise. 

En effet, les techniques de traitement de la confidentialité sont multiples et plus ou moins complexes. Il apparait donc nécessaire de bien étudier chaque cas d’usage en amont et d’appliquer une solution adaptée. 

Dans la suite de l’article, nous proposons d’explorer certaines de ces approches.  

Panorama des solutions existantes  

Les approches les plus fréquemment utilisées sont :  

  • La gestion des identités et des accès ;  
  • Le cryptage ;  
  • L’anonymisation.

La gestion des identités et des accès (IAM) permet de limiter l’accès à un groupe défini de personnes. Nous recommandons de suivre le principe de moindre privilège, c’est-à-dire le fait de limiter les permissions d’accès aux ressources au juste nécessaire pour effectuer une tâche. Si besoin, il convient d’utiliser un modèle d’accès aux rôles de base (RBAC) qui peut être affiné via des listes de contrôle d’accès (ACL). 

Remarque : les Cloud providers intègrent nativement des fonctions de sécurisation dans leur offre de service à l’instar de VMs protégées proposées par Google Cloud.  

 La pseudonymisation est une technique qui permet de « masquer » la lecture directe des données confidentielles. Les données sont remplacées par un code (« tokenisation ») selon différentes techniques (chiffrement déterministe, conservant le format, clé cryptographique…). Ces techniques de chiffrements sont réversibles. Elles permettent donc de revenir à la donnée initiale. En conséquence, ces traitements doivent être soumis à déclaration auprès de la CNIL et ne perdurer que le temps de la finalité déclarée.  

Les clés de cryptage peuvent être utilisées sur des données personnelles ou pour des raisons de sécurité sur des systèmes de fichiers pour en protéger l’accès (en cas de vol par exemple).  

L’anonymisation est un concept plus complexe et abstrait que les solutions précédemment évoquées. Selon une définition de la CNIL, l’anonymisation consiste à « utiliser un ensemble de techniques de manière à rendre impossible, en pratique, toute identification de la personne par quelque moyen que ce soit et de manière irréversible. » 

Par exemple, les données peuvent être masquées via des techniques de hachage cryptographique, puis encodées. Cette technique permet de créer un jeton à sens unique, qui ne permet pas de revenir à la donnée d’origine.   

Mais dans certains cas, ces techniques ne sont pas suffisantes. Par recoupement entre différentes informations (internes ou par croisement avec des données externe), il peut arriver que l’identité ou les données personnelles liées à la personne puissent être retrouvées. Plusieurs exemples de croisement sont à ce titre devenus des cas d’école, comme l’identification d’une personne anonymisée sur la base d’attributs particuliers (ville, date de naissance…). 

Il est par conséquent indispensable de prendre en considération l’ensemble des attributs ou données qui par recoupement permettraient de retrouver une information devant être protégée dans une démarche d’anonymisation. 

La confidentialité différentielle : quel usage ?   

La confidentialité différentielle (DP) est une technique dont l’objet est de protéger la confidentialité en injectant du « bruit » dans les données : en modifiant certaines valeurs, il doit rester un doute sur la véracité de l’information même si l’identification de la personne est retrouvée par recoupement. 

Cette technique a donc un impact sur la précision de la base de données (des données sont faussées), mais reste totalement exploitable sur des usages analytiques ou statistiques (ou d’IA). L’approche consiste à substituer des valeurs des variables en utilisant un algorithme (plus ou moins simple).   

Par exemple, sur une valeur pour laquelle la réponse est binaire (vrai ou faux) : imaginons que l’on lance une pièce pour déterminer si la valeur initiale est modifiée ou pas. Si la pièce tombe sur face, la réponse reste « vrai ». Si cela tombe sur pile, un deuxième lancé est effectué. S’il tombe sur face, la réponse reste « vrai », et s’il tombe sur pile, la valeur devient « faux ». 

Les « variant twins » 

Ce concept consiste à hybrider les différentes techniques pour obtenir une information totalement anonymisée et optimisée pour différents usages (d’où l’idée de variants). 

 Il est notamment porté par des plateformes dédiées à la sécurisation des données, comme Anonos (white paper variant twins).

Les solutions sur étagère

Dans le domaine du marketing, nous voyons par exemple l’émergence de plateformes dédiées au partage de données publicitaires respectant les contraintes réglementaires.   

À ce titre, Google lance Ads Data Hub en 2017, suivi par les solutions de Facebook et d’Amazon. Aujourd’hui, ils sont tous les trois connus comme des « data clean rooms » : soit un environnement isolé et sécurisé au sein duquel les éditeurs et annonceurs peuvent combiner, faire correspondre et analyser des ensembles de données anonymisés, tout en collaborant. 

Pour aller plus loin  

Le respect de la confidentialité des données est un défi majeur pour tous les intervenants dans un écosystème data. Il nécessite la mobilisation de tous les acteurs comme les cloud ops, cloud architects, statisticiens, data analysts et data scientists et bien sur les « data controllers », dont la présence devrait se démultiplier rapidement dans les entreprises.  

Il est important de comprendre que, bien que les solutions à mettre en œuvre soient très techniques, la bonne tactique dépend avant tout de la portée fonctionnelle de l’information et des cas d’utilisation souhaités.  

Nos experts sont à votre disposition pour établir les diagnostics sur la sensibilité de vos données et vous guider vers les bonnes stratégies d’implémentation.  

  

Rédigé par Alexander MIKHEEV, Lead Tech Engineer au sein de notre département Data Driven

Articles recents