Par Thomas Saint-Aubin, CEO Seraphin.legal et Charles Leconte, legal data scientist et co-fondateur de CaseIP
Version complète de l’article publié dans Archimag n° 323 en Open Access sur HAL-Sorbonne
Si les données constituent l’un des principaux actifs immatériels des entreprises, la légalité du processus de collecte automatisée est un préalable indispensable pour pouvoir valoriser ultérieurement ce patrimoine informationnel.
Les savoir-faire en matière de capture, de stockage, d’analyse, de traitement, d’enrichissement et de visualisation des données sont particulièrement recherchés pour rester compétitif. Mais qu’en est-il de la légalité des données ? C’est l’émergence du legal data scientist.
Avant de pouvoir exploiter les données, il faut les collecter. Il existe différents moyens de collecter des datas :
- soit manuellement, ce qui peut nécessiter un temps considérable lorsqu’on cherche à disposer d’un volume important ;
- soit au moyen de méthodes automatiques, via des logiciels, ou scraper, permettant d’obtenir une quantité importante d’informations dans un laps de temps record.
De plus en plus de sociétés ont recours au web scraping pour récupérer le contenu des sites afin d’enrichir leur propre base ou de générer de nouveaux business.
La question de la légalité de cette activité est souvent traitée tardivement, notamment par les investisseurs dans le cadre de la due diligence ou encore au moment de la démarche de mise en conformité RGPD.
Mais comment le droit qualifie et encadre la collecte des données, particulièrement lorsqu’elle est opérée par des robots ? Quelles sont les précautions à prendre pour transformer cet actif numérique en actif valorisable ? Quel est l’état de l’art pour préfigurer un robot juriste scrapeur ?
Qu’est-ce que la scraping ?
« Scraping » est un terme anglais signifiant littéralement « grattage ». Appliqué au web, le terme, , aussi connu sous le nom de web scraping, screen scraping, web data mining, web harvesting, ou web data extraction, renvoie à une technique d’extraction automatisée de contenu structuré. Concrètement, la récupération de données est effectuée par un programme, un script qui va parcourir un site web et extraire les données et les stocker dans le but de les réutiliser sur son propre site.
C’est une technique qu’il ne faut pas confondre avec le web crawling, qui consiste, pour un logiciel, à scanner internet, à naviguer automatiquement de site en site pour collecter des données, dans un but d’indexation, facilitant ainsi la recherche de contenu, comme sur Google par exemple. Le but de cette technique est l’indexation, contrairement au scraping dont le but va être la récupération pure et simple afin de proposer le même contenu sur sa plateforme.
Scraping des données publiques par les entités privées Vs mise à disposition d’un service d’API sur les données publiques de référence
Le scraping est également différent de l’usage d’une interface de programmation applicative (API), permettant au site source de contrôler le transfert des données aux tiers ré-utilisateurs en fournissant un accès gratuit ou payant.
La méthode la plus courante pour réaliser un scraping légal de données est de recenser et de récupérer des données publiques distribuées sous une licence libre et ouverte. Au titre des métadonnées des jeux ouverts sur data.gouv.fr, figurent la licence associée aux données réutilisables. En France il s’agira nécessairement de l’une des licences énumérées dans le décret n° 2017-638 du 27 avril 2017 relatif aux licences de réutilisation à titre gratuit des informations publiques.
Mais au moment des débats sur la création d’un service public de la donnée, consacrée par le décret n° 2017-331 du 14 mars 2017 relatif au service public de mise à disposition des données de référence, une partie des praticiens se prononçait pour la création d’un service public de mise à disposition des API de données de référence, en particulier sur les bases de données publiques juridiques de Légifrance.
L’issu du débat ? Non seulement les données publiques juridiques ne figurent pas dans la liste des neuf premières bases de données de référence mais, la mise à disposition d’API n’a pas été imposée comme une corollaire obligatoire pour ces données essentielles pour l’accès au droit.
Pour récupérer et exploiter l’open data, c’est donc à chacun des acteurs concernés de financer et de mettre en place des pratiques de scraping des données publiques plutôt que de faire reposer cet investissement initial et mutualisé sur les principaux producteurs de données publiques.
Dans le cas du scraping des données publiques juridiques, il faudra donc récupérer les données sur les serveurs FTP de la DILA et collecter l’information relative à la licence associée dans les métadonnées de la page data.gouv.fr afin que le robot scrapeur atteste de la licéité de la collecte de cette source.
A l’international, il faut citer l’initiative du W3C qui cherche à définir des standards dans l’accès aux données, publiques notamment. Ainsi la norme Prov-O permet par exemple de lancer une requête SPARQL sur le web des données pour que le robot collecte par exemple uniquement des sources gouvernementales avec une licence associée.
Scraping des entités privées Vs collecte des métadonnées juridiques associées à un jeu de données
Le scraping connaît un regain d’intérêt depuis 2010 avec l’apparition des activités de growth hacking. Il peut ainsi être utilisé pour alimenter des outils de veille et d’analyse ou pour constituer des fichiers dédiés à la prospection client, en scrapant Linkedin ou un autre site proposant un annuaire par exemple.
La constitution de base de données de prospects et le scraping illégal des réseaux sociaux est une pratique courante chez les growth hacker, d’ailleurs régulièrement enseignée dans les écoles de web-marketing et débattue dans les forums…
Comment encadrer juridiquement la réutilisation des données privées ? Dans la continuité du RGPD ou de la protection du secret des affaires, plusieurs démarches sont en cours.
Le projet DESIGN YOUR PRIVACY, porté par l’écosystème de la PrivacyTech cherche à permettre aux particuliers d’associer des métadonnées juridiques (droits et obligations) à ses données personnelles. Un référentiel des CGU est disponible en Open Data. Les derniers travaux collaboratifs ont permis de créer un référentiel des CGR (pour passer des ‘’conditions générales d’utilisation aux conditions générales de réutilisation’’) et ont été présentés à l’Assemblée Nationale le 10 avril 2019 pour redonner concrètement le contrôle aux personnes concernées par les traitements.
Ces travaux profitent et s’intègrent dans une démarche plus générale de R&D autour de la création de standards juridico-techniques pour concrétiser la reconnaissance d’un droit à la portabilité des données et autour du PrivacyUX . Ces travaux feront l’objet du dépôt de projet européen H2020 début 2020: le consortium, porté par l’association PrivacyTech, est en cours de constitution
Au delà de la problématique des données personnelles, le projet porté par l’INRIA ‘’license your data’’ envisage plus globalement d’associer des métadonnées juridiques à chaque jeu de données disponibles sur le web des données.
Pour éduquer le robot au scraping légal des données c’est probablement à moyen terme la bonne pratique à encourager : c’est à la personne concernée ou au producteur de proposer une version codée du droit applicable et de la licence associée.
Cette pratique, en plein développement dans le cadre des créations de Data Lake dans les grandes entreprises, permet d’associer directement à des données une synthèse des droits et permissions. Cela permettra en outre ultérieurement au robot de pré-évaluer la faisabilité juridique d’un mash-up lors de la création des services et au « juriste augmenté », d’étendre le périmètre de sa prestation classique en droit des données !
Si les dernières innovations en matière de LegalTech et PrivacyTech permettent d’envisager une concrétisation du ‘’Law is Code’’ dans le droit des données et les strategies de valorisation des données , faut-il modifier le cadre juridique applicable ?
Etat du droit applicable au scraping
A l’ère du big data et des pratiques généralisées du scraping des données, Me Nicolas Courtier remet en cause la protection sui generis des producteurs des bases de données de la loi de 1998. ‘’Le droit des producteurs des bases de données repose sur une approche statique des traitements de données : on se concentre sur la création de la base et non sur son utilisation’’.
Du point de vue du propriétaire de la donnée scrapée, qui a investit du temps et de l’argent dans la construction d’une base afin de proposer des services à valeur ajoutée sur une plateforme web, la récupération du fruit de son travail est assimilable à du vol.
En droit positif, plusieurs textes permettent (droit des producteurs de bases de données, directive sur le secret d’affaires, loi Informatique et Libertés pour la protection des données personnelles, action en concurrence déloyale, etc.) permettent de poursuivre le scraping illégal.
En propriété intellectuelle, le droit sui generis consacré en 1998 ( (art. L342-1 du code de la propriété intellectuelle) permet au producteur de la base de données d’interdire, entre autre, « l’extraction, par transfert de la totalité ou d’une partie qualitativement ou quantitativement substantielle du contenu de la base de données sur un autre support, par tout moyen et sous toute forme que ce soit » ou encore « la réutilisation, par la mise à la disposition du public de la totalité ou d’une partie qualitativement ou quantitativement substantielle du contenu de la base, quelle qu’en soit la forme » (art. L342-1 du code de la propriété intellectuelle).
C’est sur ces fondements que le Tribunal de Grande Instance de Paris a condamné, le 1er septembre 2017, le site Entreparticuliers.com (TGI de Paris, 1er septembre 2017, Leboncoin.fr c/ Entreparticuliers.com).
En droit pénal, le législateur a fait de l’extraction de données un délit spécifique. La loi du 24 juillet 2015 a modifié l’article 323-3 du Code pénal qui réprime désormais le fait « d’extraire, de détenir, de reproduire, de transmettre » frauduleusement les données d’un Système de traitement automatisé de données (STAD). Le vol de donnée est donc bien un délit distinct du vol d’une chose matérielle.
La limite de l’application de cette règle au web scraping tient au fait que l’article ne mentionne uniquement les STAD et que le législateur n’en a retenu aucune définition et il semble que le juge en fasse une acceptation large. Ainsi la qualification a été retenue pour le réseau carte bancaire (TGI de Paris, 13eme Ch. Correctionnelle, 25 février 2000) ou encore un disque dur. Reste à savoir si un site web peut bénéficier de cette protection.
Or dans l’économie numérique, la valeur réside dans l’usage.
Même si nous partageons l’idée d’une réforme du droit positif applicable porté par Me Courtier, nous pensons que c’est d’abord une application combinée du droit et de la technique qui permettra d’encadrer juridiquement le scraping de la donnée.
La technologie blockchain, via des licences d’API ou associées à des jeux de données transformées en smarts contracts, permet déjà de tokeniser les licences, de tracer les réutilisations des données et d’en répartir automatiquement le fructus.
Si le droit permet aux entreprises de ne pas être tout à fait démunies en matière de protection de leur patrimoine informationnel et que la legaltech progresse rapidement, elles peuvent également prévenir la récupération de leur données en amont en protégeant leur site.
Comment empêcher le scraping ? Comment se protéger ?
Dans la majorité des cas, le site cible du scraping n’a pas intérêt à laisser le script accéder à ses données.
Aucune technique n’est infaillible mais ces méthodes permettent a minima d’associer à une protection juridique, une protection technique.
La création d’un compte utilisateur
L’une des technique les plus simple pour éviter le scraping est d’exiger la création d’un compte afin de visualiser le contenu du site. Si la création d’un compte est exigée, l’administrateur peut tracer les actions des utilisateurs et facilement détecter les comportements suspects. Cependant, cette technique, qui peut-être dissuasive pour les bots, peut également l’être pour les utilisateurs…
Le bannissement d’ip
Pour bloquer l’accès d’un site aux robots scrapers, l’une des première action qui peut être intenté est la vérification régulière des logs de connexion. En cas d’activité inhabituelle indiquant un accès automatisé, comme par exemple l’indication de plusieurs actions similaires à partir de la même adresse IP, il est toujours possible de bloquer ou limiter cet accès. En bannissant cette IP, le script est bloqué.
Toutefois, de nombreux systèmes utilisent des proxies permettant de changer régulièrement d’adresse IP. Alors la technique ne produit qu’un effet de ralentissement.
Captchas
Il est possible de limiter le nombre d’action de l’utilisateurs dans un temps déterminé. En cas de doute, il est possible d’avoir recours à des Captchas (“Completely Automated Test to Tell Computers and Humans Distinction”) permettant de valider l’identité de l’utilisateur. Cette méthode est également partiellement efficace.
Mais elle irrite les vrais utilisateurs et il existe des logiciels pour les contourner.
Retour d’expérience sur une pratique de scraping légal de données de propriété intellectuelle
La propriété intellectuelle connaît un gisement considérable de données librement réutilisables.
Dans cette matière, plusieurs institutions distribuent des jeux de données, allant de la jurisprudence PI et de titres de droit de PI.
Notre enjeu était de mettre en place un robot juriste scrapeur en capacité de collecter légalement ces données pour pouvoir ultérieurement les exploiter.
Nous avons fonctionné en 4 étapes :
- recensement des jeux de données disponibles à l’international en matière de données de jurisprudence PI ;
- recensement des licences associées et interrogation des institutions productrices (le cas échéant) pour connaître le cadre applicable à la réutilisation ;
- modélisation des métadonnées juridiques associées aux jeux de données récupérées ;
- création du robot scrapeur pour collecter les données, modéliser les méta-données juridiques associés, enrichir sémantiquement les données récupérées et les intégrer à la base.
Ce projet s’appelle CaseIP. L’équipe de datascientists et de legal data scientists de Seraphin le développe au quotidien.
Il intègre aujourd’hui les données de jurisprudence de différents pays à l’international. Notre robot scrapeur développe chaque jour son apprentissage pour apprendre à collecter légalement des données juridiques et nous nous impliquons sur les travaux en cours sur les standards du W3C! A suivre