Le Web Scraping est-il légal ?

Le "web scraping" est légal

Le "web scraping" est légal, pour l'essentiel.

Il en va de même pour la conduite d'une voiture... jusqu'à ce que vous enfreigniez la loi.

Cependant, les règles ne sont pas aussi claires en ce qui concerne le "web scraping" qu'en ce qui concerne le code de la route.

Cet article présente ce qu'il faut savoir sur le web scraping, y compris ses aspects juridiques, son fonctionnement et quelques idées fausses courantes associées au web scraping.

Qu'est-ce que le web scraping ?

Le web scraping est une technique de collecte de données que vous pouvez utiliser pour extraire des informations de l'internet.

For a simple introduction to web scraping, this blog post lays the groundwork.

In a nutshell, automated scripts or programs gather data by crawling, APIs, HTML parsing tools, and screen capturing software.

Il suit le code source HTML, extrait les données non structurées et les analyse en données structurées. Le web crawler suit des instructions sur la manière dont chaque page web doit être parcourue, sur les éléments qui doivent être extraits et sur l'endroit où les résultats doivent aller dans leur propre application.

En substance, il s'agit d'écrire des instructions en langage de programmation informatique et de comprendre quelles parties d'un document HTML contiennent des types spécifiques de contenu à extraire. Il peut s'agir de chaînes de texte, de chiffres/dates/valeurs monétaires, de liens vers des médias sociaux, etc.

Pourquoi utiliser des extracteurs de données web de sites web ?

Les données qui aident à prendre des décisions sont précieuses. Si je devais énumérer toutes les raisons qui justifient la collecte automatisée de données, cela prendrait beaucoup de temps. Mais voici quelques exemples courants :

  • Extraire des données sur les sites web ou les services en ligne des concurrents pour prendre l'avantage sur eux
  • Améliorer le classement dans les moteurs de recherche grâce à l'analyse des liens. Par exemple, les robots d'indexation peuvent être configurés pour suivre les liens entre les messages des médias sociaux qui fournissent des informations précieuses sur la manière dont les utilisateurs réagissent à des sujets spécifiques.
  • Organiser de grandes quantités de textes non structurés sous une forme structurée, telle que des feuilles de calcul, afin d'en faciliter l'analyse.
  • Créer des portails web permettant aux utilisateurs de rechercher et de naviguer sur le web en rassemblant en un seul endroit divers types de contenus provenant de nombreuses pages web différentes.
  • Collecter des données qui ne sont pas disponibles via des API ou des formulaires, telles que des vidéos, des fichiers audio, des images, etc....
  • Surveiller les pages web d'un sujet particulier ou d'un concurrent pour détecter les changements et mettre automatiquement à jour les données dans d'autres applications.

Pourquoi cette mauvaise réputation ?

Le "web scraping" est inoffensif si l'extraction des données se fait sans enfreindre les règles ou les lois qui régissent les cibles. Mais ce n'est pas toujours le cas. Des personnages malveillants ou des pirates informatiques exploitent délibérément le web scraping en permanence. Parmi toutes les violations, le vol de données est la plus répandue.

Il n'est pas nécessaire d'être un pirate informatique pour contrarier le propriétaire du site.

Dans le processus de web scraping, vous envoyez de nombreuses requêtes à un site web pour obtenir des informations. Bien plus qu'un utilisateur lambda. Sans aucun égard pour le site, cela peut provoquer une charge massive et, dans certains cas, faire planter un serveur.

Ce qui peut coûter cher.

Les attaques DDOS sont dues à une surcharge, il n'est donc pas surprenant que les extracteurs de données web de sites web à la recherche de requêtes soient mal vus.

Si le web scraping peut être très utile, il est essentiel de rester dans les limites de la légalité, afin de ne pas risquer d'enfreindre la loi !

Toutefois, nous attendons toujours une décision définitive (du moins aux États-Unis) sur la question de savoir si les logiciels de "web scraping" constituent une violation du droit d'auteur. Certains tribunaux se sont prononcés contre cette pratique, tandis que d'autres sont favorables à sa légalité.

Tant que cette question n'est pas réglée, la prudence est donc de mise.

Jurisprudence sur le web scraping

Les décisions de justice créent un précédent juridique pour les affaires à venir. À l'heure actuelle, la légalité du web scraping semble quelque peu ambiguë, mais il est bon d'être au courant des décisions qui ont été prises.

Je me concentrerai sur les affaires phares de scraping qui ont ouvert la voie à de futures plaintes juridiques concernant le scraping, telles que la violation des droits d'auteur ou la loi sur la fraude et l'abus informatiques (Computer Fraud and Abuse Act - CFAA).

Facebook vs. Power Ventures (2011)

Il s'agit de l'un des nombreux litiges très controversés avec Google en ce qui concerne ses politiques de confidentialité. Facebook a poursuivi Power Ventures pour avoir collecté les données de ses utilisateurs et les avoir affichées sur son propre site web.

La décision a été rendue en faveur de Facebook, qui avait porté plainte contre Power Ventures pour violation de la loi CAN-SPAM, de la CFAA, de la DMCA et des lois sur les droits d'auteur.

Associated Press and Meltwater (2013)

En mai 2010, l'Associated Press a intenté un procès à une société de surveillance des médias numériques appelée Meltwater, qui utilisait une technologie d'exploration du web pour rechercher des articles.

L'A.P. a affirmé qu'elle n'était pas rémunérée pour son travail car celui-ci était dupliqué, ce qui lui permettait d'avoir accès à un contenu gratuit.

Dans ce cas, les extracteurs de données web de sites web ont été jugés illégaux parce qu'ils sapaient la valeur du travail d'A.P. en le rendant disponible gratuitement.

Ryanair v. PR Aviation (2015)

P.R. Aviation est un service d'agrégation des prix des vols qui utilise la capture d'écran pour obtenir les prix du site en ligne de Ryanair. Le 15 janvier, la Cour de justice de l'Union européenne a rendu une décision qui pourrait avoir une influence considérable sur les exploitants de bases de données de sites web et sur ceux qui pratiquent le "screen-scraping" (tels que les sites de comparaison de prix). 

L'arrêt suggère que les propriétaires de sites peuvent faire respecter les conditions de leur site web par le biais d'accords contractuels. Cela signifie que même les données accessibles au public peuvent être protégées.

HiQ Labs v. LinkedIn (2019)

Les laboratoires HiQ peuvent collecter des données à partir des profils LinkedIn publics afin d'offrir à l'entreprise des outils permettant de connaître les points de vue des employés. HiQ a demandé une injonction au tribunal. Elle a été accordée, ce qui a conduit LinkedIn à cesser d'envoyer des lettres C&D et à appliquer des mesures de blocage à l'encontre de HiQ.

LinkedIn est revenu sur sa décision un jour plus tard, déclarant qu'elle avait violé l'article 2 de la CFAA. Cette décision est favorable aux entreprises de scraping et réaffirme la certitude de la pratique judiciaire récemment adoptée en ce qui concerne l'applicabilité de la loi.

Peut-on vraiment s'attirer des ennuis en scrappant des données ?

La réponse courte est oui ! Il existe des lois qui protègent les entreprises propriétaires du contenu de leur site web contre l'accès non autorisé par des tiers, tels que les robots d'indexation ou d'autres programmes logiciels automatisés.

La réponse dépend de l'endroit où vous vivez, mais en général, il y a au moins cinq questions juridiques que vous devez connaître :

  • Violation des droits d'auteur
  • Diffamation de la personnalité ou des pratiques commerciales
  • Droit à la vie privée/droits à la publicité
  • Détournement (vol) de contenu web
  • Techniques de piratage pour accéder aux contenus web

Il s'agit des questions juridiques les plus importantes que vous devez connaître lorsque vous poursuivez la collecte de données. Toutefois, il ne s'agit pas d'une liste exhaustive, mais plutôt d'un résumé général qui peut varier en fonction de votre lieu de résidence et du propriétaire du site web en question.

Pour obtenir des informations plus détaillées sur votre situation géographique, veuillez consulter un avocat spécialisé dans le droit de l'internet au sein de votre juridiction. Cet article ne constitue PAS un avis juridique professionnel !

Pour éviter d'enfreindre l'une de ces lois, vous devez vous assurer de la nature publique ou privée des informations et de la manière dont ils souhaitent que la collecte de données soit effectuée sur leur site web. Que ce soit par le biais d'un formulaire web ou d'une clé API, par exemple.

Les sites web affichent souvent des avis juridiques comme celui-ci :

"Ce site peut contenir du matériel protégé par des droits d'auteur qui a été utilisé avec l'autorisation de ses propriétaires. Si vous voyez une telle mention, cela signifie que le propriétaire de cette page n'autorise pas le "web scraping" sans un accord écrit préalable ou un accord entre les parties concernées.

Il en va de même s'il n'y a aucune mention des scraper bots. Il se peut que leurs webmasters interdisent le scraping de données sur leurs sites web. Dans ce cas, vous ne devez pas tenter d'y accéder sans l'autorisation écrite du ou des propriétaires. Il est toujours préférable de demander d'abord la permission !

Les lois sur le web scraping

Nous avons abordé quelques affaires judiciaires et la manière dont elles peuvent donner lieu à des lois spécifiques. Voici un résumé des infractions que vous pourriez prendre en considération avant de commencer vos prochains projets de "web scraping" :

  • The Digital Millennium Copyright Act (DMCA) is a U.S. law that makes using web scrapers illegal on websites that you don’t own. For example, news sites or any site with user-generated content such as Facebook groups; however, this does not apply if your use falls under fair use.
  • Le Computer Fraud and Abuse Act (CFAA) est une loi américaine qui rend le "web scraping" illégal si vous contournez les mesures de sécurité ou si vous accédez intentionnellement au web sans autorisation. Toutefois, cette loi ne s'applique pas à l'utilisation d'applications qui sont des outils open source, publics et non commerciaux qui vous permettent d'extraire des données web gratuitement. Ces outils de "web scraping" relèvent du "fair use" et peuvent donc être utilisés en toute légalité sur des sites web dont le contenu est généré par les utilisateurs, tels que les groupes Facebook.
  • L'atteinte aux biens est un terme juridique qui désigne l'utilisation injuste d'une propriété numérique. Il peut s'agir de web scraping si vous utilisez un web scraper pour récolter des données sans autorisation.
  • Les conditions d'utilisation et les politiques de confidentialité peuvent interdire le web scraping sur des pages spécifiques.
  • Les propriétaires de contenu peuvent invoquer une violation des droits d'auteur parce qu'ils estiment que leur travail a été copié sans autorisation.
  • Les fournisseurs d'accès à Internet (FAI) peuvent bloquer les extracteurs de données web de sites web s'il s'agit d'une pratique illégale.
  • Le propriétaire d'un site web peut intenter une action en justice contre toute entreprise dont le taux d'exploration élevé provoque une panne du serveur ou porte atteinte à sa propriété intellectuelle. Veillez à ce que les dommages ne soient pas causés de quelque manière que ce soit. Vous ne pouvez pas être tenu pour responsable si vous causez des dommages aux conditions et aux biens de cet espace.

Découvrez comment les proxys résidentiels peuvent vous sauver la mise lorsque vous scrapez des données.

Conditions d'utilisation et scraping

Les sites web devraient-ils restreindre légalement le scraping de données ? C'est possible. Rien n'empêche les exploitants de sites web d'établir des contrats incontournables pour accéder à leur contenu.

Ces dispositions prouveront-elles réellement leur caractère exécutoire ? La théorie juridique qui sous-tend la capacité d'exécution des contrats est assez complexe. Néanmoins, il vaut la peine de jeter un coup d'œil sur quelques accords en circulation.

Accords d'enveloppement

Les accords se trouvent généralement sur la page d'accueil ou dans une fenêtre contextuelle. Les théories juridiques ignorent généralement la valeur juridique de ces contrats. (Tout le monde n'autorise pas les fenêtres pop-up)

Toutefois, il existe des études de cas bien accueillies sur Wikipédia qui se prononcent en faveur d'accords de type "browsewrap".

Accords Clickwrap

Clickwrap est un contrat honnête et raisonnable qui devrait être appliqué si les tribunaux le veulent. Ce type de contrat est très répandu dans les boutiques en ligne et les formulaires d'inscription. Le contrat Clickwrap exige une action de la part de l'utilisateur et non une simple navigation.

Comme le montre l'exemple de l'affaire Ryanair, les tribunaux appliquent facilement ces décisions.

La plupart du temps, oui !

Le "web scraping" est un outil incroyable pour les entreprises qui cherchent à développer leurs activités avec des ressources supplémentaires ou de nouvelles perspectives dans leurs études de marché. Le web contient de nombreux types de contenus qui devraient toujours rester libres d'accès pour le public, à moins qu'ils ne soient strictement réglementés par des conditions d'utilisation préalables.

6 Questions à se poser avant de gratter

Posez-vous ces 6 questions pratiques sur l'éthique du web scraping pour être plus conforme.

Utilisez-vous des données protégées par le droit d'auteur ?

Une grande partie du contenu de l'internet fait l'objet d'une forme ou d'une autre de droit des marques. La musique, les nouvelles, les blogs, les mémoires, les images, les magazines, les bases de données et les logos sont potentiellement protégés par le droit d'auteur.

L'utilisation irresponsable de matériel copié ou de données récupérées enfreint les droits d'auteur. Dans de nombreuses juridictions, cela peut être considéré comme du "scraping" sur internet basé sur l'éthique. Cela implique toutefois de récupérer des données copiées à partir d'une autre source ou de les distribuer illégalement. Dans certaines situations, il est nécessaire de récupérer du contenu protégé par des droits d'auteur à des fins d'analyse. Dans ce cas, vous devez réfléchir à la manière dont vous les utilisez.

Utilisez-vous des données non publiques ?

Les sites web laissent généralement leurs informations en libre accès. Les données accessibles au public peuvent être récupérées tant qu'elles sont sûres.

Les données non publiques sont des données qui ne sont pas accessibles à tout le monde sur le web. Si les données proviennent de pages dont l'accès nécessite des identifiants, elles ne sont pas accessibles au public.

Utilisez-vous des données personnelles ?

Les réglementations relatives à l'accès et à l'utilisation des données personnelles varient d'une juridiction à l'autre. S'il n'y a pas de problème pour extraire des données personnelles dans certains États américains, vous risquez d'avoir des ennuis en Californie. L'Union européenne est très sensible aux informations personnelles. Il peut donc être utile d'examiner le règlement sur la protection des données (GDPR) avant de récupérer de telles données.

Le taux d'exploration est-il tolérable ?

Les sites web de scraping peuvent surcharger leurs serveurs et les faire tomber en panne. La plupart des sites web proposent une directive "crawl delay" dans tout fichier robot.txt qu'ils possèdent. Supposons que la page ne spécifie pas la directive "crawl-delay". Dans ce cas, la durée moyenne de la requête est de 20 secondes au taux le plus élevé possible.

Respectez-vous les conditions d'utilisation ?

Les accords de ToU peuvent être des accords de type "browse-over" ou "click-over". Les accords par clic sont ceux pour lesquels l'utilisateur clique sur des boutons, tandis que les accords par navigation ne requièrent aucune action de la part de l'utilisateur.

Si vous respectez toutes les conditions énoncées, vous n'aurez aucun problème avec vos activités de web scraping.

Respectez-vous le fichier robots.txt ?

Le protocole d'exclusion des robots est la norme web pour les robots web. Robots.txt vous indique les parties d'un site web que vous pouvez explorer et indexer, et celles qui doivent être exclues.

Conclusion

Lorsque vous récupérez des données sur le web, veillez à respecter les limites légales en tenant compte des lois sur les droits d'auteur et des accords sur les conditions d'utilisation concernant la vitesse à laquelle un contenu doit être exploré. Vous devez également éviter d'accéder à des informations privées, surtout s'il s'agit de données personnelles.

In this Article:
Leave behind the complexities of web scraping.
Opt for IPBurger’s advanced web intelligence solutions to effortlessly collect real-time public data.
S'inscrire

Plongez encore plus profondément dans l', la

Proxies
AJ Tait
The Best HydraProxy Alternative for Reliability, Speed & Transparency

Why More Users Are Looking for a HydraProxy Alternative At first glance, HydraProxy seems like a solid choice. It’s affordable.It offers rotating and static residential proxies.And it gives users flexibility with pay-as-you-go pricing. For casual users? That’s enough. But for data scrapers, sneaker coppers, SEO specialists, and automation users who

Proxies
AJ Tait
The Best Storm Proxies Alternative: Faster, Safer & More Affordable Proxies

Looking for a Storm Proxies Alternative? Storm Proxies sells the dream: simple, affordable proxies that “just work.” And for some users? It kind of delivers. Until it doesn’t. Because here’s the reality—if you’re pulling small data sets, running light scraping jobs, or dipping your toes into sneaker copping, Storm Proxies

Scale Your Business
With The Most Advanced
Proxies On Earth
Rejoignez le premier réseau de proxy primé