Законен ли веб-скрепинг?

легальный веб-скрепинг

Веб-скрапинг в большинстве случаев является законным.

Так же, как и вождение автомобиля... пока вы не нарушаете закон.

Однако в отношении веб-скрапинга правила не столь однозначны, как, например, в отношении правил дорожного движения.

В этой статье мы расскажем о том, что необходимо знать о веб-скрапинге, в том числе о его законности, принципах работы и некоторых распространенных заблуждениях, связанных с веб-скрапингом.

Что такое веб-скрапинг?

Веб-скрапинг - это техника сбора данных, которую можно использовать для извлечения информации из Интернета.

For a simple introduction to web scraping, this blog post lays the groundwork.

In a nutshell, automated scripts or programs gather data by crawling, APIs, HTML parsing tools, and screen capturing software.

Он работает, следуя за исходным кодом HTML, извлекая неструктурированные данные и разбирая их на структурированные. Веб-краулер следует инструкциям о том, как должна быть просмотрена каждая веб-страница, какие элементы должны быть извлечены и куда эти результаты должны быть помещены в собственном приложении.

По сути, это означает написание инструкций на языке компьютерного программирования и понимание того, какие части HTML-документа содержат определенные типы контента для извлечения. Например, текстовые строки, числа/даты/валютные значения, ссылки на социальные сети и т.д..

Зачем нужны веб-скраперы?

Данные, которые помогают принимать решения, очень ценны. Если перечислять все причины, по которым необходимо автоматизировать сбор данных, то это займет много времени. Но вот несколько наиболее распространенных примеров:

  • Извлечение данных о веб-сайтах или онлайн-сервисах конкурентов для получения преимуществ перед ними
  • Повышение рейтинга поисковых систем за счет анализа ссылок. Например, веб-краулеры могут быть настроены на переход по ссылкам между сообщениями в социальных сетях, что позволяет получить ценную информацию о реакции пользователей на конкретные темы.
  • Организовывать большие объемы неструктурированного текста в структурированную форму, например, в электронные таблицы, что облегчает его анализ.
  • Создание веб-порталов, позволяющих пользователям осуществлять поиск и просмотр информации в Интернете путем объединения в одном месте различных видов контента с различных веб-страниц.
  • Сбор данных, недоступных через API или формы, таких как видео, аудио, изображения и т.д.....
  • Мониторинг веб-страниц определенной тематики или конкурентов на предмет изменений и автоматическое обновление данных в других приложениях

Почему такая плохая репутация?

Веб-скрапинг безвреден, если извлечение данных происходит без нарушения каких-либо правил или законов, регулирующих деятельность объектов. Однако это не всегда так. Недобросовестные персонажи или хакеры постоянно используют веб-скрапинг в своих целях. Среди всех нарушений наиболее распространенным является хищение данных.

Не нужно быть хакером, чтобы обидеть владельца сайта.

В процессе веб-скрапинга вы посылаете на сайт множество запросов для получения информации. Гораздо больше, чем обычный пользователь. Не обращая внимания на сайт, это может вызвать огромную нагрузку и в некоторых случаях привести к падению сервера.

Что может быть дорогостоящим.

DDOS-атаки происходят из-за перегрузки, поэтому неудивительно, что веб-скраперы, работающие по запросам, не одобряются.

Хотя веб-скрапинг может быть очень полезен, очень важно оставаться в рамках правового поля, чтобы не нарушать никаких законов!

Однако мы все еще ждем окончательного решения (по крайней мере, в США) о том, является ли программное обеспечение для веб-скрапинга нарушением авторских прав. Некоторые суды выносят отрицательные решения, в то время как другие выступают за их законность.

Поэтому до тех пор, пока этот вопрос не будет решен, следует проявлять осторожность.

Судебные дела по веб-скрапингу

Решения, вынесенные по судебным делам, создают правовой прецедент для будущих дел. На сегодняшний день законность веб-скрапинга представляется несколько неоднозначной, однако полезно знать, какие решения уже были приняты.

Я остановлюсь на основных делах, касающихся скраппинга, которые заложили основу для будущих судебных исков по скрапингу, таких как нарушение авторских прав или Закон о компьютерном мошенничестве и злоупотреблениях (CFAA).

Facebook vs. Power Ventures (2011)

Это один из многих весьма противоречивых споров с компанией Google по поводу ее политики конфиденциальности. Facebook подала в суд на компанию Power Ventures за сбор данных пользователей и их размещение на собственном сайте.

Решение было принято в пользу компании Facebook, которая подала жалобу на то, что Power Ventures нарушила CAN-SPAM Act, CFAA, DMCA и законы об авторском праве.

Associated Press and Meltwater (2013)

В мае 2010 г. агентство Associated Press подало в суд на компанию Meltwater, занимающуюся мониторингом цифровых СМИ и использующую технологию веб-ползунков для поиска материалов.

A.P. утверждает, что они не получают оплаты за свою работу, поскольку она дублируется, что позволяет им получить доступ к бесплатному контенту.

В данном случае веб-скраперы были признаны незаконными, поскольку они подрывали ценность работы А.П., делая ее доступной бесплатно.

Ryanair v. PR Aviation (2015)

P.R. Aviation - это сервис по агрегации цен на авиабилеты, который использует экранный скриптинг для получения информации о ценах на сайте авиакомпании Ryanair. 15 января Суд Европейского Союза принял решение, которое может оказать существенное влияние как на операторов баз данных сайтов, так и на тех, кто занимается "скриптингом" (например, сайты сравнения цен). 

Постановление предполагает, что владельцы сайтов могут обеспечивать соблюдение условий своего сайта на основе договорных соглашений. Это означает, что даже общедоступные данные могут быть защищены.

HiQ Labs v. LinkedIn (2019)

Лаборатории HiQ могут собирать данные из открытых профилей LinkedIn, чтобы предложить бизнесу инструменты для изучения мнений сотрудников. HiQ обратилась в суд с просьбой о запрете. Оно было удовлетворено, в результате чего LinkedIn прекратила рассылку писем C&D и применение блокирующих мер против HiQ.

Через день LinkedIn отменила это решение, заявив, что нарушила Раздел 2 CFAA. Решение было принято в пользу компаний, занимающихся скрапбукингом, и подтвердило определенность недавно принятой судебной практики в отношении применимости закона.

Могут ли у вас возникнуть проблемы при соскабливании данных?

Короткий ответ - да! Существуют законы, защищающие компании, владеющие контентом на своих сайтах, от несанкционированного доступа третьих лиц, таких как боты-скреперы или другие автоматизированные программы.

Длинный ответ зависит от того, где вы живете, но в целом существует по крайней мере пять юридических вопросов, о которых вам следует знать:

  • Нарушение авторских прав
  • Дискредитация личности или деловой практики
  • Право на неприкосновенность частной жизни/право на публичность
  • Неправомерное присвоение (кража) веб-контента
  • Методы взлома для получения доступа к веб-контенту

Это наиболее важные юридические вопросы, о которых необходимо знать при сборе данных. Однако это не исчерпывающий список, а скорее общее резюме, которое может варьироваться в зависимости от места проживания и владельца сайта.

Для получения более подробной информации о вашем географическом положении, пожалуйста, проконсультируйтесь с юристом, специализирующимся на интернет-праве в вашей юрисдикции. Данная статья НЕ является профессиональной юридической консультацией!

Чтобы избежать потенциального нарушения этих законов, следует уточнить, какая информация является общедоступной, а какая - частной, и каким образом они хотят, чтобы сбор информации осуществлялся на их сайте. Например, через веб-форму или API-ключ.

На сайтах часто размещаются юридические уведомления, подобные этому:

"Данный сайт может содержать материалы, защищенные авторским правом, которые были использованы с разрешения их владельцев". Если вы видите такое уведомление, это означает, что владелец данной страницы не разрешает веб-скрапинг без предварительного письменного согласия или соглашения между заинтересованными сторонами.

То же самое можно сказать и о ботах-скреперах, если они вообще не упоминаются. Их веб-мастера могут запретить скреперные данные на своих сайтах. В таких случаях не следует пытаться получить доступ к ним без письменного разрешения владельца (владельцев). Всегда лучше сначала спросить разрешения!

Законодательство в области веб-скрапинга

Мы рассмотрели некоторые судебные дела и то, как из них могут вытекать конкретные законы. Ниже приводится краткое описание нарушений, о которых следует подумать, прежде чем приступать к следующим проектам по веб-скрапингу:

  • The Digital Millennium Copyright Act (DMCA) is a U.S. law that makes using web scrapers illegal on websites that you don’t own. For example, news sites or any site with user-generated content such as Facebook groups; however, this does not apply if your use falls under fair use.
  • Закон о компьютерном мошенничестве и злоупотреблениях (CFAA) - это американский закон, согласно которому веб-скрапинг считается незаконным, если вы обходите меры безопасности или намеренно получаете несанкционированный доступ к Интернету. Однако это не относится к использованию приложений с открытым исходным кодом, общедоступных, некоммерческих инструментов, позволяющих бесплатно извлекать данные из Интернета. Такие инструменты подпадают под понятие "добросовестное использование", поэтому их использование на сайтах с пользовательским контентом, таких как группы Facebook, вполне законно.
  • Посягательство на имущество - это юридический термин, обозначающий неправомерное использование цифровой собственности. Это может быть веб-скрапинг, если вы используете веб-скрейпер для сбора данных без разрешения.
  • Условия предоставления услуг/политики конфиденциальности могут запрещать веб-скрапинг на определенных страницах, поэтому всегда проверяйте их, прежде чем принимать решение о скраппинге данных.
  • Владельцы контента могут заявить о нарушении авторских прав, поскольку считают, что их работа была скопирована без разрешения.
  • Веб-скреперы могут быть заблокированы провайдерами Интернета (ISP), если веб-скрапинг является незаконным.
  • Владелец сайта может подать судебный иск против компании, чья высокая скорость захвата приводит к падению сервера или нарушает его интеллектуальную собственность. Убедитесь, что ущерб не нанесен никаким образом. Вы можете не нести ответственности, если нанесете какой-либо ущерб условиям и товарам этой зоны.

Узнайте, как резидентные прокси-серверы могут спасти вашу задницу во время сбора данных.

Условия использования и скрапбукинг

Должны ли веб-сайты законодательно ограничивать скрапинг данных? Возможно, это и так. Ничто не мешает операторам сайтов заключать неизбежные контракты на доступ к их содержимому.

Будут ли эти положения действительно подтверждать возможность принудительного исполнения? Юридическая теория, лежащая в основе способности договора к исполнению, достаточно сложна. Тем не менее, стоит взглянуть на некоторые договоры, находящиеся в обращении.

Соглашения по обмену информацией

Обычно такие договоры можно найти на домашней странице или в виде всплывающего окна. Юридические теории, как правило, игнорируют правовое значение таких договоров. (Не все разрешают всплывающие окна)

Однако в Википедии есть хорошо известные примеры решений, вынесенных в пользу соглашений browsewrap.

Соглашения Clickwrap

Clickwrap - это честный и разумный договор, который должен исполняться, если этого захотят суды. Этот тип соглашения широко распространен в интернет-магазинах и в формах регистрации. Соглашение Clickwrap требует действия со стороны пользователя, а не только просмотра сайта.

Как показывает пример из дела Ryanair, суды охотно исполняют эти решения.

В основном, да!

Веб-скрапинг - это невероятный инструмент для компаний, стремящихся расширить свой бизнес за счет дополнительных ресурсов или получить новые данные для исследования рынка. В Интернете имеется множество видов контента, который всегда должен оставаться свободным для публичного доступа, если это не регламентировано заранее условиями использования.

6 вопросов, которые нужно задать себе, прежде чем приступать к соскобу

Задайте себе эти 6 практических вопросов об этике веб-скрапинга, чтобы быть более законопослушным.

Вы используете данные, защищенные авторским правом?

На многие материалы, размещенные в Интернете, распространяются те или иные права на товарные знаки. Музыка, новости, блоги, диссертации, фотографии, журналы, базы данных и логотипы потенциально являются объектами авторского права.

Безответственное использование скопированного материала или соскобленных данных нарушает авторские права. Во многих юрисдикциях это вполне может считаться интернетскрапингом, основанным на этических нормах. Однако под этим подразумевается скрапинг любых данных, скопированных из другого источника, или их незаконное распространение. Некоторые ситуации требуют соскабливания защищенного авторским правом контента для целей анализа. В таких случаях необходимо продумать способ их использования.

Занимаетесь ли вы сбором непубличных данных?

Как правило, веб-сайты хранят свою информацию в свободном доступе. Общедоступные данные можно скрести, если они безопасны.

Непубличные данные - это данные, которые не доступны для всех в Интернете. Если данные поступают со страниц, для доступа к которым необходим логин, то они не являются общедоступными.

Занимаетесь ли вы сбором персональных данных?

В разных юрисдикциях действуют различные правила доступа и использования персональных данных. Если в некоторых штатах США поиск персональных данных может быть разрешен, то в Калифорнии у вас могут возникнуть проблемы. В странах Евросоюза очень трепетно относятся к персональным данным. Поэтому, прежде чем приступать к поиску таких данных, следует ознакомиться с Положением о защите данных (GDPR).

Допустима ли скорость ползания?

скрапинг веб-сайтов может привести к перегрузке их серверов и выходу их из строя. Большинство сайтов предлагают указывать директиву "crawl delay" в любом имеющемся у них файле robot.txt. Предположим, что на странице не указано направление crawl-delay. В этом случае среднее время запроса составляет 20 секунд при максимально возможной скорости.

Соблюдаете ли вы условия использования?

Соглашения ToU могут быть как просмотровыми, так и кликовыми. К соглашениям clickwrap относятся те, для которых пользователь нажимает на кнопки, а соглашения browsewrap не требуют никаких действий от пользователя.

Если вы будете соблюдать все указанные условия, то у вас не возникнет никаких проблем с веб-скрапингом.

Соблюдаете ли вы требования файла robots.txt?

Протокол исключения Robots - это веб-стандарт для веб-роботов. В файле Robots.txt указывается, какие части сайта можно просматривать и индексировать, а какие следует исключить.

Заключение

При соскабливании веб-данных необходимо соблюдать правовые нормы, помня о законах об авторском праве и соглашениях об условиях использования, касающихся скорости просмотра содержимого. Также необходимо избегать доступа к частной информации, особенно если речь идет о персональных данных.

In this Article:
Leave behind the complexities of web scraping.
Opt for IPBurger’s advanced web intelligence solutions to effortlessly collect real-time public data.
Зарегистрироваться

Еще глубже погрузиться в темы " ", "

Прокси-серверы
Эй Джей Тейт
The Best HydraProxy Alternative for Reliability, Speed & Transparency

Why More Users Are Looking for a HydraProxy Alternative At first glance, HydraProxy seems like a solid choice. It’s affordable.It offers rotating and static residential proxies.And it gives users flexibility with pay-as-you-go pricing. For casual users? That’s enough. But for data scrapers, sneaker coppers, SEO specialists, and automation users who

Прокси-серверы
Эй Джей Тейт
The Best Rayobyte Alternative for Ethical, Scalable and High-Performance Proxies

Why More Users Are Searching for a Rayobyte Alternative Rayobyte has earned its place as a respected proxy provider, offering datacenter, ISP, and residential proxies to businesses and individuals needing bulk IPs. With competitive pricing and a variety of proxy types, it’s been a go-to choice for many in web

Прокси-серверы
Эй Джей Тейт
The Best Storm Proxies Alternative: Faster, Safer & More Affordable Proxies

Looking for a Storm Proxies Alternative? Storm Proxies sells the dream: simple, affordable proxies that “just work.” And for some users? It kind of delivers. Until it doesn’t. Because here’s the reality—if you’re pulling small data sets, running light scraping jobs, or dipping your toes into sneaker copping, Storm Proxies

Scale Your Business
With The Most Advanced
Proxies On Earth
Присоединяйтесь к удостоенной наград прокси-сети №1