El "web scraping" es legal, en su mayor parte.
También lo es conducir un coche... hasta que infringes la ley.
Sin embargo, las normas no son tan claras en torno al web scraping como lo son con algo como las leyes de tráfico.
This article will cover what you need to know about web scraping, including its legalities, how it works, and some common misconceptions associated with web scraping.
¿Qué es el web scraping?
El web scraping es una técnica de recolección de datos que se puede utilizar para extraer información de Internet.
Para una introducción sencilla al web scraping, esta entrada de blog sienta las bases.
En pocas palabras, los scripts o programas automatizados recopilan datos mediante rastreo, API, herramientas de análisis de HTML y software de captura de pantalla.
Funciona siguiendo un código fuente HTML, extrayendo datos no estructurados y analizándolos para convertirlos en datos estructurados. El rastreador web sigue instrucciones sobre cómo debe recorrerse cada página web, qué elementos deben extraerse y dónde deben ir esos resultados dentro de su propia aplicación.
En esencia, esto significa escribir instrucciones en lenguaje de programación informática y comprender qué partes de un documento HTML contienen tipos específicos de contenido para su extracción. Por ejemplo, cadenas de texto, números/fechas/valores monetarios, enlaces a redes sociales, etc.
¿Por qué utilizar raspadores web?
Los datos que ayudan a tomar decisiones son valiosos. Si tuviera que enumerar todas las razones que justifican la recogida automatizada de datos, tardaría mucho tiempo. Pero he aquí algunos ejemplos frecuentes:
- Extraer datos sobre los sitios web o servicios en línea de la competencia para obtener una ventaja sobre ellos.
- Mejorar la clasificación en los motores de búsqueda mediante el análisis de enlaces. Por ejemplo, los rastreadores web pueden configurarse para seguir enlaces entre publicaciones de redes sociales que proporcionen información valiosa sobre cómo responden los usuarios a temas específicos.
- Organizar grandes cantidades de texto no estructurado en un formato estructurado, como hojas de cálculo, que facilite su análisis.
- Cree portales web para que los usuarios busquen y naveguen por la red reuniendo en un solo lugar diversos tipos de contenidos procedentes de muchas páginas web diferentes.
- Recopilar datos que no están disponibles a través de API o formularios, como vídeo, audio, imágenes, etc. ....
- Supervisar las páginas web de un tema o competidor concreto para detectar cambios y actualizar automáticamente los datos en otras aplicaciones.
¿Por qué esa mala reputación?
El web scraping es inofensivo si la extracción de datos se produce sin infringir ninguna norma o ley que regule los objetivos. Sin embargo, no siempre es así. Personajes nefastos o piratas informáticos explotan deliberadamente el web scraping todo el tiempo. Entre todas las infracciones, el robo de datos es la más extendida.
No hace falta ser un hacker para fastidiar al propietario del sitio.
En el proceso de web scraping, se envían muchas peticiones a un sitio web para obtener información. Muchas más que un usuario típico. Sin tener en cuenta el sitio, podría provocar una carga masiva y colapsar un servidor en algunos casos.
Lo que puede resultar caro.
Los ataques DDOS se producen debido a la sobrecarga, por lo que no es de extrañar que los rascadores web de peticiones no estén bien vistos.
Aunque el web scraping puede ser muy útil, es crucial mantenerse dentro de los límites legales, para no correr el riesgo de infringir ninguna ley.
Sin embargo, aún estamos esperando una sentencia definitiva (al menos en Estados Unidos) sobre si el software de web scraping constituye una infracción de los derechos de autor. Algunos tribunales han fallado en contra, mientras que otros están a favor de su legalidad.
Así que, hasta que se resuelva este asunto, debe ser prudente.
Web scraping casos judiciales
Las sentencias de los tribunales sientan el precedente legal para casos futuros. Por ahora, la legalidad del web scraping parece un poco ambigua, pero es bueno estar al tanto de las decisiones que se han tomado.
Me centraré en los casos emblemáticos de scraping que sientan las bases para futuras demandas legales de scraping, como la infracción de los derechos de autor o la Ley de Fraude y Abuso Informático (CFAA).
Facebook contra Power Ventures (2011)
Esta es una de las muchas disputas muy controvertidas con Google en cuanto a sus políticas de privacidad. Facebook demandó a Power Ventures por recopilar los datos de sus usuarios y mostrarlos en su propio sitio web.
La sentencia dio la razón a Facebook, que había denunciado a Power Ventures por infringir la Ley CAN-SPAM, la CFAA, la DMCA y las leyes sobre derechos de autor.
Associated Press y Meltwater (2013)
En mayo de 2010, Associated Press demandó a una empresa de seguimiento de medios digitales llamada Meltwater, que utilizaba tecnología de rastreo web para buscar historias.
La A.P. alegó que no se les pagaba por su trabajo, ya que se duplicaba, lo que les permitía acceder a contenidos gratuitos.
En este caso, se dictaminó que los "web scrapers" eran ilegales porque socavaban el valor del trabajo de A.P. al ponerlo a su disposición gratuitamente.
Ryanair contra PR Aviation (2015)
P.R. Aviation es un servicio de agregación de precios de vuelos que utiliza el "screen-scraping" para capturar los precios del sitio web de Ryanair. El 15 de enero, el Tribunal de Justicia de la Unión Europea hizo pública una decisión que puede influir significativamente tanto en los operadores de bases de datos de sitios web como en los que realizan "screen-scraping" (como los sitios de comparación de precios).
La sentencia sugiere que los propietarios de sitios web pueden hacer cumplir las condiciones de su sitio web mediante acuerdos contractuales. Esto significa que incluso los datos disponibles públicamente pueden protegerse.
HiQ Labs contra LinkedIn (2019)
Los laboratorios HiQ pueden recopilar datos de los perfiles públicos de LinkedIn para ofrecer a la empresa herramientas que le permitan conocer las perspectivas de los empleados. HiQ solicitó la medida cautelar ante los tribunales. Se le concedió, lo que llevó a LinkedIn a dejar de enviar cartas C&D y aplicar medidas de bloqueo contra HiQ.
Posteriormente, LinkedIn revocó la decisión un día después, afirmando que había infringido la Sección 2 de la CFAA. La sentencia favorecía a las empresas de scraping y reafirmaba la certeza de la práctica judicial recientemente adoptada en relación con la aplicabilidad de la ley.
¿De verdad se pueden tener problemas con el raspado de datos?
La respuesta corta es sí. Existen leyes que protegen a las empresas propietarias de los contenidos de sus sitios web contra el acceso no autorizado por parte de terceros, como los robots de scraping u otros programas de software automatizados.
La respuesta larga depende de dónde viva, pero en general hay al menos cinco cuestiones legales que debe tener en cuenta:
- Infracción de los derechos de autor
- Difamación o prácticas comerciales
- Derecho a la intimidad/publicidad
- Apropiación indebida (robo) de contenidos web
- Técnicas de pirateo para acceder a contenidos web
Estas son las cuestiones jurídicas más importantes que debe tener en cuenta a la hora de recopilar datos. Sin embargo, no se trata de una lista exhaustiva, sino más bien de un resumen general que puede variar en función de dónde viva y de quién sea el propietario del sitio web en cuestión.
Para obtener información más detallada sobre su ubicación geográfica, consulte a un abogado especializado en Derecho de Internet dentro de su jurisdicción. Este artículo NO constituye asesoramiento jurídico profesional.
Para evitar la posible violación de cualquiera de estas leyes, debe asegurarse de qué información es pública frente a privada y cómo quieren que se realice la recopilación web en su sitio web. Por ejemplo, a través de un formulario web o una clave API.
Los sitios web suelen publicar avisos legales como éste:
"Este sitio puede contener material protegido por derechos de autor que ha sido utilizado con permiso de sus propietarios". Si ve un aviso de este tipo, significa que el propietario de esta página no permite el web scraping sin el consentimiento previo por escrito o un acuerdo entre las partes implicadas.
Lo mismo ocurre si no se menciona en absoluto a los robots raspadores. Es posible que sus webmasters prohíban el scraping de datos en sus sitios web. En tales casos, no debe intentar acceder a ellos sin el permiso por escrito de su(s) propietario(s). Siempre es mejor pedir permiso primero.
Legislación sobre el web scraping
Hemos tratado algunos casos judiciales y cómo pueden derivarse de ellos leyes específicas. Aquí tienes un resumen de las infracciones que deberías tener en cuenta antes de iniciar tus próximos proyectos de web scraping:
- La Digital Millennium Copyright Act (DMCA) es una ley estadounidense que prohíbe el uso de raspadores web en sitios web que no sean de tu propiedad. Por ejemplo, los sitios de noticias o cualquier sitio con contenido generado por el usuario, como los grupos de Facebook; sin embargo, esto no se aplica si su uso entra dentro del uso justo.
- La Computer Fraud and Abuse Act (CFAA) es una ley estadounidense que declara ilegal el web scraping si se eluden las medidas de seguridad o se accede intencionadamente a la web sin autorización. Sin embargo, esto no se aplica al uso de aplicaciones de código abierto, disponibles públicamente, herramientas no comerciales que le permiten extraer datos de la web de forma gratuita. Este tipo de herramientas de web scraping entran dentro del uso justo, por lo que son perfectamente legales en sitios web con contenidos generados por los usuarios, como los grupos de Facebook.
- La usurpación de bienes muebles es un término legal para el uso injusto de la propiedad digital. Puede tratarse de web scraping si utilizas un raspador web para recopilar datos sin permiso.
- Las condiciones de servicio y las políticas de privacidad pueden prohibir el web scraping en determinadas páginas, así que compruébelas siempre antes de decidirse a extraer datos.
- Los propietarios de contenidos pueden reclamar una infracción de los derechos de autor porque creen que su obra ha sido copiada sin permiso.
- Los ISP (Proveedores de Servicios de Internet) pueden bloquear los raspadores de páginas web si son ilegales.
- El propietario del sitio web puede interponer una demanda contra cualquier empresa cuya elevada tasa de rastreo provoque una caída del servidor o infrinja su propiedad intelectual. Asegúrese de que el daño no se inflige de ninguna manera. No será responsable si causa algún daño a las condiciones y bienes de esta zona.
Descubra cómo los proxies residenciales pueden salvarle el culo mientras raspa datos.
Condiciones de uso y scraping
¿Deberían los sitios web restringir legalmente el raspado de datos? Podría ser cierto. Nada impide a los operadores de sitios web establecer contratos inevitables para acceder a sus contenidos.
¿Probarán realmente estas disposiciones la capacidad de ejecución? La teoría jurídica que subyace a la capacidad de ejecución de los contratos es bastante compleja. Aun así, merece la pena echar un vistazo a algunos acuerdos en circulación.
Acuerdos de Browsewrap
Los acuerdos suelen encontrarse en la página de inicio o en forma de ventana emergente. Las teorías jurídicas suelen ignorar el valor legal de estos contratos. (No todo el mundo permite las ventanas emergentes)
Sin embargo, existen estudios de casos bien acogidos en Wikipedia que fallan a favor de los acuerdos browsewrap.
Acuerdos Clickwrap
Clickwrap es un contrato honesto y razonable que debería aplicarse si los tribunales lo quieren. Este tipo de acuerdo está muy extendido en las tiendas online y en los formularios de inscripción. El acuerdo Clickwrap requiere una acción por parte del usuario y no sólo la navegación.
Como demuestra un ejemplo del caso Ryanair, los tribunales están aplicando fácilmente estas decisiones.
¿Es legal el web scraping?
En su mayoría, sí.
El web scraping es una herramienta increíble para las empresas que buscan hacer crecer su negocio con recursos adicionales o nuevas perspectivas en sus estudios de mercado. La web tiene muchos tipos de contenido que siempre deben permanecer libres para el acceso público a menos que esté estrictamente regulado en términos de uso por adelantado.
6 preguntas que debe hacerse antes de rascarse
Hágase estas 6 preguntas prácticas sobre su ética en materia de web scraping para cumplir mejor la normativa.
¿Está recopilando datos protegidos por derechos de autor?
Muchos de los contenidos de Internet están sujetos a algún tipo de derecho de marca. La música, las noticias, los blogs, las disertaciones, las imágenes, las revistas, las bases de datos y los logotipos pueden ser objeto de derechos de autor.
Utilizar material copiado o datos raspados de forma irresponsable infringe los derechos de autor. En muchas jurisdicciones puede considerarse un "scraping" de Internet basado en la ética. Sin embargo, esto implica el scraping de cualquier dato copiado a través de otra fuente o su distribución ilegal. Algunas situaciones exigen el scraping de contenidos protegidos por derechos de autor con fines de análisis. En tales casos, hay que tener en cuenta la forma de utilizarlos.
¿Está extrayendo datos no públicos?
Por lo general, los sitios web mantienen su información libremente accesible. Los datos accesibles públicamente se pueden raspar siempre que sean seguros.
Los datos no públicos son aquellos a los que no puede acceder todo el mundo en la web. Si los datos proceden de páginas a las que es necesario iniciar sesión para acceder, entonces no son de acceso público.
¿Está recopilando datos personales?
Las distintas jurisdicciones tienen diferentes normativas sobre el acceso y el uso de datos personales. Mientras que en algunos estados de EE.UU. no hay ningún problema con la extracción de datos personales, en California puede haber problemas. La UE es muy sensible a la información personal. Así que es posible que desee revisar el Reglamento de Protección de Datos (GDPR) antes de raspar dichos datos.
¿Es tolerable la velocidad de rastreo?
Los sitios web de rastreo pueden sobrecargar sus servidores y colapsarlos. La mayoría de los sitios web sugieren una directiva de "retardo de rastreo" en cualquier archivo robot.txt que tengan. Supongamos que la página no especifica la dirección de "crawl-delay". En ese caso, el tiempo medio de solicitud es de 20 segundos a la tasa más alta posible.
¿Sigues las condiciones de uso?
Los acuerdos ToU pueden ser acuerdos browse-over o click-over. Los acuerdos clickwrap consisten en aquellos para los que el usuario hace clic en botones, y los browsewrap no requieren ninguna acción del usuario.
Si cumple todas las condiciones establecidas, no tendrá problemas con sus actividades de web scraping.
¿Cumple con el archivo robots.txt?
El protocolo de exclusión de robots es el estándar web para los robots web. Robots.txt le dice acerca de qué partes de un sitio web puede rastrear e indexar, los que deben ser excluidos.
Conclusión
Al rastrear datos web, asegúrate de respetar los límites legales, teniendo en cuenta las leyes de derechos de autor y los acuerdos de condiciones de uso sobre la velocidad a la que debe rastrearse el contenido. También debes evitar acceder a información privada, sobre todo si se trata de datos personales.