Web-Scraping ist größtenteils legal.
Das Gleiche gilt für das Autofahren … solange man sich nicht über das Gesetz hinwegsetzt.
Allerdings sind die Vorschriften zum Web-Scraping nicht so eindeutig wie beispielsweise die Straßenverkehrsordnung.
In diesem Artikel erfahren Sie alles, was Sie über Web-Scraping wissen müssen, einschließlich der rechtlichen Aspekte, der Funktionsweise und einiger verbreiteter Irrtümer im Zusammenhang mit Web-Scraping.
Was ist Web-Scraping?
Web-Scraping ist eine Technik zur Datenerfassung, mit der Sie Informationen aus dem Internet extrahieren können.
Dieser Blogbeitrag bietet eine einfache Einführung in das Thema Web-Scraping und legt damit den Grundstein.
Kurz gesagt: Automatisierte Skripte oder Programme erfassen Daten mithilfe von Crawling, APIs, HTML-Parsing-Tools und Bildschirmaufzeichnungsprogrammen.

Das Verfahren funktioniert so, dass es einem HTML-Quellcode folgt, unstrukturierte Daten extrahiert und diese in strukturierte Daten umwandelt. Der Webcrawler befolgt Anweisungen dazu, wie die einzelnen Webseiten durchlaufen werden sollen, welche Elemente extrahiert werden müssen und wohin diese Ergebnisse innerhalb der eigenen Anwendung geleitet werden sollen.
Im Wesentlichen bedeutet dies, Anweisungen in einer Programmiersprache zu schreiben und zu verstehen, welche Teile eines HTML-Dokuments bestimmte Arten von Inhalten enthalten, die extrahiert werden sollen. Dazu gehören beispielsweise Textzeichenfolgen, Zahlen, Datumsangaben, Währungswerte, Links zu sozialen Medien usw.
Warum sollten Sie Web-Scraper einsetzen?
Daten, die bei der Entscheidungsfindung helfen, sind wertvoll. Würde ich also alle Gründe für die automatisierte Datenerfassung aufzählen, würde das sehr lange dauern. Hier sind jedoch einige gängige Beispiele:
- Gewinnen Sie Daten über die Websites oder Online-Dienste Ihrer Mitbewerber, um sich einen Wettbewerbsvorteil gegenüber diesen zu verschaffen
- Verbessern Sie Ihre Suchmaschinenplatzierungen durch Linkanalyse. So können beispielsweise Webcrawler so konfiguriert werden, dass sie Links zwischen Social-Media-Beiträgen verfolgen, die wertvolle Einblicke in die Reaktionen der Nutzer auf bestimmte Themen liefern.
- Organisieren Sie große Mengen unstrukturierter Texte in eine strukturierte Form, beispielsweise in Tabellen, um deren Analyse zu erleichtern.
- Erstellen Sie Webportale, über die Nutzer das Internet durchsuchen und darin stöbern können, indem Sie verschiedene Arten von Inhalten von zahlreichen unterschiedlichen Webseiten an einem Ort zusammenführen.
- Erfassen Sie Daten, die nicht über APIs oder Formulare verfügbar sind, wie beispielsweise Videos, Audiodateien, Bilder usw.…
- Webseiten zu einem bestimmten Thema oder eines bestimmten Mitbewerbers auf Änderungen überwachen und die Daten in anderen Anwendungen automatisch aktualisieren

Warum dieser schlechte Ruf?
Web-Scraping ist harmlos, sofern die Datenextraktion ohne Verletzung von Regeln oder Gesetzen erfolgt, denen die Zielseiten unterliegen. Dies ist jedoch nicht immer der Fall. Kriminelle oder Hacker nutzen Web-Scraping ständig gezielt aus. Unter all den Verstößen ist Datendiebstahl am weitesten verbreitet.
Man muss kein Hacker sein, um den Betreiber der Website zu verärgern.

Beim Web-Scraping senden Sie zahlreiche Anfragen an eine Website, um Informationen zu erhalten. Weitaus mehr als ein gewöhnlicher Nutzer. Unabhängig von der jeweiligen Website kann dies zu einer enormen Belastung führen und in manchen Fällen sogar zum Ausfall des Servers führen.
Das kann teuer werden.
DDoS-Angriffe entstehen durch Überlastung, daher ist es nicht verwunderlich, dass Web-Scraper, die übermäßig viele Anfragen stellen, auf Ablehnung stoßen.
Auch wenn Web-Scraping sehr nützlich sein kann, ist es von entscheidender Bedeutung, sich an die gesetzlichen Grenzen zu halten, damit Sie nicht Gefahr laufen, gegen Gesetze zu verstoßen!
Allerdings warten wir (zumindest in den USA) noch immer auf eine endgültige Entscheidung darüber, ob Web-Scraping-Software eine Urheberrechtsverletzung darstellt. Einige Gerichte haben dies verneint, während andere Gerichte die Rechtmäßigkeit dieser Praxis befürworten.
Bis diese Angelegenheit geklärt ist, sollten Sie daher Vorsicht walten lassen.
Gerichtsverfahren im Zusammenhang mit Web-Scraping
Gerichtsurteile schaffen einen rechtlichen Präzedenzfall für künftige Fälle. Derzeit scheint die Rechtmäßigkeit des Web-Scrapings noch etwas unklar zu sein, doch es ist ratsam, sich darüber im Klaren zu sein, welche Entscheidungen bereits getroffen wurden.
Ich werde mich auf die wegweisenden Fälle im Bereich des Web-Scrapings konzentrieren, die den Weg für künftige rechtliche Ansprüche im Zusammenhang mit Web-Scraping ebneten, wie beispielsweise Urheberrechtsverletzungen oder Verstöße gegen den Computer Fraud and Abuse Act (CFAA).
Facebook gegen Power Ventures (2011)
Dies ist einer von vielen äußerst umstrittenen Rechtsstreitigkeiten mit Google im Zusammenhang mit dessen Datenschutzrichtlinien. Facebook hat Power Ventures verklagt, weil das Unternehmen Daten seiner Nutzer gesammelt und auf seiner eigenen Website veröffentlicht hat.
Das Urteil fiel zugunsten von Facebook aus, das eine Klage eingereicht hatte, wonach Power Ventures gegen den CAN-SPAM Act, den CFAA, den DMCA sowie gegen Urheberrechtsgesetze verstoßen habe.
Associated Press und Meltwater (2013)
Im Mai 2010 reichte die Associated Press Klage gegen das auf digitale Medienüberwachung spezialisierte Unternehmen Meltwater ein, das zur Suche nach Nachrichtenbeiträgen Web-Crawling-Technologie einsetzte.
Die A.P. gab an, dass sie für ihre Arbeit nicht bezahlt würden, da diese kopiert werde, wodurch sie Zugang zu kostenlosen Inhalten erhielten.
In diesem Fall wurden Web-Scraper als rechtswidrig eingestuft, da sie den Wert der Arbeit von A.P. untergruben, indem sie diese kostenlos zugänglich machten.
Ryanair gegen PR Aviation (2015)
P.R. Aviation ist ein Preisvergleichsdienst für Flüge, der mittels „Screen-Scraping“ die Preise auf der Website von Ryanair erfasst. Am 15. Januar veröffentlichte der Gerichtshof der Europäischen Union ein Urteil, das sowohl Betreiber von Website-Datenbanken als auch diejenigen, die „Screen-Scraping“ betreiben (wie beispielsweise Preisvergleichsseiten), erheblich beeinflussen könnte.
Das Urteil legt nahe, dass Website-Betreiber die Nutzungsbedingungen ihrer Website durch vertragliche Vereinbarungen durchsetzen können. Dies bedeutet, dass auch öffentlich zugängliche Daten geschützt werden können.
HiQ Labs gegen LinkedIn (2019)
HiQ Labs kann Daten aus öffentlichen LinkedIn-Profilen erfassen, um Unternehmen Tools zur Verfügung zu stellen, mit denen sie die Sichtweisen ihrer Mitarbeiter besser verstehen können. HiQ beantragte vor Gericht eine einstweilige Verfügung. Diese wurde gewährt, woraufhin LinkedIn den Versand von Unterlassungsaufforderungen einstellte und keine Sperrmaßnahmen mehr gegen HiQ ergriff.
LinkedIn hob die Entscheidung einen Tag später wieder auf und begründete dies damit, dass sie gegen Abschnitt 2 des CFAA verstoßen habe. Das Urteil fiel zugunsten der Scraping-Unternehmen aus und bekräftigte die Rechtssicherheit der kürzlich etablierten Rechtsprechung hinsichtlich der Anwendbarkeit des Gesetzes.
Kann man durch das Scraping von Daten wirklich in Schwierigkeiten geraten?
Die kurze Antwort lautet: Ja! Es gibt Gesetze, die Unternehmen, die Inhalte auf ihren Websites besitzen, vor unbefugtem Zugriff durch Dritte wie Scraping-Bots oder andere automatisierte Softwareprogramme schützen.
Die ausführliche Antwort hängt davon ab, wo Sie wohnen, doch im Allgemeinen gibt es mindestens fünf rechtliche Aspekte, die Sie beachten sollten:
- Urheberrechtsverletzung
- Verleumdung von Personen oder Geschäftspraktiken
- Recht auf Privatsphäre/Recht am eigenen Bild
- Veruntreuung (Diebstahl) von Webinhalten
- Hacking-Techniken für den Zugriff auf Webinhalte
Dies sind die wichtigsten rechtlichen Aspekte, die Sie bei der Datenerhebung beachten müssen. Es handelt sich hierbei jedoch nicht um eine vollständige Auflistung, sondern um eine allgemeine Zusammenfassung, die je nach Ihrem Wohnort und dem Betreiber der betreffenden Website variieren kann.
Für genauere Informationen zu Ihrer geografischen Lage wenden Sie sich bitte an einen auf Internetrecht spezialisierten Rechtsanwalt in Ihrem Zuständigkeitsbereich. Dieser Artikel stellt KEINE professionelle Rechtsberatung dar!
Um mögliche Verstöße gegen diese Gesetze zu vermeiden, sollten Sie sich vergewissern, welche Informationen öffentlich und welche privat sind und wie das Web-Harvesting auf der jeweiligen Website durchgeführt werden soll – beispielsweise über ein Webformular oder einen API-Schlüssel.
Auf Websites finden sich häufig rechtliche Hinweise wie dieser:
„Diese Website enthält möglicherweise urheberrechtlich geschütztes Material, das mit Genehmigung der Rechteinhaber verwendet wurde.“ Wenn Sie einen solchen Hinweis sehen, bedeutet dies, dass der Betreiber dieser Seite das Web-Scraping ohne vorherige schriftliche Zustimmung oder eine Vereinbarung zwischen den beteiligten Parteien nicht gestattet.
Das Gleiche gilt, wenn Scraper-Bots überhaupt nicht erwähnt werden. Die Webmaster dieser Websites könnten das Auslesen von Daten auf ihren Websites untersagen. In solchen Fällen sollten Sie nicht versuchen, ohne schriftliche Genehmigung des Eigentümers bzw. der Eigentümer auf diese Websites zuzugreifen. Es ist stets empfehlenswert, zunächst um Erlaubnis zu bitten!
Die gesetzlichen Bestimmungen zum Web-Scraping
Wir haben einige Gerichtsverfahren behandelt und erläutert, wie sich daraus konkrete Gesetze ableiten lassen. Hier finden Sie eine Zusammenfassung der Verstöße, die Sie berücksichtigen sollten, bevor Sie Ihr nächstes Web-Scraping-Projekt in Angriff nehmen:

- Der Digital Millennium Copyright Act (DMCA) ist ein US-amerikanisches Gesetz, das den Einsatz von Web-Scrapern auf Websites, deren Eigentümer Sie nicht sind, verbietet. Dazu zählen beispielsweise Nachrichtenseiten oder jede Website mit nutzergenerierten Inhalten, wie beispielsweise Facebook-Gruppen; dies gilt jedoch nicht, wenn Ihre Nutzung unter den Begriff der „fair use“ fällt.
- Der „Computer Fraud and Abuse Act“ (CFAA) ist ein US-amerikanisches Gesetz, das Web-Scraping für illegal erklärt, wenn Sie Sicherheitsmaßnahmen umgehen oder absichtlich unbefugt auf das Internet zugreifen. Dies gilt jedoch nicht für die Nutzung von Anwendungen, bei denen es sich um Open-Source-Tools handelt, die öffentlich zugänglich und nicht kommerziell sind und mit denen Sie Webdaten kostenlos abrufen können. Diese Art von Web-Scraping-Tools fällt unter den Begriff der „fair use“ (angemessene Nutzung), sodass ihre Verwendung auf Websites mit nutzergenerierten Inhalten, wie beispielsweise Facebook-Gruppen, vollkommen legal ist.
- „Trespass to chattel“ ist ein juristischer Begriff für die unrechtmäßige Nutzung digitalen Eigentums. Dies kann beispielsweise im Falle von Web-Scraping der Fall sein, wenn Sie einen Web-Scraper einsetzen, um ohne Genehmigung Daten zu sammeln.
- In den Nutzungsbedingungen bzw. Datenschutzrichtlinien kann das Web-Scraping auf bestimmten Seiten untersagt sein; überprüfen Sie diese daher stets, bevor Sie sich entscheiden, Daten zu scrapen.
- Inhaltsinhaber könnten eine Urheberrechtsverletzung geltend machen, da sie der Ansicht sind, dass ihr Werk ohne Genehmigung kopiert wurde.
- Web-Scraper können von Internetdienstanbietern (ISPs) blockiert werden, wenn das Web-Scraping rechtswidrig ist.
- Der Betreiber der Website kann gegen jedes Unternehmen Klage erheben, dessen hohe Crawling-Rate einen Serverausfall verursacht oder dessen geistiges Eigentum verletzt. Stellen Sie sicher, dass in keiner Weise ein Schaden entsteht. Sie haften nicht, falls Sie Schäden an den Bedingungen und Gütern dieses Bereichs verursachen.
Erfahren Sie, wie Residential-Proxys Ihnen beim Datenscraping aus der Patsche helfen können.
Nutzungsbedingungen und Scraping
Sollten Websites das Datenscraping rechtlich einschränken? Das könnte durchaus der Fall sein. Nichts hindert Website-Betreiber daran, verbindliche Vertragsbedingungen für den Zugriff auf ihre Inhalte festzulegen.
Werden sich diese Bestimmungen tatsächlich als durchsetzbar erweisen? Die rechtliche Theorie, die der Durchsetzbarkeit von Verträgen zugrunde liegt, ist recht komplex. Dennoch lohnt es sich, einen Blick auf einige der im Umlauf befindlichen Vereinbarungen zu werfen.

Browsewrap-Vereinbarungen
Die Vereinbarungen sind in der Regel auf der Startseite oder in einem Pop-up-Fenster zu finden. In der Rechtslehre wird die Rechtswirksamkeit solcher Verträge im Allgemeinen nicht berücksichtigt. (Nicht jeder lässt Pop-ups zu.)
Es gibt jedoch viel beachtete Fallstudien auf Wikipedia, die sich zugunsten von „Browsewrap“-Vereinbarungen aussprechen.
Clickwrap-Vereinbarungen
Ein Clickwrap-Vertrag ist ein ehrlicher und angemessener Vertrag, der durchgesetzt werden sollte, wenn die Gerichte dies wünschen. Diese Art von Vereinbarung ist bei Online-Shops und in Anmeldeformularen weit verbreitet. Ein Clickwrap-Vertrag erfordert eine aktive Handlung des Nutzers und nicht lediglich das Surfen auf der Website.
Wie ein Beispiel aus dem Fall Ryanair zeigt, setzen die Gerichte diese Entscheidungen bereitwillig um.
Ist Web-Scraping also legal?
Im Großen und Ganzen, ja!
Web-Scraping ist ein hervorragendes Instrument für Unternehmen, die ihr Geschäft durch zusätzliche Ressourcen oder neue Erkenntnisse aus der Marktforschung ausbauen möchten. Das Internet bietet viele Arten von Inhalten, die stets für die Öffentlichkeit frei zugänglich bleiben sollten, sofern dies nicht im Voraus in den Nutzungsbedingungen ausdrücklich geregelt ist.
6 Fragen, die Sie sich stellen sollten, bevor Sie mit dem Scraping beginnen
Stellen Sie sich diese 6 praktischen Fragen zu Ihrer Ethik beim Web-Scraping, um die Vorschriften besser einzuhalten.
Erfassen Sie urheberrechtlich geschützte Daten?
Ein Großteil der Inhalte im Internet unterliegt in irgendeiner Form dem Urheberrecht. Musik, Nachrichten, Blogs, Dissertationen, Bilder, Zeitschriften, Datenbanken und Logos sind potenziell urheberrechtlich geschützt.
Die unverantwortliche Verwendung von kopiertem Material oder gescrapten Daten stellt eine Verletzung des Urheberrechts dar. In vielen Rechtsordnungen kann dies durchaus als ethisch bedenkliches Internet-Scraping angesehen werden. Dies beinhaltet jedoch das Scraping von Daten, die aus einer anderen Quelle kopiert wurden, oder deren illegale Verbreitung. In manchen Situationen ist es erforderlich, urheberrechtlich geschützte Inhalte zu Analysezwecken zu scrapen. In solchen Fällen müssen Sie die Art und Weise, wie Sie diese nutzen, sorgfältig abwägen.
Erfassen Sie nicht-öffentliche Daten?
Websites stellen ihre Informationen in der Regel frei zugänglich zur Verfügung. Öffentlich zugängliche Daten dürfen ohne Weiteres gescrapt werden, solange dies unbedenklich ist.
Nicht-öffentliche Daten sind solche, auf die nicht jeder im Internet zugreifen kann. Wenn die Daten von Seiten stammen, für deren Zugriff eine Anmeldung erforderlich ist, sind sie nicht öffentlich zugänglich.
Erheben Sie personenbezogene Daten?
In verschiedenen Rechtsordnungen gelten unterschiedliche Vorschriften hinsichtlich des Zugriffs auf und der Nutzung von personenbezogenen Daten. Während das Scraping personenbezogener Daten in einigen US-Bundesstaaten möglicherweise zulässig ist, könnten Sie in Kalifornien in Schwierigkeiten geraten. Die EU legt großen Wert auf den Schutz personenbezogener Daten. Daher sollten Sie sich vor dem Scraping solcher Daten mit der Datenschutz-Grundverordnung (DSGVO) vertraut machen.
Ist die Crawling-Rate akzeptabel?
Das Crawlen von Websites kann deren Server überlasten und zum Absturz bringen. Die meisten Websites empfehlen in ihrer „robots.txt“-Datei die Angabe einer „Crawl-Delay“-Anweisung. Angenommen, die Seite enthält keine „Crawl-Delay“-Anweisung. In diesem Fall beträgt die durchschnittliche Anforderungsdauer bei der höchstmöglichen Abrufrate 20 Sekunden.
Halten Sie sich an die Nutzungsbedingungen?
Nutzungsbedingungen können entweder als „Browse-over“- oder als „Click-over“-Vereinbarungen vorliegen. Zu den „Click-wrap“-Vereinbarungen zählen solche, bei denen der Nutzer auf Schaltflächen klickt, während „Browse-wrap“-Vereinbarungen keine Aktion seitens des Nutzers erfordern.
Sofern Sie alle festgelegten Bedingungen einhalten, werden Sie bei Ihren Web-Scraping-Aktivitäten keine Probleme haben.
Halten Sie die Vorgaben der robots.txt-Datei ein?
Das „Robots Exclusion Protocol“ ist der Webstandard für Web-Roboter. Die Datei „robots.txt“ gibt Auskunft darüber, welche Teile einer Website gecrawlt und indexiert werden dürfen und welche davon ausgeschlossen werden sollen.
Schlussfolgerung
Achten Sie beim Scraping von Webdaten darauf, dass Sie sich im rechtlichen Rahmen bewegen, indem Sie die Urheberrechtsgesetze und Nutzungsbedingungen hinsichtlich der zulässigen Geschwindigkeit beim Crawlen von Inhalten beachten. Außerdem müssen Sie den Zugriff auf private Informationen vermeiden – insbesondere, wenn es sich dabei um personenbezogene Daten handelt.
