在大多数情况下,网络搜索是合法的。
开车也是如此......直到你触犯法律。
不过,有关网络搜索的规定并不像交通法规那样明确。
本文将介绍你需要了解的网络搜刮知识,包括其合法性、工作原理以及与网络搜刮相关的一些常见误解。
什么是网络搜索?
网络搜刮是一种数据采集技术,可用于从互联网上提取信息。
For a simple introduction to web scraping, this blog post lays the groundwork.
In a nutshell, automated scripts or programs gather data by crawling, APIs, HTML parsing tools, and screen capturing software.
它的工作原理是跟踪 HTML 源代码,提取非结构化数据,并将其解析为结构化数据。网络爬虫会按照指示遍历每个网页,提取哪些元素,以及这些结果在其应用程序中的位置。
从本质上讲,这意味着编写计算机编程语言指令,并了解 HTML 文档中哪些部分包含特定类型的提取内容。例如文本字符串、数字/日期/货币值、社交媒体链接等...
为什么要使用网络清除器?
有助于决策的数据非常宝贵。因此,如果要列出所有自动收集数据的原因,恐怕要花很长时间。但这里有几个普遍的例子:
- 提取有关竞争对手网站或在线服务的数据,以获得优势
- 通过链接分析提高搜索引擎排名。例如,可以设置网络爬虫来跟踪社交媒体帖子之间的链接,从而为了解用户如何回应特定主题提供有价值的信息。
- 将大量非结构化文本整理成结构化形式,如电子表格,以便于分析。
- 创建门户网站,将不同网页上的各种内容整合到一个地方,供用户搜索和浏览网页。
- 收集无法通过应用程序接口或表单获得的数据,如视频、音频、图像等....
- 监控特定主题或竞争对手的网页变化,并自动更新其他应用程序中的数据
为什么口碑不好?
如果在提取数据时没有违反管理目标的任何规则或法律,那么网络刮擦就是无害的。然而,情况并非总是如此。不法分子或黑客总是蓄意利用网络搜索。在所有违法行为中,数据窃取最为普遍。
你不一定非得是黑客才能得罪网站所有者。
在网络刮擦过程中,您会向网站发送许多请求以获取信息。比普通用户多得多。在不考虑网站的情况下,这可能会造成大量负载,在某些情况下甚至会导致服务器崩溃。
这可能很昂贵。
DDOS 攻击是由于超负荷而发生的,因此,对请求频繁的网络刮擦器持鄙视态度也就不足为奇了。
虽然网络搜索非常有用,但必须遵守法律规定,以免触犯任何法律!
不过,我们仍在等待(至少在美国)关于网络搜刮软件是否构成版权侵权的最终裁决。一些法院作出了反对的裁决,而另一些法院则支持其合法性。
因此,在此事解决之前,你们应该谨慎行事。
网络搜索法庭案例
法庭案件的裁决为未来的案件树立了法律先例。就目前而言,网络搜刮的合法性似乎还有些模糊,但了解一下已经做出的判决还是有好处的。
我将重点介绍那些为未来刮擦法律索赔(如版权侵权或《计算机欺诈和滥用法》(CFAA))奠定基础的旗舰刮擦案例。
Facebook vs. Power Ventures (2011)
这是与谷歌在隐私政策方面的众多极具争议的纠纷之一。Facebook 起诉 Power Ventures 收集用户数据并将其显示在自己的网站上。
判决结果是 Facebook 胜诉,因为他们投诉 Power Ventures 违反了《CAN-SPAM 法》、《CFAA》、《DMCA》和版权法。
Associated Press and Meltwater (2013)
2010 年 5 月,美联社起诉了一家名为 Meltwater 的数字媒体监测公司,该公司使用网络爬行技术搜索新闻。
A.P. 声称,由于他们的作品被复制,他们没有得到报酬,因此可以获得免费内容。
在此案中,网络搜刮工具被判定为非法,因为它们免费提供 A.P. 的作品,损害了其价值。
Ryanair v. PR Aviation (2015)
P.R. Aviation 是一家航班价格聚合服务公司,它利用屏幕抓取技术获取瑞安航空公司在线网站的价格。1 月 15 日,欧盟法院发布了一项裁决,该裁决有可能对网站数据库运营商和那些进行 "屏幕抓取 "的网站(如价格比较网站)产生重大影响。
这项裁决表明,网站所有者可以通过合同协议来执行网站条款。这意味着即使是公开数据也可以受到保护。
HiQ Labs v. LinkedIn (2019)
HiQ 实验室可以从公开的 LinkedIn 资料中收集数据,为企业提供了解员工观点的工具。HiQ 向法院申请禁令。禁令获得批准后,LinkedIn 停止了向 HiQ 发送拆信和采取封杀措施。
LinkedIn 随后在一天后推翻了这一判决,称其违反了 CFAA 第 2 条。这一裁决有利于刮奖公司,并重申了最近通过的关于该法案适用性的法院惯例的确定性。
刮擦数据真的会带来麻烦吗?
简短的回答是肯定的!有法律保护拥有网站内容的公司,防止第三方未经授权的访问,如搜刮机器人或其他自动软件程序。
漫长的答案取决于您居住的地方,但一般来说,您至少应该注意五个法律问题:
- 侵犯版权
- 诽谤人格或商业行为
- 隐私权/公开权
- 盗用(窃取)网络内容
- 访问网络内容的黑客技术
这些是您在进行数据收集时需要注意的最关键的法律问题。不过,这并不是一份详尽无遗的清单,而是一份概括性的总结,具体内容可能因您的居住地和相关网站的所有者而异。
有关您所在地区的更多详细信息,请咨询您所在地区的互联网法律专业律师。本文不构成专业法律建议!
为避免可能违反这些法律,您应确定哪些信息是公开信息,哪些是私人信息,以及他们希望如何在其网站上进行网络采集。例如,是通过网络表单还是 API 密钥。
网站经常会发布类似这样的法律声明:
"本网站可能包含受版权保护的资料,这些资料的使用已获得其所有者的许可"。如果您看到这样的提示,说明该网页的所有者不允许在未经事先书面同意或有关各方之间未达成协议的情况下进行网络搜刮。
如果根本没有提及搜刮机器人,情况也是一样。它们的网站管理员可能会禁止在其网站上搜刮数据。在这种情况下,未经所有者的书面许可,您不应尝试访问它们。最好的做法是先征求许可!
有关网络搜索的法律
我们已经介绍了一些法庭案例,以及由此可能产生的具体法律。以下是您在开始下一个网络刮擦项目前可能会考虑的违规行为摘要:
- The Digital Millennium Copyright Act (DMCA) is a U.S. law that makes using web scrapers illegal on websites that you don’t own. For example, news sites or any site with user-generated content such as Facebook groups; however, this does not apply if your use falls under fair use.
- 计算机欺诈和滥用法》(Computer Fraud and Abuse Act,CFAA)是一部美国法律,规定如果规避安全措施或未经授权故意访问网络,则网络搜刮行为是非法的。不过,这并不适用于使用开源、公开、非商业工具的应用程序,这些应用程序可以让你免费获取网络数据。这类网络搜刮工具属于合理使用范畴,因此在有用户生成内容的网站(如 Facebook 群组)上使用完全合法。
- 侵犯动产是不正当使用数字财产的法律术语。如果你未经许可使用网络搜刮工具获取数据,这可能就是网络搜刮。
- 服务条款/隐私政策可能会禁止在特定页面上进行网络搜刮,因此在决定搜刮数据之前一定要检查这些条款。
- 内容所有者可能会认为自己的作品未经许可被复制,从而提出版权侵权。
- 如果网络搜刮是非法的,ISP(互联网服务提供商)可能会阻止网络搜刮。
- 如果任何公司的高抓取率导致服务器崩溃或侵犯其知识产权,网站所有者可对其提起诉讼。确保不以任何方式造成损害。如果您对该区域的条件和商品造成任何损害,您可能不承担任何责任。
了解住宅代理如何在搜索数据时拯救你的屁股。
使用条款和刮擦
网站是否应在法律上限制数据搜刮?有可能。没有什么能阻止网站运营商为访问其内容而制定不可避免的合同。
这些条款是否真的能证明可执行性?合同执行能力背后的法律理论相当复杂。不过,我们还是应该看看一些流通中的协议。
浏览包装协议
这些协议通常可以在主页或弹出窗口中找到。法律理论通常会忽略此类合同的法律价值。(并非所有人都允许弹出窗口)
不过,维基百科也有一些广受好评的案例研究,裁定浏览包协议有效。
Clickwrap 协议
Clickwrap 是一份诚实、合理的合同,如果法院需要,应予以执行。这种协议在网上商店和注册表中非常普遍。Clickwrap 协议要求用户采取行动,而不仅仅是浏览。
瑞安航空案的一个例子证明,法院正在随时执行这些裁决。
那么,网络搜索合法吗?
大部分情况下是的!
对于希望利用额外资源或市场研究新见解来发展业务的公司来说,网络搜刮是一种令人难以置信的工具。网络上有许多类型的内容,除非事先在使用条款中进行了严格规定,否则应始终保持免费供公众访问。
刮痧前要问自己的 6 个问题
问自己以下 6 个有关网络搜索道德的实用问题,以提高合规性。
您是否在搜索受版权保护的数据?
互联网上的许多内容都受某种商标权的保护。音乐、新闻、博客、论文、图片、杂志、数据库和徽标都有可能受版权保护。
不负责任地使用复制材料或刮擦数据会侵犯版权。在许多司法管辖区,这很可能被视为基于道德的互联网搜刮行为。然而,这意味着从其他来源复制或非法分发任何数据。在某些情况下,需要为分析目的搜索受版权保护的内容。在这种情况下,你必须考虑使用它们的方式。
您是否在搜索非公开数据?
网站一般会保持其信息的可自由访问性。只要是安全的,公开访问的数据都可以被抓取。
非公开数据是指网络上并非所有人都能访问的数据。如果数据来自需要登录才能访问的网页,那么它就不是公众可以访问的数据。
您是否在搜索个人数据?
不同的司法管辖区对个人数据的访问和使用有不同的规定。在美国的某些州可能可以搜刮个人数据,但在加利福尼亚州可能会遇到一些麻烦。欧盟对个人信息非常敏感。因此,在搜索此类数据之前,您可能需要查阅《数据保护条例》(GDPR)。
爬行速度可以忍受吗?
抓取网站会使其服务器超载并崩溃。大多数网站都建议在任何 robot.txt 文件中设置 "抓取延迟 "指令。假设页面没有指定抓取延迟方向。在这种情况下,以最高速率计算,平均请求时间为 20 秒。
您遵守使用条款了吗?
ToU 协议可以是浏览协议,也可以是点击协议。点击协议包括用户点击按钮的协议,而浏览协议则不需要任何用户操作。
如果您遵守所有规定条款,您的网络搜刮活动就不会有任何问题。
您是否遵守 robots.txt 文件?
Robots 排除协议是网络机器人的网络标准。Robots.txt告诉你网站的哪些部分可以抓取和索引,哪些应该排除在外。
结论
在抓取网络数据时,请注意版权法和使用条款协议中关于抓取内容速度的规定,确保不超出法律范围。您还需要避免访问私人信息,尤其是个人数据。