在大多數情況下,網路抓取是合法的。
開車也是如此...直到你觸犯法律。
但是,圍繞網路抓取的規則並不像交通法規之類的規則那樣明確。
本文將介紹您需要瞭解的有關網路抓取的資訊,包括其合法性、工作原理以及與網路抓取相關的一些常見誤解。
什麼是網頁抓取?
網頁抓取是一種數據收集技術,可用於從互聯網中提取資訊。
For a simple introduction to web scraping, this blog post lays the groundwork.
In a nutshell, automated scripts or programs gather data by crawling, APIs, HTML parsing tools, and screen capturing software.
它的工作原理是遵循 HTML 原始程式碼,提取非結構化數據,然後將其解析為結構化數據。Web 爬蟲遵循有關如何遍歷每個網頁、需要提取哪些元素以及這些結果應在其自己的應用程式中的位置的說明。
從本質上講,這意味著編寫計算機程式設計語言指令並瞭解HTML文檔的哪些部分包含特定類型的內容以進行提取。例如文字字串、數位/日期/貨幣值、社交媒體連結等...
為什麼要使用網路爬蟲?
有助於做出決策的數據很有價值。因此,如果我要列出自動數據收集的所有原因,這將需要很長時間。但這裡有一些流行的例子:
- 提取有關競爭對手網站或在線服務的數據,以獲得競爭優勢
- 通過連結分析提高搜尋引擎排名。例如,可以將網路爬蟲設置為跟蹤社交媒體帖子之間的連結,這些帖子提供有關使用者如何回應特定主題的寶貴見解。
- 將大量非結構化文本組織成結構化形式,如電子錶格,使其更易於分析。
- 通過將來自許多不同網頁的各種內容彙集到一個位置,為用戶創建 Web 門戶以搜索和流覽 Web。
- 收集無法通過 API 或表單(如視頻、音訊、圖像等)獲得的數據。
- 監控特定主題或競爭對手的網頁是否有更改,並自動更新其他應用程式中的數據
為什麼是糟糕的代表?
如果數據提取在不違反管理目標的任何規則或法律的情況下進行,則網路抓取是無害的。然而,情況並非總是如此。邪惡的角色或駭客一直在故意利用網路抓取。在所有違規行為中,數據盜竊最為普遍。
您不必成為駭客即可勾選網站擁有者。
在網路抓取過程中,您向網站發送了許多請求以獲取資訊。遠遠超過典型使用者。如果不考慮該網站,在某些情況下可能會導致大量負載並使伺服器崩潰。
這可能很昂貴。
DDOS攻擊是由於過載而發生的,因此請求滿意的網路爬蟲不受歡迎也就不足為奇了。
雖然網路抓取可能非常有用,但保持在法律範圍內至關重要,這樣您就不會冒違反任何法律的風險!
但是,我們仍在等待關於網路抓取軟體是否構成侵犯版權的最終裁決(至少在美國)。一些法院裁定它不利,而其他法院則贊成它的合法性。
所以在這件事解決之前,你應該謹慎。
網頁抓取法庭案件
法院案件的裁決為未來的案件樹立了法律先例。截至目前,網路抓取的合法性似乎有點模棱兩可,但最好了解已經做出了哪些決定。
我將重點介紹旗艦抓取案例,這些案例為未來的抓取法律索賠(如版權侵權或計算機欺詐和濫用法案 (CFAA))奠定了基礎。
Facebook vs. Power Ventures (2011)
這是與谷歌在隱私政策方面存在許多極具爭議的爭議之一。Facebook起訴Power Ventures收集用戶數據並將其顯示在自己的網站上。
該裁決由Facebook做出,該公司曾投訴Power Ventures違反了CAN-SPAM法案,CFAA,DMCA和版權法。
Associated Press and Meltwater (2013)
2010年5月,美聯社起訴一家名為Meltwater的數位媒體監控公司,該公司使用網路爬蟲技術搜索故事。
美聯社聲稱他們沒有得到報酬,因為他們的工作被複製,允許他們訪問免費內容。
在這種情況下,網路爬蟲被裁定為非法,因為它們通過免費提供而破壞了AP工作的價值。
Ryanair v. PR Aviation (2015)
PR Aviation是一項航班價格匯總服務,它使用螢幕抓取來捕獲Ryanair的在線網站價格。1月15日,歐盟法院發佈了一項裁決,該裁決有可能對網站資料庫運營商和進行“螢幕抓取”的運營商(例如價格比較網站)產生重大影響。
該裁決表明,網站擁有者可以通過合同協定執行其網站的條款。這意味著即使是公開可用的數據也可以受到保護。
HiQ Labs v. LinkedIn (2019)
HiQ實驗室可以從公共LinkedIn檔案中收集數據,以提供業務工具來了解員工的觀點。HiQ在法庭上請求禁令。它被批准,導致LinkedIn停止發送C&D信件並對HiQ採取阻止措施。
LinkedIn隨後在一天后推翻了這一決定,稱其違反了CFAA第2條。該裁決有利於刮板公司,並重申了最近通過的法院關於該法案適用性的慣例的確定性。
您真的會在抓取數據時遇到麻煩嗎?
簡短的回答是肯定的!有法律保護擁有其網站上內容的公司免受第三方未經授權的訪問,例如抓取機器人或其他自動化軟體程式。
長答案取決於您居住的地方,但一般來說,您至少應該注意五個法律問題:
- 侵犯版權
- 誹謗人格或商業行為
- 隱私權/公開權
- 盜用(盜竊)網頁內容
- 訪問 Web 內容的駭客技術
這些是您在進行數據收集時需要注意的最關鍵的法律問題。但是,這不是一個詳盡的清單,而是一個一般摘要,可能會因您居住的地方以及相關網站的所有者而異。
有關您所在地理位置的更多詳細資訊,請諮詢您所在司法管轄區內專門從事互聯網法律的律師。本文不構成專業法律意見!
為避免可能違反任何這些法律,您應該確保哪些資訊是公開的還是私人的,以及他們希望如何在其網站上執行網路收集。例如,無論是通過 Web 表單還是 API 金鑰。
網站經常發佈這樣的法律聲明:
“本網站可能包含經其所有者許可使用的受版權保護的材料。”如果您看到此類通知,則表示此頁面的擁有者不允許未經事先書面同意或相關各方之間的協定進行網路抓取。
如果根本沒有提到刮板機器人,情況也是如此。他們的網站管理員可能會禁止在其網站上抓取數據。在這種情況下,未經擁有者書面許可,您不應嘗試訪問它們。最好先徵求許可!
有關網頁抓取的法律
我們已經介紹了一些法庭案件以及它們如何產生具體法律。以下是您在開始下一個網路抓取專案之前可能會考慮的違規行為摘要:
- The Digital Millennium Copyright Act (DMCA) is a U.S. law that makes using web scrapers illegal on websites that you don’t own. For example, news sites or any site with user-generated content such as Facebook groups; however, this does not apply if your use falls under fair use.
- 《計算機欺詐和濫用法案》(CFAA) 是一項美國法律,如果您規避安全措施或故意未經授權訪問網路,則網路抓取是非法的。但是,這不適用於使用開源、公開可用的非商業工具的應用程式,這些工具可以讓您免費提取 Web 資料。這些類型的網路抓取工具屬於合理使用,因此在包含使用者生成內容的網站(例如 Facebook 群組)上使用它們是完全合法的。
- 非法侵入動產是不當使用數位財產的法律術語。如果您使用網路抓取工具未經許可收集數據,這可能是網路抓取。
- 服務條款/隱私政策可能會禁止在特定頁面上進行網路抓取,因此在決定抓取數據之前,請務必檢查這些內容。
- 內容擁有者可能會聲稱侵犯了版權,因為他們認為自己的作品未經許可被複製。
- 如果網路抓取是非法的,則 ISP(互聯網服務提供者)可能會阻止網路抓取器。
- 網站擁有者可以對任何高爬網率導致伺服器崩潰或侵犯其智慧財產權的公司提起訴訟。確保不會以任何方式造成損壞。如果您對該區域的條件和貨物造成任何損害,您可能不承擔任何責任。
瞭解 住宅代理 如何在您抓取數據時節省您的屁股。
使用條款和抓取
網站應該合法地限制數據抓取嗎?這可能是真的。沒有什麼能阻止網站運營商起草不可避免的合同來訪問他們的內容。
這些規定真的能證明可執行性嗎?合同執行能力背後的法律理論相當複雜。不過,值得看看一些流通中的協定。
瀏覽包裝協定
協定通常可以在主頁上或彈出視窗中找到。法律理論通常忽略了此類合同的法律價值。(不是每個人都允許彈出視窗)
然而,關於維琪百科裁決支援瀏覽包裝協定的案例研究廣受好評。
點擊生效協定
點擊生效是一項誠實合理的合同,如果法院需要,應該強制執行。這種類型的協議在在線商店和註冊表單中很普遍。點擊生效協定要求使用者執行操作,而不是單獨流覽。
正如里安航空案的一個例子所證明的那樣,法院正在隨時執行這些決定。
那麼網頁抓取合法嗎?
大多數情況下,是的!
對於希望通過額外資源或對市場研究的新見解來發展業務的公司來說,網路抓取是一種令人難以置信的工具。網路有許多類型的內容,除非事先使用條款受到嚴格監管,否則應始終免費供公眾訪問。
刮擦前要問自己的6個問題
問自己這 6 個關於您的網路抓取道德的實際問題,以使其更加合規。
您是否正在抓取受版權保護的數據?
互聯網上的許多內容都受到某種商標權的約束。音樂、新聞、博客、論文、圖片、雜誌、資料庫和徽標可能受版權保護。
使用複製的材料或抓取的數據不負責任地侵犯了版權。在許多司法管轄區,這很可能被認為是一種基於道德的互聯網抓取。但是,這意味著抓取通過其他來源複製的任何數據或非法分發它們。在某些情況下,出於分析目的需要抓取受版權保護的內容。在這種情況下,您必須考慮使用它們的方式。
您是否正在抓取非公開數據?
網站通常可以自由訪問其資訊。只要安全,就可以抓取可公開訪問的數據。
非公開數據是網路上的每個人都無法訪問的東西。如果數據來自您需要登錄才能訪問的頁面,則無法公開訪問。
您是否正在抓取個人數據?
不同的司法管轄區對個人數據的訪問和使用有不同的規定。雖然在美國某些州抓取個人數據可能是可以的,但在加利福尼亞州您可能會遇到一些麻煩。歐盟對個人資訊非常敏感。因此,您可能需要在抓取此類數據之前查看數據保護條例 (GDPR)。
爬行率可以容忍嗎?
抓取網站可能會使其伺服器過載並崩潰。大多數網站建議在他們擁有的任何機器人.txt檔上設置「抓取延遲」 指令。假設網頁未指定爬網延遲方向。在這種情況下,平均請求時間以盡可能高的速率為 20 秒。
您是否遵守使用條款?
ToU 協定可以是瀏覽協定或點擊協定。點擊生效協定由使用者點擊按鈕的協定組成,瀏覽包裝協定不需要任何使用者操作。
如果您遵守列出的所有條款,您的網路抓取活動將不會有任何問題。
您是否符合機器人.txt檔?
機器人排除協定是網路機器人的網路標準。機器人.txt告訴您可以抓取和索引網站的哪些部分,哪些部分應該被排除。
結論
在抓取 Web 數據時,請務必瞭解版權法和使用條款協議,瞭解任何內容應以多快的速度進行爬網,從而確保遵守法律界限。您還需要避免訪問私人資訊 - 特別是如果這是個人數據。