Web scraping là hợp pháp, đối với hầu hết các phần.
Lái xe ô tô cũng vậy... cho đến khi bạn vi phạm pháp luật.
Tuy nhiên, các quy tắc không rõ ràng xung quanh việc quét web như với một cái gì đó như luật giao thông.
Bài viết này sẽ đề cập đến những gì bạn cần biết về web scraping, bao gồm tính hợp pháp của nó, cách thức hoạt động và một số quan niệm sai lầm phổ biến liên quan đến web scraping.
Web scraping là gì?
Web scraping là một kỹ thuật thu thập dữ liệu bạn có thể sử dụng để trích xuất thông tin từ internet.
For a simple introduction to web scraping, this blog post lays the groundwork.
In a nutshell, automated scripts or programs gather data by crawling, APIs, HTML parsing tools, and screen capturing software.
Nó hoạt động bằng cách làm theo mã nguồn HTML, trích xuất dữ liệu phi cấu trúc và phân tích cú pháp nó thành dữ liệu có cấu trúc. Trình thu thập dữ liệu web tuân theo các hướng dẫn về cách mỗi trang web sẽ được chuyển qua, những yếu tố nào cần được trích xuất và những kết quả đó sẽ đi đâu trong ứng dụng của riêng chúng.
Về bản chất, điều này có nghĩa là viết các hướng dẫn ngôn ngữ lập trình máy tính và hiểu phần nào của tài liệu HTML chứa các loại nội dung cụ thể để trích xuất. Chẳng hạn như chuỗi văn bản, số / ngày / giá trị tiền tệ, liên kết truyền thông xã hội, v.v.
Tại sao nên sử dụng web scrapers?
Dữ liệu giúp đưa ra quyết định là có giá trị. Vì vậy, nếu tôi liệt kê tất cả các lý do thu thập dữ liệu tự động, sẽ mất nhiều thời gian. Nhưng đây là một vài ví dụ phổ biến:
- Trích xuất dữ liệu về các trang web hoặc dịch vụ trực tuyến của đối thủ cạnh tranh để có lợi thế hơn họ
- Cải thiện thứ hạng công cụ tìm kiếm thông qua phân tích liên kết. Ví dụ: trình thu thập dữ liệu web có thể được thiết lập để theo các liên kết giữa các bài đăng trên phương tiện truyền thông xã hội cung cấp thông tin chi tiết có giá trị về cách người dùng phản hồi với các chủ đề cụ thể.
- Sắp xếp một lượng lớn văn bản phi cấu trúc thành một dạng có cấu trúc như bảng tính giúp phân tích dễ dàng hơn.
- Tạo cổng web để người dùng tìm kiếm và duyệt web bằng cách tập hợp các loại nội dung khác nhau từ nhiều trang web khác nhau vào một nơi.
- Thu thập dữ liệu không có sẵn thông qua API hoặc biểu mẫu như video, âm thanh, hình ảnh, v.v.
- Theo dõi các trang web của một chủ đề cụ thể hoặc đối thủ cạnh tranh để biết các thay đổi và tự động cập nhật dữ liệu trong các ứng dụng khác
Tại sao đại diện xấu?
Web scraping là vô hại nếu việc trích xuất dữ liệu xảy ra mà không vi phạm bất kỳ quy tắc hoặc luật nào chi phối các mục tiêu. Tuy nhiên, điều đó không phải lúc nào cũng đúng. Các nhân vật bất chính hoặc tin tặc cố tình khai thác việc quét web mọi lúc. Trong số tất cả các vi phạm, đánh cắp dữ liệu là phổ biến nhất.
Bạn không cần phải là một hacker để đánh dấu chủ sở hữu trang web.
Trong quá trình quét web, bạn gửi nhiều yêu cầu đến một trang web để lấy thông tin. Nhiều hơn một người dùng thông thường. Nếu không liên quan đến trang web, nó có thể gây ra tải lớn và làm sập máy chủ trong một số trường hợp.
Mà có thể tốn kém.
Các cuộc tấn công DDOS xảy ra do quá tải, vì vậy không có gì ngạc nhiên khi những người quét web yêu cầu hài lòng bị cau mày.
Mặc dù quét web có thể rất hữu ích, nhưng điều quan trọng là phải ở trong ranh giới pháp lý, vì vậy bạn không có nguy cơ vi phạm bất kỳ luật nào!
Tuy nhiên, chúng tôi vẫn đang chờ phán quyết cuối cùng (ít nhất là ở Hoa Kỳ) về việc liệu phần mềm quét web có cấu thành vi phạm bản quyền hay không. Một số tòa án đã ra phán quyết chống lại nó trong khi các tòa án khác ủng hộ tính hợp pháp của nó.
Vì vậy, cho đến khi vấn đề này được giải quyết, bạn nên thận trọng.
Các vụ án tòa án quét web
Phán quyết từ các vụ án của tòa án đặt ra tiền lệ pháp lý cho các trường hợp trong tương lai. Hiện tại, tính hợp pháp của việc quét web dường như hơi mơ hồ, nhưng thật tốt khi nhận thức được những quyết định đã được đưa ra.
Tôi sẽ tập trung vào các trường hợp cạo hàng đầu tạo tiền đề cho các khiếu nại pháp lý trong tương lai như vi phạm bản quyền hoặc Đạo luật Gian lận và Lạm dụng Máy tính (CFAA).
Facebook vs. Power Ventures (2011)
Đây là một trong nhiều tranh chấp gây tranh cãi cao với Google về chính sách bảo mật của hãng. Facebook đã kiện Power Ventures vì thu thập dữ liệu người dùng của họ và hiển thị nó trên trang web của riêng họ.
Phán quyết thuộc về Facebook, người đã đệ đơn khiếu nại rằng Power Ventures đã vi phạm Đạo luật CAN-SPAM, CFAA, DMCA và luật bản quyền.
Associated Press and Meltwater (2013)
Vào tháng 5 năm 2010, Associated Press đã kiện một công ty giám sát phương tiện truyền thông kỹ thuật số có tên Meltwater sử dụng công nghệ thu thập dữ liệu web để tìm kiếm các câu chuyện.
AP tuyên bố họ không được trả tiền cho công việc của họ vì nó đang bị sao chép, cho phép họ truy cập vào nội dung miễn phí.
Trong trường hợp này, web scraper được phán quyết là bất hợp pháp vì chúng làm suy yếu giá trị công việc của AP bằng cách cung cấp miễn phí.
Ryanair v. PR Aviation (2015)
P.R. Aviation là một dịch vụ tổng hợp giá chuyến bay sử dụng tính năng quét màn hình để nắm bắt giá trang web trực tuyến của Ryanair. Vào ngày 15 tháng 1, Tòa án Công lý của Liên minh châu Âu đã đưa ra một quyết định có khả năng ảnh hưởng đáng kể đến cả các nhà khai thác cơ sở dữ liệu trang web và những người tiến hành "quét màn hình" (chẳng hạn như các trang web so sánh giá).
Phán quyết cho thấy chủ sở hữu trang web có thể thực thi các điều khoản của trang web của họ thông qua các thỏa thuận hợp đồng. Điều này có nghĩa là ngay cả dữ liệu có sẵn công khai cũng có thể được bảo vệ.
HiQ Labs v. LinkedIn (2019)
Các phòng thí nghiệm HiQ có thể thu thập dữ liệu từ hồ sơ LinkedIn công khai để cung cấp các công cụ kinh doanh để tìm hiểu quan điểm của nhân viên. HiQ yêu cầu lệnh cấm tại tòa án. Nó đã được chấp thuận, khiến LinkedIn ngừng gửi thư C&D và áp dụng các biện pháp chặn đối với HiQ.
LinkedIn sau đó đã đảo ngược quyết định một ngày sau đó, nói rằng nó đã vi phạm Mục 2 của CFAA. Phán quyết ủng hộ các công ty cạo và tái khẳng định sự chắc chắn của thực tiễn tòa án được thông qua gần đây về khả năng áp dụng của đạo luật.
Bạn có thể thực sự gặp rắc rối khi thu thập dữ liệu?
Câu trả lời ngắn gọn là có! Có luật bảo vệ các công ty sở hữu nội dung trên trang web của họ chống lại sự truy cập trái phép của bên thứ ba như bot cạo hoặc các chương trình phần mềm tự động khác.
Câu trả lời dài phụ thuộc vào nơi bạn sống, nhưng nói chung, có ít nhất năm vấn đề pháp lý bạn nên biết:
- Vi phạm bản quyền
- Phỉ báng nhân vật hoặc thực tiễn kinh doanh
- Quyền riêng tư/công khai
- Chiếm đoạt (trộm cắp) nội dung web
- Kỹ thuật hack để truy cập nội dung web
Đây là những vấn đề pháp lý quan trọng nhất bạn cần biết khi theo đuổi việc thu thập dữ liệu. Tuy nhiên, đây không phải là một danh sách đầy đủ mà là một bản tóm tắt chung có thể thay đổi tùy thuộc vào nơi bạn sống và ai sở hữu trang web được đề cập.
Để biết thêm thông tin chi tiết về vị trí địa lý của bạn, vui lòng tham khảo ý kiến luật sư chuyên về luật internet trong phạm vi quyền hạn của bạn. Bài viết này KHÔNG phải là tư vấn pháp lý chuyên nghiệp!
Để tránh có khả năng vi phạm bất kỳ luật nào trong số này, bạn nên đảm bảo thông tin nào là công khai so với riêng tư và cách họ muốn thu thập web được thực hiện trên trang web của họ. Cho dù thông qua biểu mẫu web hoặc khóa API chẳng hạn.
Các trang web thường đăng các thông báo pháp lý như thế này:
"Trang web này có thể chứa tài liệu có bản quyền đã được sử dụng với sự cho phép của chủ sở hữu." Nếu bạn thấy thông báo như vậy, điều đó có nghĩa là chủ sở hữu trang này không cho phép quét web mà không có sự đồng ý trước bằng văn bản hoặc thỏa thuận giữa các bên liên quan.
Điều tương tự cũng xảy ra nếu không có đề cập đến tất cả các bot cạp. Quản trị viên web của họ có thể cấm thu thập dữ liệu trên trang web của họ. Trong những trường hợp như vậy, bạn không nên cố gắng truy cập chúng mà không có sự cho phép bằng văn bản của (các) chủ sở hữu. Cách tốt nhất là luôn xin phép trước!
Các luật xung quanh việc quét web
Chúng tôi đã đề cập đến một số trường hợp tòa án và cách các luật cụ thể có thể phát sinh từ chúng. Dưới đây là tóm tắt các vi phạm bạn có thể xem xét trước khi bắt đầu các dự án quét web tiếp theo của mình:
- The Digital Millennium Copyright Act (DMCA) is a U.S. law that makes using web scrapers illegal on websites that you don’t own. For example, news sites or any site with user-generated content such as Facebook groups; however, this does not apply if your use falls under fair use.
- Đạo luật Lạm dụng và Gian lận Máy tính (CFAA) là luật của Hoa Kỳ quy định việc quét web là bất hợp pháp nếu bạn phá vỡ các biện pháp bảo mật hoặc cố ý truy cập web mà không được phép. Tuy nhiên, điều này không áp dụng cho việc sử dụng các ứng dụng là các công cụ mã nguồn mở, có sẵn công khai, phi thương mại cho phép bạn lấy dữ liệu web miễn phí. Những loại công cụ quét web này thuộc trường hợp sử dụng hợp lý, vì vậy chúng hoàn toàn hợp pháp để sử dụng trên các trang web có nội dung do người dùng tạo như nhóm Facebook.
- Xâm phạm chattel là một thuật ngữ pháp lý để sử dụng bất công tài sản kỹ thuật số. Đây có thể là quét web nếu bạn đang sử dụng trình quét web để thu thập dữ liệu mà không được phép.
- Điều khoản dịch vụ / chính sách bảo mật có thể cấm quét web trên các trang cụ thể, vì vậy hãy luôn kiểm tra những điều này trước khi bạn quyết định thu thập dữ liệu.
- Chủ sở hữu nội dung có thể khiếu nại vi phạm bản quyền vì họ tin rằng tác phẩm của họ đã bị sao chép mà không được phép.
- Trình quét web có thể bị chặn bởi ISP (Nhà cung cấp dịch vụ Internet) nếu việc quét web là bất hợp pháp.
- Chủ sở hữu trang web có thể nộp đơn kiện bất kỳ công ty nào có tốc độ thu thập dữ liệu cao gây ra sự cố máy chủ hoặc vi phạm quyền sở hữu trí tuệ của công ty. Hãy chắc chắn rằng thiệt hại không gây ra dưới bất kỳ hình thức nào. Bạn có thể không chịu trách nhiệm nếu bạn gây ra bất kỳ thiệt hại nào cho điều kiện và hàng hóa của khu vực này.
Tìm hiểu cách proxy dân dụng có thể tiết kiệm mông của bạn trong khi bạn thu thập dữ liệu.
Điều khoản sử dụng và cạo
Các trang web có nên hạn chế việc thu thập dữ liệu một cách hợp pháp không? Điều đó có thể đúng. Không có gì ngăn cản các nhà khai thác trang web soạn thảo các hợp đồng không thể tránh khỏi để truy cập nội dung của họ.
Liệu những điều khoản này có thực sự chứng minh được khả năng thực thi? Lý thuyết pháp lý đằng sau khả năng thực thi hợp đồng khá phức tạp. Tuy nhiên, nó đáng để xem xét một số thỏa thuận đang lưu hành.
Thỏa thuận Browsewrap
Các thỏa thuận thường có thể được tìm thấy trên trang chủ hoặc dưới dạng cửa sổ bật lên. Các lý thuyết pháp lý thường bỏ qua giá trị pháp lý của các hợp đồng như vậy. (Không phải ai cũng cho phép cửa sổ bật lên)
Tuy nhiên, có những nghiên cứu điển hình được đón nhận nồng nhiệt về phán quyết của Wikipedia ủng hộ các thỏa thuận browsewrap.
Thỏa thuận Clickwrap
Clickwrap là một hợp đồng trung thực và hợp lý cần được thực thi nếu tòa án muốn. Loại thỏa thuận này phổ biến rộng rãi cho các cửa hàng trực tuyến và trong các hình thức đăng ký. Thỏa thuận Clickwrap yêu cầu người dùng thực hiện hành động chứ không phải chỉ duyệt web.
Bằng chứng là một ví dụ từ vụ Ryanair, các tòa án đang sẵn sàng thực hiện các quyết định này.
Vậy việc quét web có hợp pháp không?
Hầu hết, có!
Web scraping là một công cụ đáng kinh ngạc cho các công ty muốn phát triển doanh nghiệp của họ với các nguồn lực bổ sung hoặc những hiểu biết mới về nghiên cứu thị trường của họ. Web có nhiều loại nội dung luôn miễn phí để truy cập công cộng trừ khi nó được quy định chặt chẽ trong điều khoản sử dụng trước.
6 câu hỏi để tự hỏi mình trước khi bạn cạo
Hãy tự hỏi mình 6 câu hỏi thực tế này về đạo đức cạo web của bạn để tuân thủ hơn.
Bạn đang thu thập dữ liệu có bản quyền?
Nhiều nội dung của internet phải tuân theo một số loại quyền nhãn hiệu. Âm nhạc, tin tức, blog, luận văn, hình ảnh, tạp chí, cơ sở dữ liệu và logo có khả năng có bản quyền.
Sử dụng tài liệu sao chép hoặc dữ liệu thu thập được vi phạm quyền bản quyền một cách vô trách nhiệm. Đây cũng có thể được coi là một cuộc cạo internet dựa trên đạo đức ở nhiều khu vực pháp lý. Tuy nhiên, điều này ngụ ý việc thu thập bất kỳ dữ liệu nào được sao chép thông qua một nguồn khác hoặc phân phối chúng bất hợp pháp. Một số tình huống yêu cầu thu thập nội dung có bản quyền cho mục đích phân tích. Trong những trường hợp như vậy, bạn phải xem xét cách bạn sử dụng chúng.
Bạn đang thu thập dữ liệu không công khai?
Các trang web thường giữ thông tin của họ có thể truy cập tự do. Dữ liệu có thể truy cập công khai có thể được cạo miễn là nó an toàn.
Dữ liệu không công khai là thứ không phải ai cũng có thể truy cập được trên web. Nếu dữ liệu đến từ các trang bạn cần đăng nhập để truy cập, thì dữ liệu đó không thể truy cập công khai.
Bạn đang thu thập dữ liệu cá nhân?
Các khu vực pháp lý khác nhau có các quy định khác nhau về truy cập và sử dụng dữ liệu cá nhân. Mặc dù có thể thu thập dữ liệu cá nhân ở một số tiểu bang của Hoa Kỳ, nhưng bạn có thể gặp một chút rắc rối ở California. EU rất nhạy cảm với thông tin cá nhân. Vì vậy, bạn có thể muốn xem lại Quy định bảo vệ dữ liệu (GDPR) trước khi thu thập dữ liệu đó.
Tốc độ thu thập dữ liệu có chấp nhận được không?
Các trang web cạo có thể làm quá tải máy chủ của họ và làm sập chúng. Hầu hết các trang web đề xuất lệnh "độ trễ thu thập dữ liệu" trên bất kỳ tệp .txt robot nào mà họ có. Giả sử trang không chỉ định hướng thu thập dữ liệu-độ trễ. Trong trường hợp đó, thời gian yêu cầu trung bình là 20 giây ở tốc độ cao nhất có thể.
Bạn có tuân thủ các điều khoản sử dụng không?
Thỏa thuận ToU có thể là thỏa thuận duyệt qua hoặc nhấp qua. Các thỏa thuận clickwrap bao gồm các thỏa thuận mà người dùng nhấp vào các nút và thỏa thuận browsewrap không yêu cầu bất kỳ hành động nào của người dùng.
Nếu bạn làm theo tất cả các điều khoản được đặt ra, bạn sẽ không gặp vấn đề gì với các hoạt động quét web của mình.
Bạn có tuân thủ tệp .txt robot không?
Giao thức loại trừ robot là tiêu chuẩn web cho robot web. Robot.txt cho bạn biết về những phần nào của trang web bạn có thể thu thập dữ liệu và lập chỉ mục, những phần cần được loại trừ.
Kết thúc
Khi thu thập dữ liệu web, hãy đảm bảo bạn ở trong ranh giới pháp lý bằng cách biết luật bản quyền và thỏa thuận điều khoản sử dụng về tốc độ thu thập dữ liệu của bất kỳ nội dung nào. Bạn cũng cần tránh truy cập thông tin cá nhân - đặc biệt nếu đây là dữ liệu cá nhân.