Web scraping là một công việc tiết kiệm thời gian thực sự, nhưng đó chỉ là một nửa câu chuyện.
Nó cũng có thể làm cho bạn giàu có.
(Có dữ liệu)
Được rồi, đó là một chút vô vị - nhưng nó không phải là trò đùa - dữ liệu là vàng kỹ thuật số.
(Xin lỗi bitcoin)
But before we Scrooge McDuck dive into any binary nuggets, we should gloss over a few things web scraping. Here’s what I propose:
Bạn làm hòa với bất kỳ sự hài hước nào của người cha ám ảnh những trang này, và tôi sẽ đi thẳng vào vấn đề chính xác việc quét web là gì và làm thế nào nó có thể mang về nhà thịt xông khói. hoặc bắp cải. (Thân thiện với người ăn chay).
Web scraping là gì?
Web scraping là khi ai đó thu thập dữ liệu từ internet. (Hãy suy nghĩ sao chép và dán, nhưng nhanh hơn)
Họ sử dụng một ứng dụng hoặc tập lệnh để tự động thu thập dữ liệu, loại bỏ mọi thông tin không cần thiết và sắp xếp nó trong thư viện.
Web scrapers tải về một robot.txt tập tin để tìm ra nơi họ có thể đi trên một trang web. Sau đó, họ theo các liên kết đến các trang mới và biên soạn một danh sách hoặc "hàng đợi thu thập dữ liệu".
Nó tương tự như xếp hàng danh sách phát trên Spotify khi bạn khám phá các bài hát bạn thích. Ngoại trừ một vòm miệng cạo web không có hương vị tinh tế như vậy và xếp hàng mọi thứ.
Khi scraper tiếp tục xuống danh sách ngày càng tăng, nó phân nhánh thành các trang khác nhau cho đến khi công việc của nó hoàn thành.
Chính xác thì cái gì mà một cái trầy xước?
Tất nhiên là web. Cụ thể hơn, bạn thu thập thông tin có giá trị từ các trang web có thể được sử dụng để bắt đầu và điều hành một doanh nghiệp, đóng góp cho các dự án nghiên cứu và tự động hóa các nhiệm vụ tẻ nhạt.
Một vài ví dụ khác bao gồm:
- Bạn có thể xem tin tức và nguồn cấp dữ liệu truyền thông xã hội để xem đối thủ cạnh tranh đang làm gì.
- Tìm hiểu những sản phẩm đang hot trên eBay.
- Cung cấp giá tốt nhất cho du lịch hàng không với giá tổng hợp.
- Quét tìm sự khác biệt về giá trị có thể mang lại lợi nhuận.
Bạn có thể lập trình web scraper để làm bất cứ điều gì bạn có thể làm trực tuyến - nhưng nhanh hơn hàng ngàn lần.
Làm thế nào để bạn có được một web scraper?
Bạn có thể viết scraper của riêng bạn từ đầu, hoặc bạn có thể sử dụng những gì người khác đã viết. Nếu bạn không phải là một lập trình viên, thì có lẽ bạn nên chọn một cái gì đó như Octoparse sẽ tiết kiệm thời gian và tăng tốc quá trình.
Một ví dụ đã xuất hiện được một thời gian là API YQL (Yahoo Query Language) của Yahoo. Nó cung cấp quyền truy cập vào nhiều loại nguồn dữ liệu khác nhau bao gồm nguồn cấp dữ liệu RSS, dự báo thời tiết địa phương hoặc danh sách phim - bất cứ thứ gì được cập nhật trực tuyến thường xuyên đều có sẵn thông qua dịch vụ này mà không cần bất kỳ mã hóa bổ sung nào. Điều tuyệt vời là nó không cần phải giới hạn ở các trang web mà còn có thể nhận được báo giá thị trường chứng khoán, giám sát nguồn cấp tin tức truyền thông xã hội hoặc báo cáo tài chính.
Đó là trường học khá cũ mặc dù.
Dưới đây là một số ví dụ về tiện ích mở rộng scraping hiện đại cho trình duyệt của bạn:
1. Trình quét dữ liệu (Chrome)
Với phiên bản miễn phí, bạn có thể cạo tới 500 trang dữ liệu mỗi tháng. Nó không nhiều, nhưng nếu bạn muốn nhiều hơn, bạn có thể nâng cấp lên gói trả phí.
2. Trình quét web
Trình quét này có cả tiện ích mở rộng chrome và đám mây hoạt động với một điểm và nhấp đơn giản không yêu cầu kinh nghiệm viết mã. Nó hoạt động với các ngôn ngữ web hiện tại và dễ dàng tích hợp với phần mềm tự động hóa và proxy.
3. Trình cạp (Chrome)
Phần mềm này rất dễ sử dụng, nhưng tôi khuyên bạn nên có một số kinh nghiệm về mã hóa. Nếu bạn nhấp vào bất kỳ văn bản nào trong bảng hoặc danh sách và sau đó chọn "Scrape Similar" từ menu trình duyệt, bạn có thể nhận thông tin và nội dung bằng cách thêm các cột mới bằng XPath hoặc JQuery.
Tôi có thể tiếp tục và tiếp tục - web có đầy đủ các công cụ cạo. Khi bạn chọn cái nào để sử dụng, có một vài điều cần suy nghĩ:
Bạn có bao nhiêu thời gian? Đây là điều bạn đang làm thường xuyên hay chỉ một lần?
Ngân sách của bạn là bao nhiêu? Bạn đã sở hữu phần mềm như Google Analytics có khả năng thu thập dữ liệu web được tích hợp sẵn, vậy tại sao phải trả nhiều tiền hơn nếu những gì bạn cần là miễn phí?
Làm thế nào để thực sự kiếm tiền cạo web
Thế giới rộng lớn của web scraping tập trung vào một thành phần chính: thông tin.
Thông tin đó có thể được sử dụng như một loại tiền tệ trong tất cả các cách trao đổi kinh doanh:
- Trực tiếp bán hoặc tận dụng thông tin
- Hỗ trợ tự động hóa doanh nghiệp
- Tối ưu hóa giao dịch và thương mại
Việc bán thông tin khá đơn giản - toàn bộ phim gián điệp xoay quanh một ổ đĩa chứa thông tin có giá trị.
Nhưng còn tự động hóa và thương mại thì sao?
Hãy nhìn nó theo cách này:
Mỗi sản phẩm cho đến pixel là thông tin.
1. Bắt đầu kinh doanh bán thông tin.
- Chuyên gia tài chính - Tổng hợp các tin tức và sự kiện tác động đến thị trường chứng khoán, bất động sản và tiền điện tử.
- SEO phi thường - Cung cấp nghiên cứu từ khóa và tư vấn tiếp thị nội dung.
- Tư vấn kinh doanh – Cung cấp thông tin chi tiết về cạnh tranh trong ngành và xu hướng thị trường.
Trong những trường hợp này, bạn sẽ tìm kiếm thông tin mà mọi người đã trả tiền và đóng gói nó như một sản phẩm. Bạn cũng có thể cung cấp nó miễn phí trên trang web của mình để ghi lưu lượng truy cập hoặc bán hết dưới dạng quảng cáo liên kết.
2. Web scraping như một dịch vụ trung gian.
- Tổng hợp giá vé du lịch – Quét web để biết giá tốt nhất về vé máy bay, khách sạn và các dịch vụ du lịch khác dưới dạng dịch vụ. Điều này đòi hỏi phải quét web liên tục trên vô số trang web du lịch, vì vậy bạn sẽ cần sử dụng proxy dân cư luân phiên. Như bạn có thể biết, Google triển khai Google Spiders để mang đến cho bạn những thông tin mới nhất về khách sạn và vé máy bay. Trong khi đó, các công ty khác như Expedia, Skyscanner và Hostelworld tận dụng các hốc du lịch khác nhau.
- Môi giới chứng khoán hoặc quản lý quỹ phòng hộ - Mọi người đều là thiên tài đầu tư sau khi họ mua cổ phiếu hoặc đồng tiền điện tử đầu tiên của mình. Nhưng bất cứ ai có hồ sơ theo dõi giữ danh mục đầu tư của họ trong màu xanh lá cây đều nhận thức rõ về sự thiên vị thông tin. Để nhìn thấy bức tranh lớn, điều quan trọng là phải có dữ liệu lớn. Cách duy nhất để có được điều đó là với các bot để thu thập thông tin không có bộ lọc thu hẹp nhận thức của con người. Với loại hỗ trợ đó, bạn có thể quản lý rủi ro thành công - một dịch vụ mà mọi người sẽ giao tiền của họ cho (nếu bạn có thể trả lại cho họ, với lãi suất).
- Tiếp thị và quảng cáo - Thay vì chỉ là người cung cấp thông tin cho các cơ quan tiếp thị và doanh nghiệp, bạn có thể là nguồn thông tin. Một lần nữa, Google với Google Analytics của họ tuyên bố một số loại thẩm quyền và các nhánh như SEMRush và AnswerThePublic nhận được sự chậm chạp đáng kể. Bạn có thể nghĩ rằng không còn sự chậm chạp nào nữa, nhưng điều đó không đúng. Mọi thứ trên thế giới đều được cấy ghép và nhân lên trực tuyến và ai đó phải sắp xếp tất cả những thứ đó. (Tất nhiên là với một mức giá hợp lý)
3. Web scraping hot items
Bạn muốn để mắt đến sự cường điệu. Bằng cách đó, rủi ro của bạn thấp và phần thưởng cao. Nói cách khác, bạn sẽ không bị mắc kẹt khi cầm túi và bán lỗ.
- Sneakers– Một ngành công nghiệp bán lại độc đáo nở rộ từ trái tim của giày thể thao. Những đôi giày thể thao phát hành giới hạn là nơi có tiền, với lợi nhuận dễ dàng gấp 10 lần so với một số Yeezy hoặc Jordan. Tuy nhiên, đường cong học tập rất dốc nếu bạn mới bắt đầu - nhưng có rất nhiều hướng dẫn để giúp bạn lật giày thể thao có lợi nhuận.
- Điện tử học– Các thiết bị điện tử như PS5 hoặc card đồ họa máy tính thực sự dễ bán lại, và thậm chí kiếm sống béo bở từ đó. Cũng giống như giày thể thao, sự cạnh tranh rất khốc liệt.
- Vé sự kiện – Đây có thể là mặt hàng bán lại OG. Có một lý do tại sao doanh số bán vé cảm thấy gian lận - họ đại loại là như vậy. Bots nhặt được nhiều vé sự kiện được đánh giá cao nhất để được mở rộng với giá cao.
- Mã thông báo không phải nấm hoặc NFT - Một số NFT cực kỳ khó để bạn chạm tay vào. Có lẽ vì một nửa giá thầu được thực hiện bởi bot. Các bot trong ví dụ này đang nhập nhiều mục nhập giá thầu và xổ số để đảm bảo càng nhiều NFT cho chính chúng để sau này bán lại kiếm lợi nhuận điên rồ trên các thị trường như OpenSea, Solanart hoặc DigitalEyes.
Trong bất kỳ trường hợp nào trong số này, quét web có chức năng hơi khác. Họ vẫn thu thập dữ liệu các trang web và ghi lại dữ liệu, nhưng họ cũng tự động hóa quy trình thanh toán.
Nếu bạn ném vào một số proxy, bạn có thể nhân các thanh toán này để tăng cơ hội giành chiến thắng. Trên thực tế, hoàn toàn cần thiết để chạy bất kỳ phần mềm tự động nào - bot và trình quét web - với proxy. Nếu không, thì toàn bộ hoạt động của bạn sẽ thất bại khi địa chỉ IP của bạn bị cấm.
Kết quả
Bản thân mỗi chiến lược này đều xứng đáng với thời gian và công sức của họ. Nhưng bạn sẽ nhận được gì nếu bạn kết hợp chúng?
Một số loại máy ăn thông tin và đi ị tiền lương.
Những cái lớn.
Thông tin chi tiết về thị trường thực sự nhìn chằm chằm vào mặt bạn, nhưng khối lượng tuyệt đối lấn át giới hạn xử lý của chúng tôi. Mặc dù tôi muốn tin rằng chúng ta có thể tạm thời làm chủ ma trận (như Neo) - một trình quét web đáng tin cậy hơn một chút.
Trong vài giây, bạn có thể:
- Phân tích tình trạng hiện tại của thị trường tài chính
- Xác định những thay đổi và xu hướng thị trường
- Cập nhật tin tức trong nước và toàn cầu ảnh hưởng đến chứng khoán và kinh tế
- Đọc về tình cảm và hành vi của người tiêu dùng
Bất cứ điều gì bạn có thể làm trực tuyến, web scrapers làm trên quy mô lớn hơn nhiều.
Tất cả là nhờ proxy.
(Proxy là thứ che giấu sự hiện diện của bạn khỏi Đặc vụ Smith)