Web scraping là một công việc tiết kiệm thời gian thực sự, nhưng đó chỉ là một nửa câu chuyện.
Nó cũng có thể làm cho bạn giàu có.
(Có dữ liệu)
Được rồi, đó là một chút vô vị - nhưng nó không phải là trò đùa - dữ liệu là vàng kỹ thuật số.
(Xin lỗi bitcoin)
Nhưng trước khi chúng ta Scrooge McDuck đi sâu vào bất kỳ cốm nhị phân nào, chúng ta nên bỏ qua một vài điều quét web. Đây là những gì tôi đề xuất:
Web scraping là gì?
Web scraping là khi ai đó thu thập dữ liệu từ internet. (Hãy suy nghĩ sao chép và dán, nhưng nhanh hơn)
Họ sử dụng một ứng dụng hoặc tập lệnh để tự động thu thập dữ liệu, loại bỏ mọi thông tin không cần thiết và sắp xếp nó trong thư viện.
Web scrapers tải về một robot.txt tập tin để tìm ra nơi họ có thể đi trên một trang web. Sau đó, họ theo các liên kết đến các trang mới và biên soạn một danh sách hoặc "hàng đợi thu thập dữ liệu".
Nó tương tự như xếp hàng danh sách phát trên Spotify khi bạn khám phá các bài hát bạn thích. Ngoại trừ một vòm miệng cạo web không có hương vị tinh tế như vậy và xếp hàng mọi thứ.
Khi scraper tiếp tục xuống danh sách ngày càng tăng, nó phân nhánh thành các trang khác nhau cho đến khi công việc của nó hoàn thành.
Chính xác thì cái gì mà một cái trầy xước?
Tất nhiên là web. Cụ thể hơn, bạn thu thập thông tin có giá trị từ các trang web có thể được sử dụng để bắt đầu và điều hành một doanh nghiệp, đóng góp cho các dự án nghiên cứu và tự động hóa các nhiệm vụ tẻ nhạt.
Một vài ví dụ khác bao gồm:
- Bạn có thể xem tin tức và nguồn cấp dữ liệu truyền thông xã hội để xem đối thủ cạnh tranh đang làm gì.
- Tìm hiểu những sản phẩm đang hot trên eBay.
- Cung cấp giá tốt nhất cho du lịch hàng không với giá tổng hợp.
- Quét tìm sự khác biệt về giá trị có thể mang lại lợi nhuận.
Bạn có thể lập trình web scraper để làm bất cứ điều gì bạn có thể làm trực tuyến - nhưng nhanh hơn hàng ngàn lần.
Làm thế nào để bạn có được một web scraper?
You could write your own scraper from scratch, or you could use what someone else has already written. If you’re not a coder, then you should probably opt for something like Octoparse that will save time and speed up the process.
Một ví dụ đã xuất hiện được một thời gian là API YQL (Yahoo Query Language) của Yahoo. Nó cung cấp quyền truy cập vào nhiều loại nguồn dữ liệu khác nhau bao gồm nguồn cấp dữ liệu RSS, dự báo thời tiết địa phương hoặc danh sách phim - bất cứ thứ gì được cập nhật trực tuyến thường xuyên đều có sẵn thông qua dịch vụ này mà không cần bất kỳ mã hóa bổ sung nào. Điều tuyệt vời là nó không cần phải giới hạn ở các trang web mà còn có thể nhận được báo giá thị trường chứng khoán, giám sát nguồn cấp tin tức truyền thông xã hội hoặc báo cáo tài chính.
Đó là trường học khá cũ mặc dù.
Dưới đây là một số ví dụ về tiện ích mở rộng scraping hiện đại cho trình duyệt của bạn:
1. Data Scraper (Chrome)
Với phiên bản miễn phí, bạn có thể cạo tới 500 trang dữ liệu mỗi tháng. Nó không nhiều, nhưng nếu bạn muốn nhiều hơn, bạn có thể nâng cấp lên gói trả phí.
2. Web Scraper
Trình quét này có cả tiện ích mở rộng chrome và đám mây hoạt động với một điểm và nhấp đơn giản không yêu cầu kinh nghiệm viết mã. Nó hoạt động với các ngôn ngữ web hiện tại và dễ dàng tích hợp với phần mềm tự động hóa và proxy.
3. Scraper (Chrome)
Phần mềm này rất dễ sử dụng, nhưng tôi khuyên bạn nên có một số kinh nghiệm về mã hóa. Nếu bạn nhấp vào bất kỳ văn bản nào trong bảng hoặc danh sách và sau đó chọn "Scrape Similar" từ menu trình duyệt, bạn có thể nhận thông tin và nội dung bằng cách thêm các cột mới bằng XPath hoặc JQuery.
Tôi có thể tiếp tục và tiếp tục - web có đầy đủ các công cụ cạo. Khi bạn chọn cái nào để sử dụng, có một vài điều cần suy nghĩ:
Bạn có bao nhiêu thời gian? Đây là điều bạn đang làm thường xuyên hay chỉ một lần?
Ngân sách của bạn là bao nhiêu? Bạn đã sở hữu phần mềm như Google Analytics có khả năng thu thập dữ liệu web được tích hợp sẵn, vậy tại sao phải trả nhiều tiền hơn nếu những gì bạn cần là miễn phí?
Làm thế nào để thực sự kiếm tiền cạo web
Thế giới rộng lớn của web scraping tập trung vào một thành phần chính: thông tin.
Thông tin đó có thể được sử dụng như một loại tiền tệ trong tất cả các cách trao đổi kinh doanh:
- Trực tiếp bán hoặc tận dụng thông tin
- Hỗ trợ tự động hóa doanh nghiệp
- Tối ưu hóa giao dịch và thương mại
Việc bán thông tin khá đơn giản - toàn bộ phim gián điệp xoay quanh một ổ đĩa chứa thông tin có giá trị.
Nhưng còn tự động hóa và thương mại thì sao?
Hãy nhìn nó theo cách này:
Mỗi sản phẩm cho đến pixel là thông tin.
1. Bắt đầu kinh doanh bán thông tin.
- Chuyên gia tài chính - Tổng hợp các tin tức và sự kiện tác động đến thị trường chứng khoán, bất động sản và tiền điện tử.
- SEO phi thường - Cung cấp nghiên cứu từ khóa và tư vấn tiếp thị nội dung.
- Tư vấn kinh doanh – Cung cấp thông tin chi tiết về cạnh tranh trong ngành và xu hướng thị trường.
Trong những trường hợp này, bạn sẽ tìm kiếm thông tin mà mọi người đã trả tiền và đóng gói nó như một sản phẩm. Bạn cũng có thể cung cấp nó miễn phí trên trang web của mình để ghi lưu lượng truy cập hoặc bán hết dưới dạng quảng cáo liên kết.
2. Web scraping như một dịch vụ trung gian.
- Travel fare aggregation – Scrape the web for the best prices on airfare, hotels, and other travel services as a service. This requires continuous web scraping on multitudes of travel websites, so you’ll need to use rotating residential proxies. As you probably know, Google deploys Google Spiders to bring you the latest on hotels and airfare. Meanwhile, other companies like Expedia, Skyscanner, and Hostelworld capitalize on different travel niches.
- Môi giới chứng khoán hoặc quản lý quỹ phòng hộ - Mọi người đều là thiên tài đầu tư sau khi họ mua cổ phiếu hoặc đồng tiền điện tử đầu tiên của mình. Nhưng bất cứ ai có hồ sơ theo dõi giữ danh mục đầu tư của họ trong màu xanh lá cây đều nhận thức rõ về sự thiên vị thông tin. Để nhìn thấy bức tranh lớn, điều quan trọng là phải có dữ liệu lớn. Cách duy nhất để có được điều đó là với các bot để thu thập thông tin không có bộ lọc thu hẹp nhận thức của con người. Với loại hỗ trợ đó, bạn có thể quản lý rủi ro thành công - một dịch vụ mà mọi người sẽ giao tiền của họ cho (nếu bạn có thể trả lại cho họ, với lãi suất).
- Marketing and advertisement – Instead of just being an informant for marketing agencies and businesses, you can be the source of information. Once again, Google with their Google Analytics claim some sort of authority and offshoots like SEMRush and AnswerThePublic pick up the sizeable slack. You may think there isn’t anymore slack to be had, but that’s just not true. Everything in the world is transplants and multiplies online and someone has to sort all that stuff out. (For a reasonable price, of course)
3. Web scraping hot items
Bạn muốn để mắt đến sự cường điệu. Bằng cách đó, rủi ro của bạn thấp và phần thưởng cao. Nói cách khác, bạn sẽ không bị mắc kẹt khi cầm túi và bán lỗ.
- Sneakers – A unique resale industry that blossoms from the heart of sneakerheads. The limited-release sneakers are where the money’s at, with an easy 10x return on some Yeezy’s or Jordan’s. However, the learning curve is steep if you’re starting out – but there’s plenty of guides to prime you for profitable sneaker flipping.
- Điện tử học– Các thiết bị điện tử như PS5 hoặc card đồ họa máy tính thực sự dễ bán lại, và thậm chí kiếm sống béo bở từ đó. Cũng giống như giày thể thao, sự cạnh tranh rất khốc liệt.
- Vé sự kiện – Đây có thể là mặt hàng bán lại OG. Có một lý do tại sao doanh số bán vé cảm thấy gian lận - họ đại loại là như vậy. Bots nhặt được nhiều vé sự kiện được đánh giá cao nhất để được mở rộng với giá cao.
- Non-fungal tokens or NFTs – Some NFTs are incredibly hard to get your hands on. Probably because half the bids are made by bots. Bots in this example are entering multiple bids and raffle entries in order to secure as many NFTs for themselves to later resell for crazy profit on marketplaces like OpenSea, Solanart or DigitalEyes.
Trong bất kỳ trường hợp nào trong số này, quét web có chức năng hơi khác. Họ vẫn thu thập dữ liệu các trang web và ghi lại dữ liệu, nhưng họ cũng tự động hóa quy trình thanh toán.
If you throw in some proxies, you can multiply these checkouts to increase your chances to win. In fact, it’s absolutely necessary to run any automated software – bots and web scrapers – with proxies. If you don’t, then your whole operation will fail when your IP address is banned.
Kết quả
Bản thân mỗi chiến lược này đều xứng đáng với thời gian và công sức của họ. Nhưng bạn sẽ nhận được gì nếu bạn kết hợp chúng?
Một số loại máy ăn thông tin và đi ị tiền lương.
Những cái lớn.
Thông tin chi tiết về thị trường thực sự nhìn chằm chằm vào mặt bạn, nhưng khối lượng tuyệt đối lấn át giới hạn xử lý của chúng tôi. Mặc dù tôi muốn tin rằng chúng ta có thể tạm thời làm chủ ma trận (như Neo) - một trình quét web đáng tin cậy hơn một chút.
Trong vài giây, bạn có thể:
- Phân tích tình trạng hiện tại của thị trường tài chính
- Xác định những thay đổi và xu hướng thị trường
- Cập nhật tin tức trong nước và toàn cầu ảnh hưởng đến chứng khoán và kinh tế
- Đọc về tình cảm và hành vi của người tiêu dùng
Bất cứ điều gì bạn có thể làm trực tuyến, web scrapers làm trên quy mô lớn hơn nhiều.
All thanks to proxies.
(Proxy là thứ che giấu sự hiện diện của bạn khỏi Đặc vụ Smith)