Truy cập Web

Tiền, Ma trận và Web Scraping

AJ Tait
Ngày 10 tháng 1 năm 2025

Việc thu thập dữ liệu từ web thực sự là một công cụ đắc lực giúp tiết kiệm thời gian, nhưng đó mới chỉ là một nửa câu chuyện.

Nó cũng có thể giúp bạn trở nên giàu có.

(Kèm theo dữ liệu)

Simon Cowell tái xuất sau vụ tai nạn nghiêm trọng và chấn thương lưng: Anh được gọi là “Terminator” - Guioteca

Được rồi, câu đó nghe có vẻ hơi thiếu tế nhị – nhưng đây không phải là chuyện đùa – dữ liệu chính là “vàng kỹ thuật số”.

(Xin lỗi Bitcoin)

Nhưng trước khi chúng ta, giống như Scrooge McDuck, lao vào tìm hiểu những “viên ngọc” về mã nhị phân, chúng ta nên điểm qua một vài khái niệm cơ bản về web scraping. Đây là đề xuất của tôi:

Web scraping là gì?

“Web scraping” là việc thu thập dữ liệu từ internet. (Hãy tưởng tượng như thao tác sao chép và dán, nhưng nhanh hơn)

Họ sử dụng một ứng dụng hoặc tập lệnh để tự động hóa việc thu thập dữ liệu, loại bỏ mọi thông tin không cần thiết và sắp xếp dữ liệu đó vào một thư viện.

Các công cụ thu thập dữ liệu trên web tải xuống tệp robot.txt để xác định những phần nào trên trang web mà chúng có thể truy cập. Sau đó, chúng theo các liên kết đến các trang mới và lập một danh sách hay còn gọi là “hàng đợi thu thập dữ liệu”.

Cơ chế này cũng tương tự như việc thêm các bài hát vào danh sách phát trên Spotify khi bạn khám phá những bài hát mình thích. Tuy nhiên, công cụ thu thập dữ liệu web lại không có “gu” tinh tế như vậy và sẽ thêm tất cả mọi thứ vào danh sách phát.

Khi trình thu thập dữ liệu tiếp tục xử lý danh sách ngày càng dài, nó sẽ phân nhánh sang các trang khác nhau cho đến khi hoàn thành nhiệm vụ.

Chính xác thì người ta cạo cái gì vậy?

Tất nhiên là Internet rồi. Cụ thể hơn, bạn thu thập thông tin có giá trị từ các trang web, những thông tin này có thể được sử dụng để khởi nghiệp và điều hành doanh nghiệp, đóng góp cho các dự án nghiên cứu, cũng như tự động hóa các công việc tẻ nhạt.

Một số ví dụ khác bao gồm:

Bạn có thể theo dõi các bản tin và các dòng tin trên mạng xã hội để xem các đối thủ đang làm gì.
Tìm hiểu xem những sản phẩm nào đang được ưa chuộng trên eBay.
Cung cấp mức giá tốt nhất cho các chuyến bay nhờ tính năng tổng hợp giá.
Tìm kiếm những chênh lệch về giá trị có thể mang lại lợi nhuận.

Bạn có thể lập trình các công cụ thu thập dữ liệu web để thực hiện bất kỳ tác vụ nào mà bạn có thể làm trên mạng – nhưng với tốc độ nhanh hơn hàng nghìn lần.

Làm thế nào để có được một công cụ thu thập dữ liệu web?

Bạn có thể tự viết một công cụ trích xuất dữ liệu từ đầu, hoặc có thể sử dụng công cụ mà người khác đã viết sẵn. Nếu bạn không phải là lập trình viên, thì tốt nhất bạn nên chọn một công cụ như Octoparse để tiết kiệm thời gian và đẩy nhanh quá trình.

Một ví dụ đã tồn tại từ lâu là API YQL (Yahoo Query Language) của Yahoo. API này cho phép truy cập vào nhiều loại nguồn dữ liệu khác nhau, bao gồm các nguồn cấp dữ liệu RSS, dự báo thời tiết địa phương hoặc lịch chiếu phim – bất kỳ thông tin nào được cập nhật thường xuyên trên mạng đều có thể truy cập được thông qua dịch vụ này mà không cần viết thêm mã nào. Điểm tuyệt vời là nó không chỉ giới hạn ở các trang web mà còn có thể truy xuất giá cổ phiếu, theo dõi nguồn tin trên mạng xã hội hoặc các báo cáo tài chính.

Dù sao thì cách đó cũng khá là cổ điển rồi.

Dưới đây là một số ví dụ về các tiện ích mở rộng trích xuất dữ liệu hiện đại dành cho trình duyệt của bạn:

1. Trình trích xuất dữ liệu (Chrome)

Với phiên bản miễn phí, bạn có thể trích xuất dữ liệu từ tối đa 500 trang mỗi tháng. Số lượng này không nhiều, nhưng nếu bạn muốn nhiều hơn, bạn có thể nâng cấp lên gói trả phí.

2. Công cụ thu thập dữ liệu web

Công cụ trích xuất dữ liệu này có cả tiện ích mở rộng cho Chrome và Cloud, hoạt động chỉ bằng cách nhấp chuột đơn giản mà không yêu cầu bất kỳ kinh nghiệm lập trình nào. Nó tương thích với các ngôn ngữ web hiện hành và dễ dàng tích hợp với phần mềm tự động hóa cũng như các máy chủ proxy.

3. Scraper (Chrome)

Phần mềm này rất dễ sử dụng, nhưng tôi khuyên bạn nên có một chút kinh nghiệm về lập trình. Nếu bạn nhấp vào bất kỳ đoạn văn bản nào trong bảng hoặc danh sách, sau đó chọn “Scrape Similar” từ menu trình duyệt, bạn có thể thu thập thông tin và nội dung bằng cách thêm các cột mới thông qua XPath hoặc JQuery.

Tôi có thể nói mãi không hết – trên mạng có rất nhiều công cụ trích xuất dữ liệu. Khi bạn chọn công cụ nào để sử dụng, có một số điều cần cân nhắc:

Bạn có bao nhiêu thời gian? Đây là việc bạn làm thường xuyên hay chỉ làm một lần thôi?

Ngân sách của bạn là bao nhiêu? Bạn đã sở hữu phần mềm như Google Analytics – vốn đã tích hợp sẵn tính năng thu thập dữ liệu web – vậy tại sao lại phải chi thêm tiền nếu những gì bạn cần đã có sẵn miễn phí?

Làm thế nào để thực sự kiếm tiền từ việc thu thập dữ liệu trên web

Thế giới rộng lớn của việc thu thập dữ liệu web thực chất chỉ xoay quanh một yếu tố chính: thông tin.

Thông tin đó có thể được sử dụng như một loại “tiền tệ” trong mọi hình thức giao dịch kinh doanh:

Bán trực tiếp hoặc khai thác thông tin
Hỗ trợ tự động hóa hoạt động kinh doanh
Tối ưu hóa hoạt động giao dịch và thương mại

Việc buôn bán thông tin thực ra khá đơn giản – cả những bộ phim gián điệp đều xoay quanh một chiếc USB chứa thông tin quý giá.

Nhưng còn tự động hóa và thương mại thì sao?

Hãy nhìn vấn đề theo cách này:

Mã nguồn của “The Matrix” xuất phát từ các công thức làm sushi — Nhưng là công thức nào? | Wired

Mỗi sản phẩm, cho đến từng pixel, đều là thông tin.

1. Khởi nghiệp trong lĩnh vực kinh doanh thông tin.

Chuyên gia tài chính – Tổng hợp các tin tức và sự kiện có ảnh hưởng đến thị trường chứng khoán, bất động sản và tiền điện tử.
Chuyên gia SEO hàng đầu – Cung cấp dịch vụ nghiên cứu từ khóa và tư vấn tiếp thị nội dung.
Chuyên gia tư vấn kinh doanh – Cung cấp những phân tích chuyên sâu về tình hình cạnh tranh trong ngành và xu hướng thị trường.

Trong những trường hợp này, bạn sẽ tìm kiếm những thông tin mà người dùng đã sẵn sàng trả tiền để có được, sau đó đóng gói chúng thành một sản phẩm. Bạn cũng có thể cung cấp miễn phí những thông tin đó trên trang web của mình để thu hút lưu lượng truy cập hoặc bán chúng dưới hình thức quảng cáo liên kết.

2. Thu thập dữ liệu web dưới dạng dịch vụ trung gian.

Tổng hợp giá vé du lịch – Thu thập dữ liệu từ web để tìm giá tốt nhất cho vé máy bay, khách sạn và các dịch vụ du lịch khác dưới dạng một dịch vụ. Điều này đòi hỏi phải liên tục thu thập dữ liệu từ vô số trang web du lịch, do đó bạn sẽ cần sử dụng các proxy dân dụng luân phiên. Như bạn có thể đã biết, Google triển khai các Google Spiders để cung cấp cho bạn thông tin mới nhất về khách sạn và vé máy bay. Trong khi đó, các công ty khác như Expedia, Skyscanner và Hostelworld lại tập trung khai thác các phân khúc du lịch khác nhau.
Môi giới chứng khoán hay quản lý quỹ đầu cơ – Ai cũng tự cho mình là thiên tài đầu tư sau khi mua cổ phiếu hay tiền điện tử đầu tiên. Nhưng bất kỳ ai có thành tích duy trì danh mục đầu tư ở mức sinh lời đều hiểu rõ về hiện tượng thiên lệch thông tin. Để có cái nhìn toàn cảnh, việc sở hữu dữ liệu lớn là vô cùng quan trọng. Cách duy nhất để có được điều đó là sử dụng các bot để thu thập thông tin không bị giới hạn bởi bộ lọc hẹp của nhận thức con người. Với sự hỗ trợ như vậy, bạn có thể quản lý rủi ro thành công – một dịch vụ mà mọi người sẵn sàng chi tiền để sử dụng (nếu bạn có thể trả lại tiền cho họ, kèm theo lãi suất).
Tiếp thị và quảng cáo – Thay vì chỉ đóng vai trò là người cung cấp thông tin cho các công ty tiếp thị và doanh nghiệp, bạn có thể trở thành nguồn thông tin. Một lần nữa, Google với Google Analytics lại khẳng định vị thế dẫn đầu của mình, trong khi các công ty con như SEMRush và AnswerThePublic lấp đầy khoảng trống đáng kể còn lại. Bạn có thể nghĩ rằng không còn khoảng trống nào để khai thác nữa, nhưng điều đó hoàn toàn không đúng. Mọi thứ trên thế giới đều được sao chép và nhân rộng trên mạng, và ai đó phải sắp xếp tất cả những thông tin đó. (Tất nhiên là với một mức giá hợp lý)

3. Thu thập dữ liệu trực tuyến về các mặt hàng đang hot

Bạn nên để ý đến những cơn sốt thị trường. Như vậy, rủi ro của bạn sẽ thấp trong khi lợi nhuận lại cao. Nói cách khác, bạn sẽ không phải rơi vào tình cảnh “gánh lỗ” và phải bán tháo với giá lỗ.

Giày thể thao – Một ngành kinh doanh mua bán lại độc đáo nảy nở từ chính niềm đam mê của những tín đồ giày thể thao. Những đôi giày thể thao phiên bản giới hạn chính là mỏ vàng, với mức lợi nhuận dễ dàng gấp 10 lần đối với một số mẫu Yeezy hay Jordan. Tuy nhiên, nếu bạn mới bắt đầu, quá trình học hỏi sẽ khá gian nan – nhưng có rất nhiều hướng dẫn để giúp bạn chuẩn bị sẵn sàng cho việc mua bán giày thể thao sinh lời.
Đồ điện tử – Các mặt hàng điện tử như PS5 hay card đồ họa máy tính rất dễ bán lại, thậm chí còn có thể kiếm được thu nhập khá từ đó. Cũng giống như giày thể thao, sự cạnh tranh trong lĩnh vực này rất khốc liệt.
Vé sự kiện – Đây có lẽ là mặt hàng được bán lại từ thuở ban đầu. Có lý do khiến việc bán vé dường như bị thao túng – và thực tế cũng phần nào đúng như vậy. Các bot thu gom hầu hết những tấm vé sự kiện được săn đón nhất để bán lại với giá cao hơn nhiều so với giá gốc.
Token phi nấm (NFT) – Một số NFT cực kỳ khó kiếm. Có lẽ là do một nửa số lượt đặt giá được thực hiện bởi các bot. Trong trường hợp này, các bot đang thực hiện nhiều lượt đặt giá và đăng ký bốc thăm nhằm đảm bảo thu được càng nhiều NFT càng tốt cho riêng mình, để sau đó bán lại với lợi nhuận khổng lồ trên các sàn giao dịch như OpenSea, Solanart hay DigitalEyes.

Trong bất kỳ trường hợp nào trong số này, việc thu thập dữ liệu web đều có chức năng hơi khác một chút. Chúng vẫn thu thập thông tin từ các trang web và ghi lại dữ liệu, nhưng đồng thời cũng tự động hóa quy trình thanh toán.

Nếu bạn sử dụng thêm một số máy chủ proxy, bạn có thể tăng số lượng giao dịch thanh toán này lên để nâng cao cơ hội chiến thắng. Trên thực tế, việc sử dụng máy chủ proxy là điều hoàn toàn cần thiết khi chạy bất kỳ phần mềm tự động nào – như bot hay công cụ thu thập dữ liệu web. Nếu không làm vậy, toàn bộ hoạt động của bạn sẽ thất bại khi địa chỉ IP của bạn bị chặn.

Kết quả

Xét riêng lẻ, mỗi chiến lược này đều xứng đáng để bạn dành thời gian và công sức. Nhưng nếu kết hợp chúng lại, bạn sẽ thu được điều gì?

Một loại máy nào đó nuốt thông tin vào rồi “đi” ra tiền lương.

Những cái to.

Những thông tin thị trường thực sự hiện ra ngay trước mắt bạn, nhưng khối lượng khổng lồ của chúng lại vượt quá khả năng xử lý của chúng ta. Dù tôi vẫn muốn tin rằng chúng ta có thể tạm thời làm chủ được “ma trận” (giống như Neo) – thì một công cụ thu thập dữ liệu web vẫn đáng tin cậy hơn một chút.

Chỉ trong vài giây, bạn có thể:

Phân tích tình hình hiện tại của thị trường tài chính
Nhận diện những thay đổi và xu hướng của thị trường
Cập nhật tin tức trong nước và quốc tế có ảnh hưởng đến thị trường chứng khoán và nền kinh tế
Nắm bắt tâm lý và hành vi của người tiêu dùng

Bất cứ điều gì bạn có thể làm trên mạng, các công cụ thu thập dữ liệu web đều thực hiện được ở quy mô lớn hơn rất nhiều.

Tất cả đều nhờ vào các máy chủ proxy.

(Các máy chủ proxy chính là thứ giúp che giấu sự hiện diện của bạn khỏi Đặc vụ Smith)

The Matrix - Các đặc vụ - Hồ sơ nhân vật và chỉ số RPG - Writeups.org

Đừng lo lắng về chất lượng máy chủ proxy của bạn nữa

Các proxy ISP tĩnh của chúng tôi được đảm bảo hoàn toàn sạch và dành riêng 100% cho bạn. Không có gánh nặng chia sẻ, chỉ có hiệu suất.

Tải về các proxy tĩnh của nhà cung cấp dịch vụ Internet (ISP)

Tìm hiểu sâu hơn nữa về Access The Web

Cách quản lý an toàn nhiều tài khoản ẩn danh trên eBay mà không bị khóa tài khoản

Proxy thương mại điện tử

Cách quản lý an toàn nhiều tài khoản ẩn danh trên eBay năm 2026 mà không bị khóa tài khoản

Việc vận hành một tài khoản ẩn danh trên eBay vào năm 2026 tiềm ẩn nhiều rủi ro hơn so với suy nghĩ của phần lớn người bán. Khoảng dung sai cho sai sót ngày càng thu hẹp. Năm 2024, eBay đã tạm ngưng hơn 37.000 tài khoản vì lý do liên quan đến địa chỉ IP

Proxy

Hướng dẫn triển khai máy chủ proxy: Từ thiết lập đến mở rộng quy mô

Hãy tìm hiểu về cách thiết lập triển khai máy chủ proxy, các chiến lược mở rộng quy mô và các phương pháp hay nhất để tối ưu hóa cơ sở hạ tầng của bạn thông qua hướng dẫn toàn diện này