網頁抓取是一種真正節省時間的主力,但這只是故事的一半。
它也可以讓你變得富有。
( 附資料 )
好吧,這有點無味 - 但這不是開玩笑 - 數據是數字黃金。
(對不起比特幣)
But before we Scrooge McDuck dive into any binary nuggets, we should gloss over a few things web scraping. Here’s what I propose:
你與任何困擾這些頁面的父親幽默和平相處,我將直截了當地了解網路抓取到底是什麼以及它如何把培根帶回家。或捲心菜。(素食主義者友好)。
什麼是網頁抓取?
網頁抓取是指有人從互聯網上收集數據。(想想複製和粘貼,但速度更快)
他們使用應用程式或腳本來自動收集數據,刪除任何不必要的資訊並將其組織在庫中。
網路抓取工具下載一個機器人.txt檔,以找出他們可以在網站上的位置。然後,他們點擊指向新頁面的連結並編譯清單或「抓取佇列」。。
這有點類似於在Spotify上排隊播放清單,因為您發現了自己喜歡的歌曲。除了網路刮刀的口感沒有如此精緻的味道,一切都排著隊。
隨著抓取器繼續沿著不斷增長的清單向下移動,它會分支到不同的頁面,直到其工作完成。
刮到底是什麼?
當然是網路。更具體地說,您可以從網頁中收集有價值的信息,這些資訊可用於啟動和運營業務、為研究專案做出貢獻以及自動執行繁瑣的任務。
其他一些例子包括:
- 您可以查看新聞和社交媒體提要,以了解競爭對手在做什麼。
- 瞭解哪些產品在eBay上很熱門。
- 通過價格匯總為航空旅行提供最優惠的價格。
- 掃描可以盈利的價值差異。
您可以對網路爬蟲進行程式設計,以執行您可以在線執行的任何事情 - 但速度要快數千倍。
你如何獲得網路爬蟲?
你可以從頭開始編寫自己的刮刀,也可以使用別人已經寫過的東西。如果您不是編碼人員,那麼您可能應該選擇 像Octoparse 這樣的東西,這樣可以節省時間並加快過程。
已經存在了一段時間的一個例子是雅虎的YQL(雅虎查詢語言)API。它提供對許多不同類型的數據源的訪問,包括 RSS 提要、當地天氣預報或電影清單——任何定期在線更新的內容都可以通過此服務獲得,而無需任何額外的編碼。最棒的是,它不需要局限於網頁,還可以獲得股票市場報價、社交媒體新聞提要監控或財務報告。
不過,這是相當老派的。
以下是適用於您的瀏覽器的現代抓取擴充程式的一些範例:
1. 數據抓取器(鉻)
使用免費版本,您每月最多可以抓取 500 頁數據。這並不多,但如果您想要更多,可以升級到付費計劃。
2. 網頁刮板
該抓取工具具有Chrome和雲擴展,只需簡單的點擊即可使用,根本不需要編碼經驗。它適用於當前的網路語言,並可輕鬆與自動化軟體和代理集成。
3. 刮刀(鉻)
該軟體易於使用,但我建議您有一些編碼經驗。如果單擊表或清單中的任何文本,然後從瀏覽器功能表中選擇「抓取相似」,則可以通過使用XPath或JQuery添加新列來獲取資訊和內容。
我可以繼續說下去——網路上到處都是抓取工具。當您選擇使用哪一個時,需要考慮以下幾點:
你有多少時間?這是你經常做的事情還是只做一次?
您的預算是多少?您是否已經擁有像Google Analytics這樣的軟體,該軟體內置了網路爬蟲功能,那麼如果您需要的是免費的,為什麼要支付更多費用?
如何真正賺錢網路抓取
網路抓取的廣闊世界歸結為一個主要成分:資訊。
該資訊可以用作各種商業交換方式中的一種貨幣:
- 直接銷售或利用資訊
- 支援業務自動化
- 優化貿易和商業
資訊的出售非常簡單——整部間諜電影都圍繞著一個包含有價值資訊的拇指驅動器展開。
但是自動化和商業呢?
這樣看:
每個產品直到圖元都是資訊。
1. 創辦銷售信息的企業。
- 金融大師 – 彙編影響股票市場、房地產和加密貨幣的新聞和事件。
- SEO非凡 – 提供關鍵詞研究和內容營銷建議。
- 商業顧問 – 深入瞭解行業競爭和市場趨勢。
在這些情況下,您將尋找人們已經付費的資訊並將其打包為產品。您還可以在您的網站上免費提供它以獲得流量或作為聯盟廣告出售。
2.網頁抓取作為中間人服務。
- 旅行票價匯總 – 在網上搜索機票、酒店和其他旅行服務即服務的最優惠價格。這需要在眾多旅遊網站上不斷進行網路抓取,因此您需要使用 輪換的住宅代理。您可能知道,Google部署了 Google Spiders ,為您帶來有關酒店和機票的最新資訊。與此同時, Expedia, Skyscanner和 Hostelworld 等其他公司利用了不同的旅遊利基市場。
- 股票經紀或對沖基金管理 – 每個人在購買第一隻股票或加密貨幣後都是投資天才。但是,任何有保持投資組合綠色記錄的人都很清楚資訊偏見。為了看到大局,擁有大數據至關重要。實現這一目標的唯一方法是使用機器人來收集不受人類感知篩檢程式縮小的資訊。有了這種支援,你可以成功地管理風險——服務人員會把他們的錢交給他們(如果你能把錢還給他們,有利息的話)。
- 行銷與廣告 – 您不僅可以成為營銷機構和企業的線人,還可以成為資訊的來源。再一次,谷歌及其 Google Analytics 聲稱擁有某種權威,而 SEMRush 和 AnswerThePublic 等分支則彌補了相當大的不足。你可能認為沒有更多的懈怠,但事實並非如此。世界上的一切都是在線移植和繁殖,必須有人整理所有這些東西。(當然,價格合理)
3. 網頁抓取熱票商品
你要留意炒作。這樣,您的風險就低,回報很高。換句話說,您不會被困在袋子里並虧本出售。
- 球鞋– 一個獨特的轉售行業,從運動鞋愛好者的心中綻放。限量發行的運動鞋是物有所值的地方,在一些 Yeezy 或 Jordan 上可以輕鬆獲得 10 倍的回報。然而,如果你剛開始,學習曲線是陡峭的——但有很多 指南 可以讓你為有利可圖的運動鞋翻轉做好準備。
- 電子學– 像PS5或計算機顯卡這樣的電子產品真的很容易轉售,甚至可以從中賺取豐厚的生活。就像運動鞋一樣,競爭非常激烈。
- 活動門票 – 這可能是 OG 轉售專案。門票銷售感覺縱是有原因的——他們有點縱。機器人以高價購買最珍貴的活動門票,以高價剝頭皮。
- 非真菌代幣或 NFT – 有些 NFT 很難讓你動手。可能是因為一半的出價是由機器人進行的。在這個例子中,機器人正在輸入多個出價和抽獎條目,以便為自己獲得盡可能多的 NFT,以便以後在 OpenSea、 Solanart 或 DigitalEyes 等市場上轉售以獲得瘋狂的利潤。
在任何這些情況下,網頁抓取的功能略有不同。他們仍然抓取網頁並記錄數據,但他們也自動化結帳過程。
如果您投入一些代理,則可以將這些結帳次數乘以增加獲勝的機會。事實上,使用 代理運行任何自動化軟體(機器人和網路爬蟲)是絕對必要的。如果您不這樣做,那麼當您的IP位址被禁止時,您的整個操作將失敗。
結果
就其本身而言,這些策略中的每一個都值得他們花時間和精力。但是,如果將它們結合起來,您會得到什麼?
某種吃資訊並拉屎薪水的機器。
大的。
市場洞察確實盯著你的臉,但龐大的數量壓倒了我們的處理極限。雖然我願意相信我們可以暫時掌握矩陣(如 Neo)——網路爬蟲更可靠一些。
在幾秒鐘內,您可以:
- 分析金融市場的現狀
- 識別市場變化和趨勢
- 及時了解影響股票和經濟的國家和全球新聞
- 瞭解消費者情緒和行為
您可以在線做的任何事情,網路爬蟲的規模都要大得多。
這一切都歸功於 代理。
(代理是向史密斯特工隱藏您的存在)