Веб-скрапинг - это реальная экономия времени, но это только половина дела.
Это также может сделать вас богатым.
(С данными)
Ладно, это было немного безвкусно, но это не шутка - данные - это цифровое золото.
(Извините, биткоин).
But before we Scrooge McDuck dive into any binary nuggets, we should gloss over a few things web scraping. Here’s what I propose:
Примиритесь со всяким отцовским юмором, который преследует эти страницы, и я сразу перейду к делу: расскажу, что такое веб-скрапинг и как он может принести в дом бекон... или капусту. (Веганская кухня).
Что такое веб-скрапинг?
Веб-скрапинг - это сбор данных из Интернета. (Подумайте о копировании и вставке, только быстрее)
С помощью приложения или скрипта они автоматизируют сбор данных, удаляют ненужную информацию и систематизируют ее в библиотеке.
Веб-скреперы загружают файл robot.txt, чтобы выяснить, куда они могут зайти на сайте. Затем они переходят по ссылкам на новые страницы и составляют список или "очередь переползания".
Это похоже на постановку в очередь плейлиста на Spotify по мере обнаружения понравившихся композиций. Вот только у веб-скрапера нет такого изысканного вкуса, и он ставит в очередь все подряд.
По мере продвижения по растущему списку скрепер разветвляется на различные страницы до тех пор, пока его работа не будет завершена.
Что именно соскабливать?
Разумеется, в Интернете. Точнее, вы собираете ценную информацию с веб-страниц, которая может быть использована для создания и ведения бизнеса, участия в исследовательских проектах и автоматизации утомительных задач.
Приведем еще несколько примеров:
- Вы можете просмотреть новости и ленты социальных сетей, чтобы узнать, что делают конкуренты.
- Узнайте, какие товары пользуются спросом на eBay.
- Предложите лучшие цены на авиаперевозки с помощью агрегации цен.
- Сканирование на предмет выявления расхождений в стоимости, которые могут принести прибыль.
Вы можете запрограммировать веб-скраперы на выполнение любых действий в Интернете, но в тысячи раз быстрее.
Как получить веб-скрапер?
Вы можете написать собственный скрепер с нуля или использовать уже написанный кем-то другим. Если вы не разбираетесь в программировании, то, скорее всего, вам стоит выбрать что-то вроде Octoparse, что позволит сэкономить время и ускорить процесс.
В качестве примера можно привести YQL (Yahoo Query Language) API компании Yahoo. Он предоставляет доступ к различным источникам данных, включая RSS-каналы, местные прогнозы погоды или списки фильмов - все, что регулярно обновляется в Интернете, становится доступным через этот сервис без необходимости дополнительного кодирования. Замечательно то, что не обязательно ограничиваться только веб-страницами, можно также получить котировки фондового рынка, мониторинг новостных лент социальных сетей или финансовые отчеты.
Это довольно старая школа.
Вот несколько примеров современных расширений для браузера, предназначенных для скраппинга:
1. Data Scraper (Chrome)
В бесплатной версии вы можете соскабливать до 500 страниц данных в месяц. Это не так много, но если вам нужно больше, вы можете перейти на платный тарифный план.
2. Веб-скрапер
Этот скрепер имеет расширение для хрома и облака, работающее по принципу "укажи и щелкни" и не требующее опыта кодирования. Он работает с современными веб-языками и легко интегрируется с программами автоматизации и прокси-серверами.
3. Скребок (хром)
Эта программа проста в использовании, но я рекомендую иметь некоторый опыт работы с кодированием. Если щелкнуть на любом тексте в таблице или списке, а затем выбрать в меню браузера пункт "Scrape Similar", то можно получить информацию и содержимое, добавляя новые колонки с помощью XPath или JQuery.
Я могу продолжать и продолжать - в Интернете полно инструментов для скраппинга. Когда вы выбираете, какой из них использовать, следует подумать о нескольких моментах:
Сколько времени у Вас есть? Вы занимаетесь этим регулярно или только один раз?
Каков ваш бюджет? Вы уже владеете таким программным обеспечением, как Google Analytics, в которое встроены функции веб-краулинга, так зачем платить больше, если то, что вам нужно, можно получить бесплатно?
Как реально заработать на веб-скрапинге
Огромный мир веб-скрапинга сводится к одному главному ингредиенту: информации.
Эта информация может использоваться как своего рода валюта во всех видах делового обмена:
- Прямая продажа или использование информации
- Поддержка автоматизации бизнеса
- Оптимизация торговли и коммерческой деятельности
Продажа информации довольно проста - целые шпионские фильмы крутятся вокруг флешки, содержащей ценную информацию.
Но как быть с автоматизацией и коммерцией?
Посмотрите на это с другой стороны:
Каждый продукт, вплоть до пикселя, является информацией.
1. Начните бизнес по продаже информации.
- Financial guru - подборка новостей и событий, влияющих на фондовый рынок, недвижимость и криптовалюту.
- SEO-специалист - проводит исследования ключевых слов и консультирует по вопросам контент-маркетинга.
- Бизнес-консультант - предлагает глубокое изучение конкуренции в отрасли и тенденций развития рынка.
В этих случаях вы будете искать информацию, за которую люди уже платят, и упаковывать ее как продукт. Вы также можете предлагать ее бесплатно на своем сайте для привлечения трафика или продавать в качестве партнерской рекламы.
2. Веб-скрапинг как услуга посредника.
- Агрегация туристических тарифов - поиск в Интернете лучших цен на авиабилеты, гостиницы и другие туристические услуги как сервис. Для этого требуется постоянный поиск информации на множестве туристических сайтов, поэтому необходимо использовать вращающиеся прокси-серверы. Как вы, вероятно, знаете, компания Google использует " пауков", чтобы предоставлять вам самые свежие данные о гостиницах и ценах на авиабилеты. В то же время другие компании, такие как Expedia, Skyscanner и Hostelworld, работают в различных туристических нишах.
- Брокерская деятельность или управление хедж-фондами - каждый становится инвестиционным гением после того, как купит свою первую акцию или криптомонету. Но все, кто имеет опыт поддержания своих портфелей в плюсе, хорошо знают, что такое информационная предвзятость. Для того чтобы увидеть общую картину, необходимо иметь большие данные. Единственный способ получить такие данные - это боты, которые собирают информацию, свободную от сужающего фильтра человеческого восприятия. С такой поддержкой можно успешно управлять рисками - услугой, за которую люди готовы отдать свои деньги (если вы сможете вернуть их им с процентами).
- Маркетинг и реклама - Вместо того чтобы быть просто информатором для маркетинговых агентств и компаний, вы можете стать источником информации. И снова Google со своим Google Analytics претендует на роль авторитета, а такие ответвления, как SEMRush и AnswerThePublic, подхватывают значительную слабину. Вам может показаться, что больше нет никакой слабины, но это не так. Все в мире пересаживается и размножается в Интернете, и кто-то должен все это сортировать. (Разумеется, за разумную цену).
3. Веб-скрапинг "горячих" позиций
Вы хотите следить за ажиотажем. Таким образом, риск будет низким, а вознаграждение - высоким. Другими словами, вы не останетесь в выигрыше и не продадите в убыток.
- Кроссовки - уникальная индустрия перепродажи, которая расцветает в сердцах любителей кроссовок. Кроссовки, выпущенные ограниченным тиражом, - это то, где крутятся деньги, и можно легко получить 10-кратную прибыль за некоторые Yeezy или Jordan. Однако, если вы только начинаете, вам придется пройти сложный путь обучения, но существует множество руководств , которые помогут вам получить прибыль от перепродажи кроссовок.
- Электроника - Электронику, например PS5 или компьютерные видеокарты, очень легко перепродать и даже заработать на этом. Как и в случае с кроссовками, конкуренция здесь очень жесткая.
- Билеты на мероприятия - это, возможно, самый оригинальный предмет перепродажи. Не зря продажа билетов кажется нечестной - так оно и есть. Боты забирают наиболее ценные билеты на мероприятия, чтобы затем продать их по завышенной цене.
- Негрибковые токены или NFT - Некоторые NFT невероятно трудно получить в свои руки. Возможно, потому, что половина заявок делается ботами. В данном случае боты участвуют в многочисленных торгах и лотереях, чтобы заполучить как можно больше NFT для себя, чтобы затем перепродать их с сумасшедшей прибылью на таких торговых площадках, как OpenSea, Solanart или DigitalEyes.
В любом из этих случаев веб-скрапинг выполняет несколько иную функцию. Они все так же ползают по веб-страницам и записывают данные, но при этом автоматизируют процесс оформления заказа.
Если запустить несколько прокси-серверов, то можно многократно увеличить количество таких проверок и тем самым повысить свои шансы на победу. Вообще-то, с помощью прокси-серверов необходимо запускать любое автоматизированное программное обеспечение - боты и веб-скраперы. Если этого не сделать, то при запрете вашего IP-адреса вся ваша операция будет провалена.
Результат
Каждая из этих стратегий сама по себе стоит потраченного времени и усилий. Но что вы получите, если объедините их?
Некая машина, которая ест информацию и выкачивает зарплату.
Большие.
Рыночная информация буквально смотрит вам в лицо, но ее объем превышает наши возможности. Хотя мне хочется верить, что мы можем временно овладеть матрицей (как Нео), веб-скрапер - более надежная вещь.
За считанные секунды вы можете:
- Анализировать текущее состояние финансового рынка
- Выявление изменений и тенденций на рынке
- Следите за национальными и глобальными новостями, влияющими на акции и экономику
- Получение информации о настроениях и поведении потребителей
Все, что можно сделать в Интернете, веб-скраперы делают в гораздо больших масштабах.
Все благодаря прокси-серверам.
(Прокси - это то, что скрывает ваше присутствие от агента Смита)