Вы столкнулись с проблемой получения данных о товарах из Amazon? В этом руководстве показано, как скрести Amazon для поиска цен конкурентов, ASIN и списков товаров.
Как получить данные о товарах Amazon.
You can get Amazon product data by simply using their search function. However, that won’t be helpful for more extensive data collection projects that require real-time data spanning multiple sites and listings. The only way that’s possible is by automating the process with web scraping tools.
Что такое веб-скрапинг?
Веб-скрапинг это просто сбор данных с веб-страниц и сайтов. При этом программируются боты, которые автоматически выполняют задачи, необходимые человеку для извлечения и систематизации тех же данных.
Прежде чем скрести Amazon.
Если у вас менее масштабный проект по скрапингу, вы можете просмотреть список категорий каждого ключевого слова. Затем запросить страницу товара для каждой из них, после чего перейти к следующей.
Второй вариант - создать базу данных продуктов, которые вы хотите отслеживать. Для этого вам понадобится список ASIN (стандартных идентификационных номеров Amazon). Затем с помощью инструмента веб-скрапинга регулярно просматривать каждую из этих отдельных страниц. Это наиболее распространенный метод среди тех, кто отслеживает товары для себя или в качестве услуги.
Но прежде чем перейти к этому вопросу, давайте разберемся, что такое ASIN и почему он необходим для сбора данных о товарах на Amazon.
Что такое ASIN?
ASIN - это 10-значный буквенно-цифровой код, который уникальным образом идентифицирует каждый товар на Amazon. ASIN можно найти в разделе "Техническая информация" или "Информация о товаре", а также на странице товара.
Зачем соскабливать ASIN?
ASIN от Amazon помогают получить данные о наиболее эффективных товарах, ежедневных оценках продаж и доходах от уникальных товаров. Они также позволяют выявить похожие товары или конкурентов, используя ключевые слова и информацию о товаре.
Является ли вообще легальной работа с Amazon?
Не существует специального свода законов, определяющих ограничения на использование веб-скрапинга. Однако прецедентное право содержит множество судебных решений в пользу обвинителей. При проникновении в домены, защищенные паролем, в дело вступают законы о защите частной жизни. Ущерб, нанесенный имуществу, является достаточным основанием для возбуждения дела против небрежного или неосведомленного скрапбукинга.
Подробнее о судебная практика по веб-скрапингу.
Три способа соскабливания Amazon.
Существует бесчисленное множество способов определения и классификации веб-скрапинга. Три наиболее распространенных подхода - это метод "копировать-вставить", использование шаблонов с открытым исходным кодом и полнофункциональные инструменты для веб-скрапинга.
Метод копирования-вставки
Если вам нужно собрать только несколько сведений о товарах с сайта Amazon, то этот метод соскабливания не требует пояснений. Его выполнение также не требует много времени и ресурсов. [вставить изображение] Однако чем больше данных о товаре требуется, тем менее эффективным становится метод копирования-вставки.
Скрипты с открытым исходным кодом
Предположим, что вид компьютерного кода не вызывает облака пыли, когда вы разворачиваетесь и бежите в противоположном направлении. В таком случае существуют тысячи бесплатных скриптов для краулинга, скрапинга и парсинга на таких языках программирования, как Python, NodeJS, Scrapy, Java, PHP и Ruby. Эти альтернативы обладают многими общими функциями, но Python, по-видимому, имеет наиболее обширные шаблоны для веб-скрапинга.
Веб-скрапинг APIs
API для веб-скрапинга кажутся самым дорогим решением, но вы должны оценить их ценность. Поскольку они просты в настройке и использовании, они позволяют сэкономить время на изучение кода, оптимизировать процесс сбора данных и устранить возникающие проблемы.
Скрапирование данных о товарах Amazon с помощью API для веб-скрапинга Простота заключается в том, что GUI (Graphical User Interface) требует только простых действий со стороны пользователя, при этом автоматизируя более утомительные задачи кодирования под поверхностью.
В большинстве инструментов для веб-скрапинга, таких как Octoparse и Parsehub, достаточно загрузить программу и следовать краткому руководству, чтобы начать работу.
Преимущества скраппинга Amazon.
- Мониторинг цен в режиме реального времени - благодаряпостоянному анализу данных Amazon вы получаете самый актуальный ресурс по ценам конкурентов. Полученные данные можно импортировать в электронную таблицу или сохранить в формате JSON.
- SEO-исследования - изучениеотзывов потребителей и стратегий конкурентов по мере их появления, что позволяет вносить разумные изменения в SEO-кампанию.
- Данные об отзывах - оптимизируйтеразработку, управление и продвижение продукта к потребителю, используя для анализа отзывы о продукте.
- Обнаружение трендов - поисктоваров с большим объемом, на которые не хватает качественной продукции для удовлетворения спроса.
Проблемы с веб-скрапингом Amazon.
- Один скрипт не управляет всеми - большинствоскреперов настроены на навигацию по определенной структуре страницы. При любом отклонении от этой структуры они часто сталкиваются с проблемами. Страницы Amazon бывают разных форм и размеров и во многом отличаются от стандартных шаблонов. Если вы используете скрипты с открытым исходным кодом, вы должны найти код, который учитывает эти исключения.
- В Amazon много данных - скраппинги хранение данных в вашей системе вполне подходят для небольших проектов. Однако со временем вам понадобятся высокопроизводительные процессоры и огромные банки данных для работы с растущими объемами. Использование облачного сервера позволяет избежать чрезмерной нагрузки на локальные ресурсы и оптимизировать всю цепочку сбора данных.
- Amazon отслеживает активность ботов и мгновенно запрещает IP-адреса - веб-скрапингпротиворечит политике Amazon, и компания активно ее соблюдает. Как только вы поймаете бота, отправляющего слишком много запросов с одного IP-адреса во время работы с их сайтами, Amazon занесет его в черный список. Такое отношение к деятельности ботов затрудняет сбор достаточного количества данных, чтобы на это стоило тратить время.
Тем не менее, люди обходят Amazon каждый день. Те, кто успешно обходит мониторы Amazon, используют для этого вращающиеся прокси-серверы.
Чем могут помочь вращающиеся резидентные прокси-серверы.
Благодаря постоянной ротации IP-адресов создается впечатление, что запросы поступают от тысяч уникальных посетителей, а не от одного бота-скрепера.
You can rotate your IPs manually, but that takes too much time. Automating this process with a proxy management tool like ours is much more convenient. Combine it with access to over 75 million residential proxies and you won’t have any problems scraping Amazon. Download lists of proxies from hundreds of cities worldwide and plug them into your choice of web scraping software. Or you can use our browser extension for web-based scraping tools.
Следующие шаги: Узнать больше о доверенности на проживание и Ротация IP-адресов.