Le web scraping permet de gagner du temps, mais ce n'est que la moitié de l'histoire.
Elle peut aussi vous rendre riche.
(Avec données)
D'accord, c'était un peu de mauvais goût, mais ce n'est pas une blague : les données sont de l'or numérique.
(Désolé pour le bitcoin)
But before we Scrooge McDuck dive into any binary nuggets, we should gloss over a few things web scraping. Here’s what I propose:
Faites la paix avec l'humour paternel qui hante ces pages, et j'irai droit au but en vous expliquant ce qu'est exactement le web scraping et comment il peut vous rapporter le bacon... ou le chou. (Vegan friendly).
Qu'est-ce que le web scraping ?
Le web scraping consiste à collecter des données sur l'internet. (Pensez au copier-coller, mais en plus rapide)
Ils utilisent une application ou un script pour automatiser la collecte des données, supprimer les informations inutiles et les organiser dans une bibliothèque.
Les "web scrapers" téléchargent un fichier robot.txt pour savoir où ils peuvent aller sur un site web. Ils suivent ensuite les liens vers de nouvelles pages et compilent une liste ou "file d'attente".
C'est un peu comme mettre en file d'attente une liste de lecture sur Spotify au fur et à mesure que l'on découvre des chansons que l'on aime. Sauf que le palais d'un web scraper n'a pas un goût aussi raffiné et met tout en file d'attente.
Au fur et à mesure que le scraper descend dans la liste croissante, il se ramifie en différentes pages jusqu'à ce que son travail soit terminé.
Qu'est-ce qu'on gratte exactement ?
Le web, bien sûr. Plus précisément, vous collectez des informations précieuses à partir de pages web qui peuvent être utilisées pour créer et gérer une entreprise, contribuer à des projets de recherche et automatiser des tâches fastidieuses.
Voici quelques autres exemples :
- Vous pouvez consulter les actualités et les flux de médias sociaux pour voir ce que font les concurrents.
- Découvrez les produits qui ont le vent en poupe sur eBay.
- Proposer les meilleurs prix pour les voyages en avion grâce à l'agrégation des prix.
- Recherchez les écarts de valeur susceptibles de générer des bénéfices.
Il est possible de programmer des extracteurs de données web de sites web pour qu'ils fassent tout ce que vous pouvez faire en ligne, mais des milliers de fois plus vite.
Comment obtenir un scraper web ?
Vous pouvez écrire votre propre scraper à partir de zéro, ou vous pouvez utiliser ce que quelqu'un d'autre a déjà écrit. Si vous n'êtes pas un codeur, vous devriez probablement opter pour quelque chose comme Octoparse qui vous fera gagner du temps et accélérera le processus.
L'API YQL (Yahoo Query Language) de Yahoo est un exemple qui existe depuis un certain temps. Elle permet d'accéder à de nombreux types de sources de données, notamment les flux RSS, les prévisions météorologiques locales ou les listes de films - tout ce qui est mis à jour régulièrement en ligne est disponible par l'intermédiaire de ce service sans qu'aucun codage supplémentaire ne soit nécessaire. Tout ce qui est mis à jour régulièrement en ligne devient disponible par l'intermédiaire de ce service sans qu'aucun codage supplémentaire ne soit nécessaire. Ce qui est formidable, c'est qu'il n'est pas nécessaire de se limiter aux pages web, mais qu'il est également possible d'obtenir des cotations boursières, de surveiller les flux de nouvelles des médias sociaux ou des rapports financiers.
C'est un peu la vieille école.
Voici quelques exemples d'extensions modernes de scraping pour votre navigateur :
1. Data Scraper (Chrome)
La version gratuite vous permet de récupérer jusqu'à 500 pages de données par mois. C'est peu, mais si vous en voulez plus, vous pouvez passer à une formule payante.
2. Gratte-ciel
Ce scraper dispose d'une extension chrome et cloud qui fonctionne par simple pointer-cliquer et ne nécessite aucune expérience en matière de codage. Il fonctionne avec les langages web courants et s'intègre facilement avec les logiciels d'automatisation et les proxys.
3. Grattoir (Chrome)
Ce logiciel est facile à utiliser, mais je vous recommande d'avoir une certaine expérience du codage. Si vous cliquez sur un texte dans un tableau ou une liste et que vous choisissez "Scrape Similar" dans le menu du navigateur, vous pouvez obtenir des informations et du contenu en ajoutant de nouvelles colonnes à l'aide de XPath ou de JQuery.
Je pourrais continuer ainsi longtemps - le web regorge d'outils de scraping. Lorsque vous choisissez celui que vous allez utiliser, il y a quelques points à prendre en compte :
De combien de temps disposez-vous ? Est-ce quelque chose que vous faites régulièrement ou seulement une fois ?
Quel est votre budget ? Possédez-vous déjà un logiciel comme Google Analytics qui intègre des fonctionnalités d'exploration du web ? Pourquoi payer plus si ce dont vous avez besoin est gratuit ?
Comment gagner de l'argent avec le web scraping
Le vaste monde du web scraping se résume à un ingrédient principal : l'information.
Ces informations peuvent être utilisées comme une sorte de monnaie dans tous les types d'échanges commerciaux :
- Vente directe ou exploitation de l'information
- Soutenir l'automatisation des activités
- Optimiser les échanges et le commerce
La vente d'informations est assez simple - des films d'espionnage entiers tournent autour d'une clé USB contenant des informations précieuses.
Mais qu'en est-il de l'automatisation et du commerce ?
Il faut voir les choses sous cet angle :
Chaque produit, jusqu'au pixel, est une information.
1. Créer une entreprise qui vend de l'information.
- Financial guru - Compile les nouvelles et les événements qui ont un impact sur le marché boursier, l'immobilier et les crypto-monnaies.
- SEO extraordinaire - Fournir des recherches de mots clés et des conseils en matière de marketing de contenu.
- Consultant en affaires - Offre des analyses approfondies de la concurrence dans le secteur et des tendances du marché.
Dans ce cas, vous recherchez des informations pour lesquelles les gens paient déjà et vous les présentez sous forme de produit. Vous pouvez également l'offrir gratuitement sur votre site web pour attirer du trafic ou la vendre sous forme de publicité d'affiliation.
2. Le "web scraping" en tant que service intermédiaire.
- Agrégation des tarifs de voyage - Recherche sur le web des meilleurs prix pour les billets d'avion, les hôtels et d'autres services de voyage en tant que service. Pour ce faire, il est nécessaire d'effectuer des recherches en continu sur une multitude de sites web de voyage, et donc d'utiliser des proxys résidentiels tournants. Comme vous le savez probablement, Google déploie des Google Spiders pour vous fournir les dernières informations sur les hôtels et les billets d'avion. Parallèlement, d'autres sociétés comme Expedia, Skyscanner et Hostelworld capitalisent sur différentes niches de voyage.
- Courtage en bourse ou gestion de fonds spéculatifs - Tout le monde est un génie de l'investissement après avoir acheté sa première action ou sa première pièce de monnaie cryptographique. Mais tous ceux qui ont réussi à maintenir leurs portefeuilles dans le vert sont bien conscients du biais d'information. Pour avoir une vue d'ensemble, il est essentiel de disposer de données importantes. Le seul moyen d'y parvenir est d'utiliser des robots pour recueillir des informations qui ne sont pas soumises au filtre étroit de la perception humaine. Avec ce type de soutien, vous pouvez gérer les risques avec succès - un service pour lequel les gens sont prêts à donner leur argent (si vous pouvez le leur rendre, avec des intérêts).
- Marketing et publicité - Au lieu d'être un simple informateur pour les agences de marketing et les entreprises, vous pouvez être la source d'information. Une fois de plus, Google et Google Analytics revendiquent une certaine forme d'autorité et des filiales telles que SEMRush et AnswerThePublic prennent le relais. Vous pensez peut-être qu'il n'y a plus de marge de manœuvre, mais ce n'est pas vrai. Tout dans le monde se transplante et se multiplie en ligne et quelqu'un doit trier tout cela. (Pour un prix raisonnable, bien sûr)
3. Raclage de sites web : des sujets brûlants d'actualité
Vous devez être à l'affût de ce qui se fait de mieux. De cette façon, le risque est faible et la récompense élevée. En d'autres termes, vous ne risquez pas de rester les bras croisés et de vendre à perte.
- Baskets - Un secteur de revente unique qui fleurit dans le cœur des amateurs de baskets. Les sneakers à tirage limité sont les plus rentables, avec un rendement facilement multiplié par 10 sur certaines Yeezy ou Jordan. Cependant, la courbe d'apprentissage est raide si vous débutez, mais il existe de nombreux guides pour vous préparer à un retournement de baskets rentable.
- Produits électroniques - Les produits électroniques tels que la PS5 ou les cartes graphiques sont très faciles à revendre et permettent même de gagner sa vie de manière lucrative. Tout comme pour les baskets, la concurrence est féroce.
- Billets d'événements - Il s'agit peut-être de l'article de revente par excellence. Ce n'est pas pour rien que les ventes de billets semblent truquées - c'est en quelque sorte le cas. Des robots s'emparent des billets d'événements les plus prisés pour les revendre à prix d'or.
- Les tokens non fongiques ou NFT - Certains NFT sont incroyablement difficiles à obtenir. Probablement parce que la moitié des enchères sont faites par des bots. Dans cet exemple, les bots font de multiples offres et participent à des tirages au sort afin de s'approprier un maximum de NFT qu'ils revendront ensuite avec un profit fou sur des places de marché comme OpenSea, Solanart ou DigitalEyes.
Dans tous ces cas, le web scraping a une fonction légèrement différente. Ils parcourent toujours les pages web et enregistrent des données, mais ils automatisent également le processus de paiement.
Si vous utilisez des proxys, vous pouvez multiplier ces vérifications pour augmenter vos chances de gagner. En fait, il est absolument nécessaire d'exécuter tout logiciel automatisé - bots et web scrapers - avec des proxys. Si vous ne le faites pas, toute votre opération échouera lorsque votre adresse IP sera bannie.
Le résultat
Chacune de ces stratégies, prise isolément, mérite que l'on y consacre du temps et des efforts. Mais qu'obtient-on en les combinant ?
Une sorte de machine qui se nourrit d'informations et qui fait des bulles de salaire.
Les plus grands.
Les informations sur le marché vous sautent littéralement aux yeux, mais leur volume dépasse nos limites de traitement. Même si j'aime à croire que nous pouvons temporairement maîtriser la matrice (comme Néo), un scraper web est un peu plus fiable.
En quelques secondes, vous pouvez :
- Analyser la situation actuelle du marché financier
- Identifier les changements et les tendances du marché
- Suivre l'actualité nationale et mondiale qui concerne les actions et l'économie
- Connaître le sentiment et le comportement des consommateurs
Tout ce que vous pouvez faire en ligne, les web scrapers le font à une échelle bien plus grande.
Tout cela grâce aux procurations.
(Les procurations permettent de dissimuler votre présence à l'agent Smith)