L’outil
  • Type : Logiciel
  • Licence : Freemium/Shareware
Porteurs et partenaires
Domaines concernés
Accueil > Outils > Octoparse

Octoparse

Octoparse est un outil de web scraping qui permet d’extraire des données d’une page web sans nécessiter de compétences avancées en programmation. Il offre une interface conviviale et des fonctionnalités puissantes pour automatiser la collecte et l’organisation des données.

Caractéristiques

Octoparse permet de récupérer des informations figurant sur une page web et de les exporter dans un fichier (format CSV, Excel ou JSON) ou dans une base de données.
Contrairement à BeautifulSoup, Octoparse dispose d’une interface graphique, ce qui simplifie le processus. Elle permet de choisir la ou les sections de la page dont le contenu est à exporter. Le tableur qui reçoit les données peut également être configuré, en créant des colonnes et en indiquant le contenu qu’elles doivent recevoir.
La version gratuite est soumise à des restrictions : le nombre de tâches pouvant être exécutées est limité. Pour des projets d’envergure, l’outil Scrapy est à privilégier.

L’utilisation d’Octoparse nécessite la création d’un compte utilisateur.

Fonctionnement

Sélection des données à extraire
Une fois le logiciel installé sur l’ordinateur et lancé, le champ de saisie de création d’une tâche permet d’indiquer l’URL du site web cible.
Octoparse identifie les secteurs de la page web qui contiennent des données. Un clic sur un secteur permet de le sélectionner pour l’extraction. Octoparse détecte automatiquement les éléments similaires sur la page et les sélectionne en lot.

Définition du workflow
Les différentes opérations à mener lors d’une extraction constituent le workflow.
Il est possible de le configurer, par exemple en :

  • ajoutant des étapes, comme un scrolling automatique si les données se chargent au fur et à mesure qu’on descend dans la page,
  • intégrer une option de pagination si les données sont réparties sur plusieurs pages,
  • définissant des conditions, permettant d’activer certains liens ou boutons.

Extraction des données
Le résultat de l’extraction s’affiche sous forme de tableau dans la partie inférieure de la fenêtre. Il est possible d’agencer et de renommer les colonnes.
Une fois correctement configuré, un clic sur "Démarrer" lance l’extraction des données.
Elle peut être limitée par des restrictions imposées par certains sites (CAPTCHAs, protections anti-scraping ou de mot de passe). Des ajustements manuels peuvent être nécessaires pour des sites dont la structure est très complexe.

Exportation des données
Les données collectées peuvent être exportées dans différents formats : CSV, Excel, JSON, ou vers une base de données.

Aide et tutoriels

Documentation officielle
Centre d’aide (fr)
Guide du débutant (fr)
Blog (fr)

Manuels et tutoriels
CERES : Atelier Octoparse

Vidéos
François Dufaur-Boidin : Tutoriels Octoparse

Porteurs et partenaires

Octoparse a été publié en 2016 par une entreprise technologique basée en Chine, Octopus Data Inc., spécialisée dans le développement de solutions de web scraping.

Article publié le 4 décembre 2024
Dernière mise à jour : 4 septembre 2025

Les logos et marques mentionnés sont la propriété de leurs titulaires respectifs. Leur utilisation sur ce site est uniquement à des fins d’information.