L’outil
  • Type : Logiciel
  • Licence : Logiciel open source/libre
Porteurs et partenaires
Accueil > Outils > Hyphe

Hyphe

Hyphe permet de constituer un corpus de pages web sur un sujet spécifique et d’identifier les liens entre elles. Il est possible de créer des cartographies interactives de ces réseaux. Les sites web peuvent être regroupés en entités et les acteurs catégorisés. De nouvelles entités sont automatiquement suggérées en explorant les hyperliens de chaque entité présente dans le corpus.

Caractéristiques

Hyphe est un web crawler (explorateur du web) qui combine la technologie de l’outil Scrapy et des développements spécifiques pour fournir un logiciel complet et puissant pour l’exploration du web.
Hyphe fonctionne principalement sous Linux et MacOS mais peut être installé sous Windows via Windows Subsystem for Linux (WSL) avec une distribution Linux comme Ubuntu.
Il faut disposer au préalable de Docker, Python? 3, Git et cULR/wget.
Son utilisation est gratuite ; son auteur, le Médialab de SciencePo, propose divers services payants (configuration, requêtes, exploration de corpus...).

Fonctionnement

Création et gestion de corpus
L’interface de Hyphe est accessible depuis un navigateur web une fois Hyphe lancé. Elle permet de gérer les corpus et d’afficher des graphes interactifs pour explorer les connexions entre sites.
Hyphe permet de créer des corpus personnalisés en ajoutant des sources web (sites, pages, domaines) à analyser. Ces corpus peuvent être enrichis et affinés au fil du temps grâce aux outils intégrés.
Il est possible d’importer des listes d’URL pour constituer ou enrichir un corpus à partir de fichiers CSV contenant des liens et métadonnées?. Hyphe peut explorer les pages et en extraire de nouvelles URL pour agrandir le corpus.

Crawl - exploration automatique du web
Hyphe détecte automatiquement des liens à partir des pages explorées. Il est possibilité de lancer une recherche de relations (crawl) ciblée ou de laisser Hyphe explorer de manière plus large le corpus. Un filtrage par profondeur permet de définir jusqu’à quel niveau le crawler doit explorer un site.

Prospection et gestion des webentités
Hyphe regroupe les pages et domaines similaires en « webentités ». Il est possible d’agréger ou scinder des webentités selon la structuration souhaitée.

Catégorisation et annotation des acteurs
Pour structurer le corpus selon des critères analytiques, on peut ajouter des tags, des métadonnées et des catégories aux webentités. Ces options permettent la création d’un réseau de relations entre les acteurs du corpus.

Visualisation de réseaux et statistiques
L’interface de Hyphe présente des statistiques, graphiques et visualisations de réseaux qui sont mis à jour en temps réel.

Exportation et analyse
Les données peuvent être exportées au format CSV ou JSON pour une analyse externe ou une utilisation avec d’autres outils, par exemple Gephi.

Aide et tutoriels

Documentation officielle
Tutoriel (en) sur Github
Découvrir des exemples

Manuels et tutoriels
Benjamin Ooghe-Tabanou :

Vidéos
Benjamin Ooghe-Tabanou, Médialab, 2025 : Construire, explorer et catégoriser des corpus Web pour les SHS
Mathieu Jacomy : HYPHE - Introduction en 6 parties (en)
Paul Girard, Médialab : Cartographier le Web

Porteurs et partenaires

Hyphe a été développé en 2013 par le Médialab de Sciences Po qui continue à assurer son développement.

Article publié le 19 mars 2025
Dernière mise à jour : 10 septembre 2025

Les logos et marques mentionnés sont la propriété de leurs titulaires respectifs. Leur utilisation sur ce site est uniquement à des fins d’information.