Domaines
Les outils présentés sur ce site sont regroupés en domaines qui rapellent la structure des humanités numériques, un champ né de la rencontre entre l’informatique et les sciences humaines et sociales (SHS).
Son évolution connait plusieurs étapes majeures.
En 1949, un ordinateur est utilisé pour la première fois dans un projet en SHS, l’indexation des œuvres de Thomas d’Aquin. Dans les années 1950-1960, l’usage de l’informatique se répand, surtout en linguistique et statistique.
À partir de 1971, la micro-informatique élargit l’accès aux technologies informatiques et logiciels. L’usage de bases de données et, dès la fin des années 1980, de standards et de normes structure les pratiques.
Dans les années 1990, le web transforme la production et la diffusion scientifiques, tout en facilitant l’accès aux corpus texte et multimédia. L’émergence du web accélère la diffusion de logiciels libres et fait naître les premiers projets de science ouverte.
Au XXIe siècle, l’augmentation considérable du volume de données et le recours à l’intelligence artificielle (IA) transforment l’ensemble des domaines des humanités numériques.
-
Analyse de textes
L’analyse de données textuelles est autant qualitative que quantitative.
Elle voit le jour en 1949, quand le jésuite Roberto Busa entreprend en collaboration avec IBM d’informatiser la génération de l’index de l’œuvre de Thomas d’Aquin. La lexicométrie évolue ensuite en intégrant l’analyse de données linguistiques. Avec les méthodes de la statistique textuelle, ces différents volets forment aujourd’hui la textométrie.
Les outils du domaine permettent de qualifier les éléments des textes à l’aide de catégories, puis de les quantifier en analysant leur répartition statistique. Certains excellent dans la gestion de corpus complexes, d’autres sont dotés de fonctionnalités mobilisant l’intelligence artificielle et de visualisation de données.
-
Cartographie
La cartographie numérique permet de représenter dans l’espace des informations issues d’enquêtes sociologiques, historiques, épidémiologiques ou économiques.
Elle permet de visualiser des informations enregistrées dans une base de données sur une carte grâce aux coordonnées géographiques qui sont associées aux informations.
Les fonds de cartes peuvent être de type varié : historique (par exemple la carte Cassini), IGN, images satellite, carte du relief, carte des parcelles cadastrales…Deux types d’outils permettent de créer de telles visualisations.
Les systèmes d’information géographique (SIG), dont les premiers remontent aux années 1960, offrent des représentations variées des données : nuages de points, zones de chaleur, tracés, densités, courbes, etc.La cartographie en ligne (webmapping) émerge dans les années 2000. Elle permet de produire des cartes à l’aide de services web et du Cloud. Assez limitée à ses débuts, elle compte aujourd’hui des fonctionnalités qui se rapprochent de celles des SIG.
Certaines applications dédiées à d’autres domaines permettent de représenter des données sur des cartes. Leurs fonctionnalités de cartographie sont limitées au type de projets pour lesquels elles ont été conçues.
-
Données et programmation
La science des données vise à extraire et analyser des connaissances à partir de grandes quantités de données (big data).
L’apparition des bases de données (1964), puis d’Internet (1990) mène l’émergence de ce domaine, qui s’est d’abord appuyé sur les mathématiques et les statistiques.
À partir des années 2000, les acteurs du web commencent à avoir recours à l’intelligence artificielle pour analyser des informations captées sur le web, souvent à des fins commerciales. L’IA devient rapidement une technique indissociable de l’exploitation des big data. Leur collecte s’intensifie avec la généralisation des téléphones mobiles et objets connectés.
L’exploitation des données repose sur l’emploi de langages de programmation tels que Python ou Java. L’utilité de ces langages dépasse toutefois ce cadre. Ils sont mobilisés dans de nombreux projets en combinaison aux langages propres à la gestion de bases de données et au développement web.
-
Édition numérique
L’édition numérique vise à produire et à diffuser des contenus sous forme numérique.
Elle émerge dans les années 1970 avec les premières numérisations de corpus de textes et s’élargit à partir de 1990 à la publication sur le web.
Le web 2.0 introduit l’interactivité, permettant à l’utilisateur d’annoter un contenu et de constituer des collections personnelles. La mise à disposition de publications au format électronique devient la norme et bouleverse le marché de l’édition et les pratiques éditoriales. L’édition numérique fait émerger des formats nouveaux assurant la portabilité des textes, comme PDF (1992) ou ePub (2007).
La recherche, surtout en littérature, a profité du développement des normes TEI (1987) et XML (1999), permettant le balisage des textes pour décrire leur structure et leur contenu. TEI rend possible de présenter différentes variantes d’un texte et de documenter la manière dont il a été élaboré.
Les progrès de la technique de reconnaissance des caractères (OCR) et le recours à l’intelligence artificielle ouvrent actuellement le champ à la transcription automatisée de sources manuscrites.
-
Gestion des connaissances
La gestion des connaissances personnelles (Personal Knowledge Management) émerge dans les années 1990, suite à la multiplication des ressources électroniques dans les bibliothèques. Dans un premier temps, il se limite à des méthodes et outils pour leur gestion.
Le domaine s’élargi rapidement pour comprendre la gestion de la totalité des informations numériques : les mails, les informations captées sur le web et dans des documents.
Il propose aujourd’hui des solutions pour la captation, l’organisation et le partage des informations et comprend des outils pour la recherche et l’analyse de publications scientifiques, la constitution de bibliographies et la gestion du travail et de projets.
Il inclut aussi les méthodes et pratiques d’organisation personnelle et de développement continu des compétences.La gestion des connaissances est devenu une compétence essentielle dans un monde où l’information est surabondante.
-
Images, audios et vidéos
La production, l’analyse et l’archivage de médias son, audio et vidéo sont au cœur de ce domaine.
Les premières images numériques – composées de pixels codés en valeurs binaires (0 et 1) – apparaissent dans les années 1960. Leur nombre s’accroit rapidement avec le développement de scanners et caméras numériques. En 1982, l’encodage numérique des sons permet la production des premiers CD.
Dans les années 1990, la micro-informatique popularise ces technologies et fait naître des formats toujours utilisés aujourd’hui, comme TIFF (1986) et JPEG (1991) pour la photographie ; MPEG (1988) et AVI (1992) pour la vidéo ; MP3 (1993) et AAC (1997) pour les fichiers audio.
La recherche profite des capacités de reproductibilité, de diffusion et de conservation de ces fichiers, ainsi que des options d’analyse et d’annotation. Des outils permettent la retouche d’images, le montage vidéo, le sous-titrage et l’organisation et la publication de corpus sous forme de collections ou d’expositions virtuelles.
Des fonctionnalités d’intelligence artificielle renforcent actuellement les capacités d’analyse et de traitement.
-
Intelligence artificielle
Le terme "intelligence artificielle" (IA) désigne des technologies informatiques capables d’exécuter des tâches complexes qui nécessitent des compétences considérés auparavant comme propres aux êtres humains. Une application IA repose sur un ensemble d’instructions (algorithmes) appliquées à un stock de données.
La discipline est établie formellement en 1956 et connait des avancées notables dans les années suivantes. Dans les années 1980 apparaissent les premières techniques d’apprentissage automatique qui fonctionnent parfois en imitant les réseaux de neurones humains.
Au XXIe siècle, l’augmentation de la puissance de calcul des ordinateurs et l’essor des big data renforce le recours à l’IA. En 2022, les générateurs de texte popularisent l’usage de l’IA auprès du grand public. Ils font partie de la famille des grands modèles de langage (large language model, LLM) qui sont entrainés sur de vastes ensembles de données et opèrent en calculant la probabilité de la réponse attendue.
Les technologies d’IA investissent aujourd’hui la plupart des méthodes et outils employés dans les humanités numériques. Elles interviennent dans l’analyse, le classement et l’extraction de données, la reconnaissance automatisée et la génération de contenus texte, image, son et vidéo. Certains projets l’utilisent pour la résolution de problèmes complexes.
-
Pédagogie
La pédagogie numérique consiste à utiliser l’informatique et le web dans l’enseignement, en présentiel comme à distance.
Il présente des enjeux spécifiques en matière d’interaction avec les élèves et de suivi individualisé. Les premières applications, datant dès les années 1960, proposent des solutions par le biais d’espaces d’échange et d’outils de suivi pédagogique.
Le domaine permet d’élargir l’accès à la formation, notamment dans les territoires dépourvus d’établissements scolaires, universitaires ou de formation. L’enseignement à distance joue aussi un rôle central dans la diffusion de la recherche, tant à l’international qu’auprès du grand public — comme en témoigne le développement des MOOC à partir de 2010.
La pandémie des années 2020 a généralisé l’offre de cours en ligne par l’ensemble des acteurs de l’éducation et de la formation.
Actuellement, des fonctionnalités d’intelligence artificielle renforcent les capacités d’évaluation des acquis et aident les enseignants dans la création de cours.
-
Sciences de l’information
L’étude et la gestion de l’information sous toutes ses formes — de sa production à sa diffusion, de sa collecte à son exploitation — sont au cœur de la science de l’information.
En SHS, les outils de ce domaine sont mobilisés avant tout pour la recherche et le catalogage de publications et l’évaluation de leur impact.
Les bibliothèques et les archives ont joué un rôle moteur dans le développement du domaine. Du XVIIe au XIXe siècle sont mis en place des théories sur l’organisation des savoirs et des systèmes d’organisation, de description et de référencement de l’information.
Au XXe siècle émerge la bibliométrie, qui mesure la production scientifique et son impact à l’aide d’indicateurs quantitatifs.À partir des années 1950, le traitement documentaire est transformé par l’informatique : les premiers systèmes d’indexation automatique apparaissent, et la scientométrie, discipline proche de la bibliométrie, prend son envol.
En 1991, la recherche d’une accessibilité accrue de l’information scientifique conduit à la création de la première archive ouverte en ligne (arXiv). Les projets d’archives ouvertes se multiplient dans les années 2000.
Actuellement, l’intelligence artificielle transforme en profondeur les méthodes et les métiers du domaine.
Illustration : © Geneva Graduate Institute : Boris Palefroy
-
Techniques et étude du Web
L’exploration et l’étude du web sont au cœur de ce domaine. La rubrique présente aussi des outils pour la création de sites web scientifiques.
Le World Wide Web (www) est né en 1989 au CERN. Il ouvre un espace nouveau pour la diffusion de la recherche ; les premiers sites web scientifiques paraissent dès 1990. À partir de 1997, leur mise en place est simplifiée par l’apparition de systèmes de gestion de contenu (content management system, CMS) comme Drupal (2001), le CMS français Spip (2001) et WordPress (2003). La publication de sites, blogs et collections diverses (articles, photographies, cartes...) prend son envol.
Le web est aussi une source d’information pour la recherche, permettant la collecte de données, de publications et de contenus multimédias. Des outils spécialisés facilitent la capture, l’organisation et l’analyse de ces ressources.
Le web constitue par ailleurs un terrain d’étude en soi. Il est exploré dans le cadre d’enquêtes sur les dynamiques politiques ou des phénomènes sociaux et culturels. En 2001, l’étude de controverses mene à la création des premiers logiciels dédiés à l’exploration des réseaux sociaux et médias. L’intelligence artificielle augmente de manière notable les capacités de telles applications et plateformes.
-
Visualisation de données
Ce domaine, nommé aussi "dataviz", désigne la représentation d’informations sous une forme graphique ; elle vise à rendre des données accessibles et compréhensibles.
Très ancienne, cette pratique nait avec les cartes et les tableaux statistiques au XVIIe siècle. Elle gagne en importance à mesure que les données deviennent un outil indissociable de l’administration et de la science.
L’avènement de l’informatique révolutionne le domaine grâce à l’automatisation et la multiplication des formats et échelles de visualisation. Des tableurs comme Excel et les langages statistiques tels que R facilitent la création de cartes thermiques, d’histogrammes, de courbes de tendance et d’autres graphiques.
Avec les big data et l’essor d’Internet, la visualisation devient au XXIe siècle interactive et dynamique. La dataviz est aujourd’hui utilisée par la science, le journalisme, le marketing et dans bien d’autres domaines.
Illustrations
- Analyse de textes : Martin Grandjean, Wikimedia Commons, CC BY-SA 4.0.
- Cartographie : Pawel Czerwinski, Unsplash, licence Unsplash.
- Données et programmation : Markus Spiske, Unsplash, licence Unsplash.
- Édition numérique : Mutshino_Artwork, Adobe Stock (licence standard).
- Gestion des connaissances : SBSPants, Outilsfroids.net, CC BY-NC-SA 4.0.
- Images, audios et vidéos : Nejc Soklič, Unsplash, licence Unsplash.
- Intelligence artificielle : Shuo, Adobe Stock (licence standard).
- Pédagogie : Who is Danny, Adobe Stock (licence standard).
- Sciences de l’information : © Geneva Graduate Institute, Boris Palefroy.
- Techniques et étude du Web : alice_photo, Adobe Stock (licence standard).
- Visualisation de données : John Stasko, D3.js, licence ISC