Données et programmation
La science des données vise à extraire et analyser des connaissances à partir de grandes quantités de données (big data).
L’apparition des bases de données (1964), puis d’Internet (1990) mène l’émergence de ce domaine, qui s’est d’abord appuyé sur les mathématiques et les statistiques.
À partir des années 2000, les acteurs du web commencent à avoir recours à l’intelligence artificielle pour analyser des informations captées sur le web, souvent à des fins commerciales. L’IA devient rapidement une technique indissociable de l’exploitation des big data. Leur collecte s’intensifie avec la généralisation des téléphones mobiles et objets connectés.
L’exploitation des données repose sur l’emploi de langages de programmation tels que Python ou Java. L’utilité de ces langages dépasse toutefois ce cadre. Ils sont mobilisés dans de nombreux projets en combinaison aux langages propres à la gestion de bases de données et au développement web.
Sous-domaines
- Bases de données /BOUCLE_verif_articles1>
- Big Data /BOUCLE_verif_articles1>
- Data Mining /BOUCLE_verif_articles1>
- Entrepôt de données /BOUCLE_verif_articles1>
- Programmation /BOUCLE_verif_articles1>
Bases de données
-
Dataset Search
Trouver des collections de données sur le web
Application web | Logiciel gratuit
Dataset Search est un moteur de recherche développé par Google qui donne accès à une grande variété de collections de données utiles pour la recherche. Elles proviennent de sources diverses sur le web, notamment de gouvernements, d’institutions académiques, d’organisations de recherche et d’entreprises.
-
Heurist
Créer et publier des bases de données sur le web
Application web | Freemium/Shareware
Heurist est une plateforme en ligne permettant de créer des bases de données et de les publier sur un site web sans nécessiter des compétences en programmation. Destinée aux sciences humaines et sociales, la plateforme propose des fonctionnalités de visualisation des données, dont la création de cartographies et de chronologies.
-
Notion
Gérer ses tâches, notes et projets dans un espace de travail personnalisable
Logiciel, Application web | Freemium/Shareware
Notion est une application polyvalente dédiée à la prise de notes, l’organisation du travail et la gestion de projet. Elle permet de créer des espaces de travail personnalisés pour chaque projet ou sujet, avec des notes, tâches et bases de données. De nombreuses extensions permettent d’importer des données d’applications tierces (Zotero, Canvas, Github...) et du web.
Big Data
-
GDELT
Analyser et vérifier la véracité d’événements signalés dans les médias à l’échelle mondiale
Application web, Jeu de données | Logiciel gratuit
GDELT enregistre dans une base de données les événements signalés dans les médias imprimés, radiodiffusés et en ligne dans plus de 100 langues et dans tous les pays du monde. Ses archives remontent au 1er janvier 1979 et sont mises à jour toutes les 15 minutes. L’accès aux données est gratuit et ouvert. Des outils de cartographie interactive et tableaux de bord analytiques sont disponibles.
-
Google Trends
Explorer les requêtes Google faites par les internautes
Application web | Logiciel gratuit
Google Trends est un outil gratuit qui permet de connaître et d’analyser les requêtes faites sur le moteur de recherche Google. Il est possible de visualiser leur évolution dans le temps et par pays, région ou ville. L’onglet "Tendances" permet de visualiser les sujets les plus recherchés en temps réel.
-
Kaggle
S’initier à la science des données et trouver des données
Application web, Langage, Jeu de données, Script, Bibliothèque | Freemium/Shareware
Kaggle est une entreprise de Google qui propose une plateforme communautaire pour les passionnés de la science des données et l’apprentissage automatique (machine learning). Elle permet à ses utilisateurs à participer à la résolution de problèmes, à partager leurs méthodes et à se former. Kaggle propose une importante collection de données en libre accès sur des sujets variés ainsi que des outils pour l’analyse de données et la création de modèles.
-
Media Cloud
Analyser la couverture médiatique d’un sujet à l’échelle mondiale
Application web | Logiciel open source/libre
Media Cloud surveille et archive les articles de milliers de sources d’actualités en ligne, incluant des médias internationaux, nationaux et locaux. La plateforme permet d’effectuer des recherches basées sur des mots-clés, des expressions ou des sujets spécifiques.
Data Mining
-
Kaggle
S’initier à la science des données et trouver des données
Application web, Langage, Jeu de données, Script, Bibliothèque | Freemium/Shareware
Kaggle est une entreprise de Google qui propose une plateforme communautaire pour les passionnés de la science des données et l’apprentissage automatique (machine learning). Elle permet à ses utilisateurs à participer à la résolution de problèmes, à partager leurs méthodes et à se former. Kaggle propose une importante collection de données en libre accès sur des sujets variés ainsi que des outils pour l’analyse de données et la création de modèles.
Entrepôt de données
-
Nakala
Stocker et disséminer les données de la recherche en SHS
Application web | Logiciel open source/libre
NAKALA est l’entrepôt national pour les données de recherche en SHS. Il offre un espace pour le stockage, la diffusion et le partage des données dans le respect des principes FAIR : Faciles à trouver, Accessibles, Interopérables, Réutilisables.
Programmation
-
Anaconda
Utiliser un environnement de développement pour la programmation
Logiciel | Freemium/Shareware
Anaconda est un environnement de développement intégré (IDE) open source qui supporte de nombreux langages de programmation, dont Python, R, C/C+, PHP, Java et bien d’autres. Son gestionnaire de bibliothèques Conda facilite l’ajout de nouvelles fonctionnalités et bibliothèques. Anaconda est employé pour la programmation avec Python, l’analyse de données, le machine learning et la science des données.
-
Eclipse IDE
Utiliser un environnement de développement pour concevoir des programmes
Logiciel | Logiciel open source/libre
Eclipse est un environnement de développement intégré (IDE) libre et open source qui supporte de nombreuses langages de programmation, dont Java, Python, C/C+, PHP et bien d’autres. Il repose sur une architecture modulaire qui permet d’ajouter des fonctionnalités et bibliothèques.
-
RStudio
Utiliser un environnement de développement pour le traitement de données et l’analyse statistique
Logiciel | Logiciel open source/libre
RStudio est un environnement de développement intégré (IDE) open source dédié à la programmation en "R", langage spécialisé dans le traitement des données, la statistique et la visualisation. Il propose une interface unifiée pour coder, analyser, visualiser et documenter des projets de recherche et de science des données.