Attention, les informations que vous consultez actuellement ne sont pas celles de l'année universitaire en cours. Consulter l'année universitaire 2024-2025.
UE954 - « Data challenge » en sciences sociales. « Machine-learning » pour les sciences de la société
Lieu et planning
-
École nationale des Chartes
65 rue Richelieu 75002 Paris
2nd semestre /
du 16 janvier 2023 au 15 mai 2023Lundi 10:00-12:00
- Lundi 16 janvier 2023
- Lundi 30 janvier 2023
- Lundi 6 février 2023
- Lundi 20 février 2023
- Lundi 20 mars 2023
Lundi 09:00-12:00- Lundi 3 avril 203
- Lundi 17 avril 2023
- Lundi 24 avril 2023
Validations : Lundi 15 mai 2023, 10:00-12:00
Description
Dernière modification : 23 juin 2022 09:10
- Type d'UE
- Enseignements fondamentaux de master
- Disciplines
- Méthodes et techniques des sciences sociales
- Page web
- https://benedictecolnet.github.io/data_science_humanities/
- Langues
- anglais français
- Mots-clés
- Intelligence artificielle Mathématiques et sciences sociales Méthodes et techniques des sciences sociales Méthodes quantitatives
- Aires culturelles
- -
Intervenant·e·s
- Jean-Pierre Nadal [référent·e] directeur d'études, EHESS - directeur de recherche, CNRS / Centre d'analyse et de mathématique sociales (CAMS)
- Julie Josse senior researcher, INRIA
- Bénédicte Colnet doctorante, Université Paris-Saclay
Cours commun aux masters IOES (EHESS-PSL) et Humanités numériques (ENC, PSL).
L’objectif de ce cours est de doter les étudiants d’une compréhension pratique des sujets liés à la science des données moderne et au machine-learning. À l’issue du cours, les étudiants auront développé une intuition – et surtout expérimenté – certains des concepts clefs des méthodes de d’apprentissage.
Pour la validation, les étudiants auront à se confronter à un « data challenge » : proposer (implémenter et tester) un algorithme pour l'analyse de données en lien avec une problématique de sciences économiques et sociales.
Gaël Varoquax (INRIA) et Lorenzo Gasparollo (INRIA, correspondant pour les travaux personnels) participaent également à l'enseignement.
Programme des séances : voir le site web du cours : https://benedictecolnet.github.io/data_science_humanities/
Contexte
La science des données moderne a des applications multiples et des impacts dans de nombreux domaines, y compris en recherche en sciences sociales. Pour le meilleur ou pour le pire, les outils d’apprentissage automatique (machine-learning ou « intelligence artificielle ») interviennent en reconnaissance d’image, détection de mails frauduleux, système de recommandation de produits, prédiction de la disponibilité des lits de réanimation, marketing personnalisé sur des plateformes en ligne, sélection du traitement optimal pour un patient, etc. Dans le domaine de la recherche scientifique, avec la collecte de données massives sur bien des sujets, l'utilisation de tels outils permet des études statistiques poussées impossibles autrefois, ouvrant de nouvelles pistes de recherche.
Sans nécessairement devenir expert, s’initier à l’analyse de données, l’usage de langages de programmation, en allant jusqu’à l’implémentation d'algorithmes d’apprentissage automatique est, d'une part, une façon de mieux comprendre ces enjeux sociétaux, et, d'autre part, d'être acteur (éventuellement en collaborant avec des experts de l'IA) du développement d'approches quantitatives en SHS – que ce soit en sociologie, économie, histoire, etc.
Si aujourd’hui de nombreuses sources de données sont à disposition, la pratique reste hermétique pour de nombreuses personnes qui pourtant côtoient ces données. Cette complexité vient de la multitude des domaines en jeu : statistique, langage de programmation, choix des modèles, vocabulaire spécialisés, etc.
Objectifs
L’objectif de ce cours est de doter les étudiants d’une compréhension pratique des sujets liés à la science des données moderne et au machine-learning. À l’issue du cours, les étudiants auront développé une intuition - et surtout expérimenté – certains des concepts clefs des méthodes de d’apprentissage comme l’évaluation d’un modèle prédictif (accuracy, training set, test set, etc.), le sur-apprentissage (overfitting), la sélection de modèle (lasso, random-forest, etc.). Une partie du cours portera aussi sur l’interprétation des modèles d’apprentissage automatique et ce qu’ils peuvent nous permettre de dire. Une introduction à la causalité conclura le cours.
Les jeux de données proposés pour illustrer les apprentissages seront en lien avec des problématiques d'importance sociétale (ex. évolution des prix), politiques publiques (ex. salaires des fonctionnaires), etc.
À la fin du cours les élèves auront eu l’occasion de découvrir deux langages de programmation très communs aujourd’hui : R et Python.
Audience
Ce cours s’adresse à des étudiants dans des cursus non spécialistes des sciences de données, comme en sciences humaines et sociales, sciences économiques, humanités numériques, sciences politiques, affaires publiques, journalisme...
Pré-requis
Ce cours présentera des notions de machine-learning sans supposer aucune connaissance préalable. Cependant, des connaissances en statistiques ou de langages de programmation tels que R ou Python seront profitables, et ce cours dépassera la seule introduction à ces outils.
Le cours s'adresse donc en priorité à des étudiants de M2 ayant eu une initiation en M1 dans ces domaines, mais est ouverte aux étudiants de M1 ayant de préférence une certaine pratique de la programmation, ou à des étudiants moins formés prêt à s'investir fortement dans l'apprentissage de la programmation scientifique.
Les étudiants, pour lesquels la prise en main des outils est nouvelle, seront guidés lors des séances pratiques, en particulier dès la première séance. Au besoin une séance supplémentaire sera proposée pour guider les élèves novices dans l’installation des softwares R et Python et leur découverte.
Master
-
Méthodologie
– Sciences économiques et sociales - Institutions, organisations, économie et société
– M1/S1-M2/S3
Suivi et validation – semestriel bi-mensuelle = 3 ECTS
MCC – travail personnel impliquant l'analyse avancée de données
Renseignements
- Contacts additionnels
- -
- Informations pratiques
Cours et travaux dirigés, exercices à réaliser pour la séance suivante ; validation sur travail personnel sur des données fournies aux étudiants ("data challenge")
Site github du cours pour le partage de documents et de codes numériques.
Détails pratiques distribués aux étudiants inscrits.
- Direction de travaux des étudiants
En cours de séances, et si besoin sur rendez-vous.
Certaine séances seront spécifiquement dévolues à l'encadrement des travaux détudiants. Les échanges entre étudiants lors de ces séances seront également très profitables.
- Réception des candidats
Sur rendez-vous uniquement
- Pré-requis
Une pratique minimale de la programmation en R et/ou python. Avoir eu une initiation à l'analyse de données, à l'apprentissage machine, est préférable. Noter cependant que le déroulement du cours s'adapte aux étudiants.
Compte rendu
Ce cours fait partie des cursus de deux masters, le master IOES (EHESS-PSL) et le master Humanité numériques (PSL).
L’objectif de ce cours est de doter les étudiants d’une compréhension pratique des sujets liés à la science des données moderne et au machine-learning (inelligence artificielle). À l’issue du cours, les étudiants auront développé une intuition – et surtout expérimenté – certains des concepts clefs des méthodes de d’apprentissage.
Les notes de cours et codes numériques étaient disponibles sur un site github.
Pour la validation, les étudiants ont eu à se confronter à un « data challenge » : ils devaient proposer (implémenter et tester) un algorithme pour l'analyse de données en lien avec une problématique de sciences économiques et sociales.
Ont contribué à ce cours : Julie Josse (Inria), Bénédicte Colnet (Université Paris Saclay), Gaël Varoquaux (INRIA) et Lorenzo Gasparollo (INRIA, correspondant pour les travaux personnels).
Publications
Jean-Pierre Nadal
- Avec J.-P. Bouchaud et M. Marsili, «Application of Spin Glass Ideas in Social Sciences, Economics and Finance», Chapter in Spin Glass Theory and Far Beyond – Replica Symmetry Breaking after 40 years, sous la dir. de Patrick Charbonneau, Enzo Marinari, Marc Mézard, Giorgio Parisi, Federico Ricci-Tersenghi, Gabriele Sicuro et Francesco Zamponi, World Scientific (ISBN: 978-981-127-391-9, doi: 10.1142/13341), août 2023. Chapter preprint : hal-04145594
- Avec L. Bonnasse-Gahot, «Modéliser les émeutes de 2005 : une vague de violence contagieuse», dans L’interdisciplinarité – Voyages au-delà des disciplines, sous la dir. de S. Blanc, M. Bouzeghoub et M. Knoop, CNRS Éditions, 5 janv. 2023 – ouvrage collectif à l’initiative de la Mission pour les initiatives transverses et interdisciplinaires (MITI) du CNRS.
- Avec N. Patil et J.-P. Bouchaud, «Income Inequalities Increase with City Size: Evidence from French Data», preprint arXiv:2305.12864 (doi: 10.48550/arXiv.2305.12864), juin, 4, 2023.
Dernière modification : 23 juin 2022 09:10
- Type d'UE
- Enseignements fondamentaux de master
- Disciplines
- Méthodes et techniques des sciences sociales
- Page web
- https://benedictecolnet.github.io/data_science_humanities/
- Langues
- anglais français
- Mots-clés
- Intelligence artificielle Mathématiques et sciences sociales Méthodes et techniques des sciences sociales Méthodes quantitatives
- Aires culturelles
- -
Intervenant·e·s
- Jean-Pierre Nadal [référent·e] directeur d'études, EHESS - directeur de recherche, CNRS / Centre d'analyse et de mathématique sociales (CAMS)
- Julie Josse senior researcher, INRIA
- Bénédicte Colnet doctorante, Université Paris-Saclay
Cours commun aux masters IOES (EHESS-PSL) et Humanités numériques (ENC, PSL).
L’objectif de ce cours est de doter les étudiants d’une compréhension pratique des sujets liés à la science des données moderne et au machine-learning. À l’issue du cours, les étudiants auront développé une intuition – et surtout expérimenté – certains des concepts clefs des méthodes de d’apprentissage.
Pour la validation, les étudiants auront à se confronter à un « data challenge » : proposer (implémenter et tester) un algorithme pour l'analyse de données en lien avec une problématique de sciences économiques et sociales.
Gaël Varoquax (INRIA) et Lorenzo Gasparollo (INRIA, correspondant pour les travaux personnels) participaent également à l'enseignement.
Programme des séances : voir le site web du cours : https://benedictecolnet.github.io/data_science_humanities/
Contexte
La science des données moderne a des applications multiples et des impacts dans de nombreux domaines, y compris en recherche en sciences sociales. Pour le meilleur ou pour le pire, les outils d’apprentissage automatique (machine-learning ou « intelligence artificielle ») interviennent en reconnaissance d’image, détection de mails frauduleux, système de recommandation de produits, prédiction de la disponibilité des lits de réanimation, marketing personnalisé sur des plateformes en ligne, sélection du traitement optimal pour un patient, etc. Dans le domaine de la recherche scientifique, avec la collecte de données massives sur bien des sujets, l'utilisation de tels outils permet des études statistiques poussées impossibles autrefois, ouvrant de nouvelles pistes de recherche.
Sans nécessairement devenir expert, s’initier à l’analyse de données, l’usage de langages de programmation, en allant jusqu’à l’implémentation d'algorithmes d’apprentissage automatique est, d'une part, une façon de mieux comprendre ces enjeux sociétaux, et, d'autre part, d'être acteur (éventuellement en collaborant avec des experts de l'IA) du développement d'approches quantitatives en SHS – que ce soit en sociologie, économie, histoire, etc.
Si aujourd’hui de nombreuses sources de données sont à disposition, la pratique reste hermétique pour de nombreuses personnes qui pourtant côtoient ces données. Cette complexité vient de la multitude des domaines en jeu : statistique, langage de programmation, choix des modèles, vocabulaire spécialisés, etc.
Objectifs
L’objectif de ce cours est de doter les étudiants d’une compréhension pratique des sujets liés à la science des données moderne et au machine-learning. À l’issue du cours, les étudiants auront développé une intuition - et surtout expérimenté – certains des concepts clefs des méthodes de d’apprentissage comme l’évaluation d’un modèle prédictif (accuracy, training set, test set, etc.), le sur-apprentissage (overfitting), la sélection de modèle (lasso, random-forest, etc.). Une partie du cours portera aussi sur l’interprétation des modèles d’apprentissage automatique et ce qu’ils peuvent nous permettre de dire. Une introduction à la causalité conclura le cours.
Les jeux de données proposés pour illustrer les apprentissages seront en lien avec des problématiques d'importance sociétale (ex. évolution des prix), politiques publiques (ex. salaires des fonctionnaires), etc.
À la fin du cours les élèves auront eu l’occasion de découvrir deux langages de programmation très communs aujourd’hui : R et Python.
Audience
Ce cours s’adresse à des étudiants dans des cursus non spécialistes des sciences de données, comme en sciences humaines et sociales, sciences économiques, humanités numériques, sciences politiques, affaires publiques, journalisme...
Pré-requis
Ce cours présentera des notions de machine-learning sans supposer aucune connaissance préalable. Cependant, des connaissances en statistiques ou de langages de programmation tels que R ou Python seront profitables, et ce cours dépassera la seule introduction à ces outils.
Le cours s'adresse donc en priorité à des étudiants de M2 ayant eu une initiation en M1 dans ces domaines, mais est ouverte aux étudiants de M1 ayant de préférence une certaine pratique de la programmation, ou à des étudiants moins formés prêt à s'investir fortement dans l'apprentissage de la programmation scientifique.
Les étudiants, pour lesquels la prise en main des outils est nouvelle, seront guidés lors des séances pratiques, en particulier dès la première séance. Au besoin une séance supplémentaire sera proposée pour guider les élèves novices dans l’installation des softwares R et Python et leur découverte.
-
Méthodologie
– Sciences économiques et sociales - Institutions, organisations, économie et société
– M1/S1-M2/S3
Suivi et validation – semestriel bi-mensuelle = 3 ECTS
MCC – travail personnel impliquant l'analyse avancée de données
- Contacts additionnels
- -
- Informations pratiques
Cours et travaux dirigés, exercices à réaliser pour la séance suivante ; validation sur travail personnel sur des données fournies aux étudiants ("data challenge")
Site github du cours pour le partage de documents et de codes numériques.
Détails pratiques distribués aux étudiants inscrits.
- Direction de travaux des étudiants
En cours de séances, et si besoin sur rendez-vous.
Certaine séances seront spécifiquement dévolues à l'encadrement des travaux détudiants. Les échanges entre étudiants lors de ces séances seront également très profitables.
- Réception des candidats
Sur rendez-vous uniquement
- Pré-requis
Une pratique minimale de la programmation en R et/ou python. Avoir eu une initiation à l'analyse de données, à l'apprentissage machine, est préférable. Noter cependant que le déroulement du cours s'adapte aux étudiants.
-
École nationale des Chartes
65 rue Richelieu 75002 Paris
2nd semestre /
du 16 janvier 2023 au 15 mai 2023Lundi 10:00-12:00
- Lundi 16 janvier 2023
- Lundi 30 janvier 2023
- Lundi 6 février 2023
- Lundi 20 février 2023
- Lundi 20 mars 2023
Lundi 09:00-12:00- Lundi 3 avril 203
- Lundi 17 avril 2023
- Lundi 24 avril 2023
Validations : Lundi 15 mai 2023, 10:00-12:00
Ce cours fait partie des cursus de deux masters, le master IOES (EHESS-PSL) et le master Humanité numériques (PSL).
L’objectif de ce cours est de doter les étudiants d’une compréhension pratique des sujets liés à la science des données moderne et au machine-learning (inelligence artificielle). À l’issue du cours, les étudiants auront développé une intuition – et surtout expérimenté – certains des concepts clefs des méthodes de d’apprentissage.
Les notes de cours et codes numériques étaient disponibles sur un site github.
Pour la validation, les étudiants ont eu à se confronter à un « data challenge » : ils devaient proposer (implémenter et tester) un algorithme pour l'analyse de données en lien avec une problématique de sciences économiques et sociales.
Ont contribué à ce cours : Julie Josse (Inria), Bénédicte Colnet (Université Paris Saclay), Gaël Varoquaux (INRIA) et Lorenzo Gasparollo (INRIA, correspondant pour les travaux personnels).
Publications
Jean-Pierre Nadal
- Avec J.-P. Bouchaud et M. Marsili, «Application of Spin Glass Ideas in Social Sciences, Economics and Finance», Chapter in Spin Glass Theory and Far Beyond – Replica Symmetry Breaking after 40 years, sous la dir. de Patrick Charbonneau, Enzo Marinari, Marc Mézard, Giorgio Parisi, Federico Ricci-Tersenghi, Gabriele Sicuro et Francesco Zamponi, World Scientific (ISBN: 978-981-127-391-9, doi: 10.1142/13341), août 2023. Chapter preprint : hal-04145594
- Avec L. Bonnasse-Gahot, «Modéliser les émeutes de 2005 : une vague de violence contagieuse», dans L’interdisciplinarité – Voyages au-delà des disciplines, sous la dir. de S. Blanc, M. Bouzeghoub et M. Knoop, CNRS Éditions, 5 janv. 2023 – ouvrage collectif à l’initiative de la Mission pour les initiatives transverses et interdisciplinaires (MITI) du CNRS.
- Avec N. Patil et J.-P. Bouchaud, «Income Inequalities Increase with City Size: Evidence from French Data», preprint arXiv:2305.12864 (doi: 10.48550/arXiv.2305.12864), juin, 4, 2023.