Attention, les informations que vous consultez actuellement ne sont pas celles de l'année en cours. Consulter l'année universitaire 2022-2023.

UE811 - IA & SHS : « Data challenge » en sciences sociales


Lieu et planning


  • Autre lieu Paris
    Salle Coyecque, École nationale des Chartes, 65 rue de Richelieu 75002 Paris
    2nd semestre / hebdomadaire, lundi 10:00-12:00
    du 17 janvier 2022 au 4 avril 2022
    Nombre de séances : 11


Description


Dernière modification : 23 décembre 2021 07:25

Type d'UE
Enseignements fondamentaux de master
Disciplines
Méthodes et techniques des sciences sociales
Page web
-
Langues
français
Mots-clés
Humanités numériques Informatique et sciences sociales Mathématiques et sciences sociales Méthodes et techniques des sciences sociales Socio-économie
Aires culturelles
-
Intervenant·e·s

Les étudiant·es de l'EHESS qui souhaitent valider cet enseignement devront y assister en présentiel.

L’objectif du cours est de sensibiliser les étudiants à la science des données au sens large, avec une démarche assez classique où on part d’une problématique associée à un jeu de données et on réalise les différentes étapes d’une analyse en apprenant les méthodes, logiciels associés. On commencera donc par des étapes d’exploration, visualisation des données, puis des modélisations en utilisant les méthodes/algorithmes nécessaires pour répondre à la question (en insistant sur les compromis pouvoir prédictif/interprétabilité, la nécessité de toujours se comparer à des méthodes simples, etc). Enfin les étudiants communiqueront les résultats par exemple en réalisant des interfaces interactives.

Les étudiants étroitement encadrés travailleront de manière différenciée selon leurs compétences initiales. L'objectif final est d'arriver à se confronter à un « Data Challenge », une compétition devenue une norme en informatique, notamment dans le domaine de l'intelligence artificielle, à la fois pour la formation des étudiants et pour permettre des avancées algorithmiques par une démarche combinant compétition et collaboration.

Des jeux de données d’intérêt pour les SHS seront proposés aux étudiants.

Ce cours est conjoint au master Mention sciences économiques et sociales, Parcours Institutions, organisations, économie, société  de l'EHESS, et au master Humanités numériques et computationnelles de PSL.

Séance 1 - Cours : Introduction
Séance 2 - Cours : ACP et clustering
Séance 3 - Travaux pratiques : ACP et clustering
Séance 4 - Cours : Régression
Séance 5 - Cours : Evaluation des modèles & hyperparamètres
Séance 6 - Cours : Analyse de texte
Séance 7 - Cours : Interprétation de modèles
Séances 8, 9 et 10 - Travaux pratiques : avancement des projets personnels
Séance 11 - Rendu des projets

Les cours demandent une participation active des étudiant-e-s.

Partage de codes et documents sur moodle, overleaf, github. Page web à venir.

Evaluation : sur la base du travail personnel effectué sur les données fournies dans l'esprit des "data challenge" en IA. La question posée sur les données concernera une prédiction (inférence) à réaliser de manière algorithmique (sous R ou python au choix de l'étudiant-e), comme pour de nombreux défis de données ou questions scientifiques.  Mais l'évaluation ne  portera pas seulement sur la précision de la prédiction, mais aussi et surtout sur l'approche choisie (il n'y a jamais une et une seule bonne méthode), et la façon dont serons discutées les limites de la ou des méthodes utilisées.  L'objectif ici n'est pas seulement d'obtenir la meilleure prédiction, mais aussi de comprendre pourquoi certaines méthodes sont plus performantes que d'autres, ou pourquoi une méthode est plus facile à interpréter ou non.  En outre, il sera demandé de commencer par une analyse exploratoire pour résumer, décrire et visualiser les données.


Master


  • Méthodologie – Sciences économiques et sociales - Institutions, organisations, économie et société – M2/S4
    Suivi et validation – semestriel hebdomadaire = 3 ECTS
    MCC – travail personnel d'analyse de données ('data challenge')

Renseignements


Contacts additionnels
-
Informations pratiques

Cours et travaux dirigés, travail personnel sur des données fournies aux étudiants.

Détails pratiques distribués aux étudiants inscrits.

Direction de travaux des étudiants

Durant les séances de Travaux Pratiques (voir Programme), et sur rendez-vous.

Réception des candidats

Sur rendez-vous uniquement

Pré-requis

Une pratique de la programmation en R et/ou python. Avoir eu une initiation à l'analyse de données, à l'apprentissage machine, est hautement préférable. Noter cependant que le déroulement du cours s'adapte aux étudiants.


Compte rendu


Ce cours fait partie des cursus de deux masters, le master IOES (EHESS-PSL) et le master Humanité numériques (PSL).

L’objectif de ce cours est de doter les étudiants d’une compréhension pratique des sujets liés à la science des données moderne et au machine-learning (inelligence artificielle). À l’issue du cours, les étudiants auront développé une intuition – et surtout expérimenté – certains des concepts clefs des méthodes de d’apprentissage.

Les notes de cours et codes numériques étaient disponibles sur un site github :

https://benedictecolnet.github.io/data_science_humanities/

Pour la validation, les étudiants ont eu à se confronter à un « data challenge » : ils devaient proposer (implémenter et tester) un algorithme pour l'analyse de données en lien avec une problématique de sciences économiques et sociales.

Ont contribué à ce cours : Julie Josse (Inria), Bénédicte Colnet (Université Paris Saclay), Gaël Varoquax (INRIA) et  Lorenzo Gasparollo (INRIA, correspondant pour les travaux personnels).

Publications

Jean-Pierre Nadal

  • Avec Laurent Bonnasse-Gahot, « Categorical Perception: A Groundwork for Deep Learning », Neural Computation, 2022, 34 (2), p. 437-475.
  • Avec Kevin Berlemont, « Confidence-controlled Hebbian learning efficiently extracts category membership from stimuli encoded in view of a categorization task », Neural Computation, 2022, 34 (1) p. 45-77.
  • ICUBAM consortium*, corresponding author Julie Josse “ICU Bed Availability Monitoring and analysis in the Grand Est region of France during the COVID-19 epidemic “, * Laurent Bonnasse-Gahot, Maxime Dénès, Gabriel Dulac-Arnold, Sertan Girgin, François Husson, Valentin Iovene, Julie Josse, Antoine Kimmoun, François Landes, Jean-Pierre Nadal, Romain Primet, Frederico Quintao, Pierre Guillaume Raverdy, Vincent Rouvreau, Olivier Teboul, and Roman Yurchak (ordre alphabetique), Statistique et société, vol. 10, n° 1, 2022.
  • Avec L. Bonnasse-Gahot, « Modéliser les émeutes de 2005 : une vague de violence contagieuse », Contribution à un ouvrage collectif de la Mission pour les initiatives transverses et interdisciplinaires du CNRS, CNRS Éditions, sous presse.

Dernière modification : 23 décembre 2021 07:25

Type d'UE
Enseignements fondamentaux de master
Disciplines
Méthodes et techniques des sciences sociales
Page web
-
Langues
français
Mots-clés
Humanités numériques Informatique et sciences sociales Mathématiques et sciences sociales Méthodes et techniques des sciences sociales Socio-économie
Aires culturelles
-
Intervenant·e·s

Les étudiant·es de l'EHESS qui souhaitent valider cet enseignement devront y assister en présentiel.

L’objectif du cours est de sensibiliser les étudiants à la science des données au sens large, avec une démarche assez classique où on part d’une problématique associée à un jeu de données et on réalise les différentes étapes d’une analyse en apprenant les méthodes, logiciels associés. On commencera donc par des étapes d’exploration, visualisation des données, puis des modélisations en utilisant les méthodes/algorithmes nécessaires pour répondre à la question (en insistant sur les compromis pouvoir prédictif/interprétabilité, la nécessité de toujours se comparer à des méthodes simples, etc). Enfin les étudiants communiqueront les résultats par exemple en réalisant des interfaces interactives.

Les étudiants étroitement encadrés travailleront de manière différenciée selon leurs compétences initiales. L'objectif final est d'arriver à se confronter à un « Data Challenge », une compétition devenue une norme en informatique, notamment dans le domaine de l'intelligence artificielle, à la fois pour la formation des étudiants et pour permettre des avancées algorithmiques par une démarche combinant compétition et collaboration.

Des jeux de données d’intérêt pour les SHS seront proposés aux étudiants.

Ce cours est conjoint au master Mention sciences économiques et sociales, Parcours Institutions, organisations, économie, société  de l'EHESS, et au master Humanités numériques et computationnelles de PSL.

Séance 1 - Cours : Introduction
Séance 2 - Cours : ACP et clustering
Séance 3 - Travaux pratiques : ACP et clustering
Séance 4 - Cours : Régression
Séance 5 - Cours : Evaluation des modèles & hyperparamètres
Séance 6 - Cours : Analyse de texte
Séance 7 - Cours : Interprétation de modèles
Séances 8, 9 et 10 - Travaux pratiques : avancement des projets personnels
Séance 11 - Rendu des projets

Les cours demandent une participation active des étudiant-e-s.

Partage de codes et documents sur moodle, overleaf, github. Page web à venir.

Evaluation : sur la base du travail personnel effectué sur les données fournies dans l'esprit des "data challenge" en IA. La question posée sur les données concernera une prédiction (inférence) à réaliser de manière algorithmique (sous R ou python au choix de l'étudiant-e), comme pour de nombreux défis de données ou questions scientifiques.  Mais l'évaluation ne  portera pas seulement sur la précision de la prédiction, mais aussi et surtout sur l'approche choisie (il n'y a jamais une et une seule bonne méthode), et la façon dont serons discutées les limites de la ou des méthodes utilisées.  L'objectif ici n'est pas seulement d'obtenir la meilleure prédiction, mais aussi de comprendre pourquoi certaines méthodes sont plus performantes que d'autres, ou pourquoi une méthode est plus facile à interpréter ou non.  En outre, il sera demandé de commencer par une analyse exploratoire pour résumer, décrire et visualiser les données.

  • Méthodologie – Sciences économiques et sociales - Institutions, organisations, économie et société – M2/S4
    Suivi et validation – semestriel hebdomadaire = 3 ECTS
    MCC – travail personnel d'analyse de données ('data challenge')
Contacts additionnels
-
Informations pratiques

Cours et travaux dirigés, travail personnel sur des données fournies aux étudiants.

Détails pratiques distribués aux étudiants inscrits.

Direction de travaux des étudiants

Durant les séances de Travaux Pratiques (voir Programme), et sur rendez-vous.

Réception des candidats

Sur rendez-vous uniquement

Pré-requis

Une pratique de la programmation en R et/ou python. Avoir eu une initiation à l'analyse de données, à l'apprentissage machine, est hautement préférable. Noter cependant que le déroulement du cours s'adapte aux étudiants.

  • Autre lieu Paris
    Salle Coyecque, École nationale des Chartes, 65 rue de Richelieu 75002 Paris
    2nd semestre / hebdomadaire, lundi 10:00-12:00
    du 17 janvier 2022 au 4 avril 2022
    Nombre de séances : 11

Ce cours fait partie des cursus de deux masters, le master IOES (EHESS-PSL) et le master Humanité numériques (PSL).

L’objectif de ce cours est de doter les étudiants d’une compréhension pratique des sujets liés à la science des données moderne et au machine-learning (inelligence artificielle). À l’issue du cours, les étudiants auront développé une intuition – et surtout expérimenté – certains des concepts clefs des méthodes de d’apprentissage.

Les notes de cours et codes numériques étaient disponibles sur un site github :

https://benedictecolnet.github.io/data_science_humanities/

Pour la validation, les étudiants ont eu à se confronter à un « data challenge » : ils devaient proposer (implémenter et tester) un algorithme pour l'analyse de données en lien avec une problématique de sciences économiques et sociales.

Ont contribué à ce cours : Julie Josse (Inria), Bénédicte Colnet (Université Paris Saclay), Gaël Varoquax (INRIA) et  Lorenzo Gasparollo (INRIA, correspondant pour les travaux personnels).

Publications

Jean-Pierre Nadal

  • Avec Laurent Bonnasse-Gahot, « Categorical Perception: A Groundwork for Deep Learning », Neural Computation, 2022, 34 (2), p. 437-475.
  • Avec Kevin Berlemont, « Confidence-controlled Hebbian learning efficiently extracts category membership from stimuli encoded in view of a categorization task », Neural Computation, 2022, 34 (1) p. 45-77.
  • ICUBAM consortium*, corresponding author Julie Josse “ICU Bed Availability Monitoring and analysis in the Grand Est region of France during the COVID-19 epidemic “, * Laurent Bonnasse-Gahot, Maxime Dénès, Gabriel Dulac-Arnold, Sertan Girgin, François Husson, Valentin Iovene, Julie Josse, Antoine Kimmoun, François Landes, Jean-Pierre Nadal, Romain Primet, Frederico Quintao, Pierre Guillaume Raverdy, Vincent Rouvreau, Olivier Teboul, and Roman Yurchak (ordre alphabetique), Statistique et société, vol. 10, n° 1, 2022.
  • Avec L. Bonnasse-Gahot, « Modéliser les émeutes de 2005 : une vague de violence contagieuse », Contribution à un ouvrage collectif de la Mission pour les initiatives transverses et interdisciplinaires du CNRS, CNRS Éditions, sous presse.