UE905 - Datamining et cartographie

Type d'UE
Séminaires de tronc commun
Disciplines
Anthropologie sociale, ethnographie et ethnologie, Sociologie
Page web
-
Langues
-
Mots-clés
-
Aires culturelles
-

Le séminaire introduit des méthodes quantitatives pour explorer des données complexes en sciences sociales : statistique textuelle (12h), extraction de données du Web (9h) et cartographie (8h).

Les sciences sociales font de plus en plus usage de données qui ne s'apparentent pas aux réponses standardisées à un questionnaire. Ces sources ouvrent des possibilités pour les sciences sociales mais nécessitent des méthodes adaptées et une connaissance de leurs limites. Le séminaire est organisé en trois modules. Le logiciel R et Rstudio seront utilisés.

Statistiques textuelles (Bénédicte Garnier).

Produire des statistiques propres à des données textuelles, identifier des structures, des thèmes et extraire des spécificités
• les méthodes de la statistique textuelle
• Mise en œuvre sur un corpus: pré-traiter (nettoyer, normaliser) les données, appliquer les méthodes adaptées
• Interpréter les résultats et les restituer à un public

extraction de données du Web (Gabriel Alcaras)

Techniques de scraping ou de moissonnage pour constituer une base de données à partir d’informations accessibles en ligne.
• Intérêts et limites des méthodes de moissonnage : enjeux scientifiques, méthodologiques et juridiques
• Introduction aux rudiments des technologies du web : protocoles, langages, API
• Présentation et réalisation concrète d’un scraper avec R

Cartographie (Enseignant.e à venir)

Introduction à la Visualisation et à l'analyse des données géographiques. Représenter sur une carte des indicateurs statistiques.

 

 

  • Sciences sociales-Quantifier en sciences sociales – M2/S3
    Suivi et validation – semestriel hebdomadaire = 6 ECTS
    MCC – mini-mémoire à 2-3 étudiant.e.s, contrôle continu
  • Bénédicte Garnier [référent·e]   ingénieure d'études, INED /
  • Marie Plessz   chargée de recherche, INRAE / Centre Maurice-Halbwachs (CMH)
  • Gabriel Alcaras   doctorant chargé d'enseignement, EHESS / Centre Maurice-Halbwachs (CMH)
Contacts additionnels
-
Informations pratiques

Les horaires et salles sont indiqués ici : http://master-sciences-sociales.ens.fr/emploi-du-temps/.  Les horaires figurant sur Neobab ne concernent que les premières séances. Il est indispensable de vérifier l'emploi du temps.

Il est recommandé d'installer sur son ordinateur personnel R et Rstudio.

Pour le module Statistique textuelle, installer le package R.temis.

Pour le module Extraction de données web : installer les packages : rvest, tidyverse, lubridate, testthat ; disposer des navigateurs Firefox ou Chrome ; installer l’outil Git.

Direction de travaux des étudiants
-
Réception des candidats
-
Pré-requis

Des bases sur le logiciel R avec son interface Rstudio.

Les bases des statistiques descriptives exploratoires (tris croisés, tests du Chi-2) et de l'analyse factorielle.

  • Attention !
    En raison de la situation sanitaire, vous ne pourrez pas accéder à ce séminaire sans avoir préalablement déposé une demande via le lien suivant (une demande est nécessaire pour chaque séminaire auquel vous souhaitez participer, merci de déposer la demande au plus tard 72 heures avant le début de la première séance) : http://listsem.ehess.fr/courses/905/requests/new.

    48 bd Jourdan
    48 bd Jourdan 75014 Paris
    1er semestre / hebdomadaire, lundi 14:00-17:00
    du 2 novembre 2020 au 14 décembre 2020


Intervenant·e·s


  • Bénédicte Garnier [référent·e]   ingénieure d'études, INED /
  • Marie Plessz   chargée de recherche, INRAE / Centre Maurice-Halbwachs (CMH)
  • Gabriel Alcaras   doctorant chargé d'enseignement, EHESS / Centre Maurice-Halbwachs (CMH)

Planning


  • Attention !
    En raison de la situation sanitaire, vous ne pourrez pas accéder à ce séminaire sans avoir préalablement déposé une demande via le lien suivant (une demande est nécessaire pour chaque séminaire auquel vous souhaitez participer, merci de déposer la demande au plus tard 72 heures avant le début de la première séance) : http://listsem.ehess.fr/courses/905/requests/new.

    48 bd Jourdan
    48 bd Jourdan 75014 Paris
    1er semestre / hebdomadaire, lundi 14:00-17:00
    du 2 novembre 2020 au 14 décembre 2020


Description


Type d'UE
Séminaires de tronc commun
Disciplines
Anthropologie sociale, ethnographie et ethnologie, Sociologie
Page web
-
Langues
-
Mots-clés
-
Aires culturelles
-

Le séminaire introduit des méthodes quantitatives pour explorer des données complexes en sciences sociales : statistique textuelle (12h), extraction de données du Web (9h) et cartographie (8h).

Les sciences sociales font de plus en plus usage de données qui ne s'apparentent pas aux réponses standardisées à un questionnaire. Ces sources ouvrent des possibilités pour les sciences sociales mais nécessitent des méthodes adaptées et une connaissance de leurs limites. Le séminaire est organisé en trois modules. Le logiciel R et Rstudio seront utilisés.

Statistiques textuelles (Bénédicte Garnier).

Produire des statistiques propres à des données textuelles, identifier des structures, des thèmes et extraire des spécificités
• les méthodes de la statistique textuelle
• Mise en œuvre sur un corpus: pré-traiter (nettoyer, normaliser) les données, appliquer les méthodes adaptées
• Interpréter les résultats et les restituer à un public

extraction de données du Web (Gabriel Alcaras)

Techniques de scraping ou de moissonnage pour constituer une base de données à partir d’informations accessibles en ligne.
• Intérêts et limites des méthodes de moissonnage : enjeux scientifiques, méthodologiques et juridiques
• Introduction aux rudiments des technologies du web : protocoles, langages, API
• Présentation et réalisation concrète d’un scraper avec R

Cartographie (Enseignant.e à venir)

Introduction à la Visualisation et à l'analyse des données géographiques. Représenter sur une carte des indicateurs statistiques.

 

 


Master


  • Sciences sociales-Quantifier en sciences sociales – M2/S3
    Suivi et validation – semestriel hebdomadaire = 6 ECTS
    MCC – mini-mémoire à 2-3 étudiant.e.s, contrôle continu

Renseignements


Contacts additionnels
-
Informations pratiques

Les horaires et salles sont indiqués ici : http://master-sciences-sociales.ens.fr/emploi-du-temps/.  Les horaires figurant sur Neobab ne concernent que les premières séances. Il est indispensable de vérifier l'emploi du temps.

Il est recommandé d'installer sur son ordinateur personnel R et Rstudio.

Pour le module Statistique textuelle, installer le package R.temis.

Pour le module Extraction de données web : installer les packages : rvest, tidyverse, lubridate, testthat ; disposer des navigateurs Firefox ou Chrome ; installer l’outil Git.

Direction de travaux des étudiants
-
Réception des candidats
-
Pré-requis

Des bases sur le logiciel R avec son interface Rstudio.

Les bases des statistiques descriptives exploratoires (tris croisés, tests du Chi-2) et de l'analyse factorielle.