UE905 - Datamining et cartographie

Type d'UE
Séminaires de tronc commun
Disciplines
Anthropologie sociale, ethnographie et ethnologie, Sociologie
Page web
-
Langues
-
Mots-clés
-
Aires culturelles
-

Le séminaire introduit des méthodes quantitatives pour explorer des données complexes en sciences sociales : statistique textuelle (12h), extraction de données du Web (9h) et cartographie (8h).

Les sciences sociales font de plus en plus usage de données qui ne s'apparentent pas aux réponses standardisées à un questionnaire. Ces sources ouvrent des possibilités pour les sciences sociales mais nécessitent des méthodes adaptées et une connaissance de leurs limites. Le séminaire est organisé en trois modules. Le logiciel R et Rstudio seront utilisés.

Statistiques textuelles (Bénédicte Garnier).

Produire des statistiques propres à des données textuelles, identifier des structures, des thèmes et extraire des spécificités
• les méthodes de la statistique textuelle
• Mise en œuvre sur un corpus: pré-traiter (nettoyer, normaliser) les données, appliquer les méthodes adaptées
• Interpréter les résultats et les restituer à un public

extraction de données du Web (Gabriel Alcaras)

Techniques de scraping ou de moissonnage pour constituer une base de données à partir d’informations accessibles en ligne.
• Intérêts et limites des méthodes de moissonnage : enjeux scientifiques, méthodologiques et juridiques
• Introduction aux rudiments des technologies du web : protocoles, langages, API
• Présentation et réalisation concrète d’un scraper avec R

Cartographie (Enseignant.e à venir)

Introduction à la Visualisation et à l'analyse des données géographiques. Représenter sur une carte des indicateurs statistiques.

 

 

  • Sciences sociales-Quantifier en sciences sociales – M2/S3
    Suivi et validation – semestriel hebdomadaire = 6 ECTS
    MCC – autre (mini-mémoire à 2-3 étudiant.e.s), contrôle continu
  • Bénédicte Garnier [référent·e]   ingénieure d'études, INED /
  • Marie Plessz   chargée de recherche, INRAE / Centre Maurice-Halbwachs (CMH)
  • Gabriel Alcaras   doctorant chargé d'enseignement, EHESS / Centre Maurice-Halbwachs (CMH)
Contacts additionnels
-
Informations pratiques

Les horaires et salles sont indiqués ici : http://master-sciences-sociales.ens.fr/emploi-du-temps/.  Les horaires figurant sur Neobab ne concernent que les premières séances. Il est indispensable de vérifier l'emploi du temps.

Il est recommandé d'installer sur son ordinateur personnel R et Rstudio.

Pour le module Statistique textuelle, installer le package R.temis.

Pour le module Extraction de données web : installer les packages : rvest, tidyverse, lubridate, testthat ; disposer des navigateurs Firefox ou Chrome ; installer l’outil Git.

Direction de travaux des étudiants
-
Réception des candidats
-
Pré-requis

Des bases sur le logiciel R avec son interface Rstudio.

Les bases des statistiques descriptives exploratoires (tris croisés, tests du Chi-2) et de l'analyse factorielle.

  • 48 bd Jourdan
    48 bd Jourdan 75014 Paris
    1er semestre / hebdomadaire, lundi 14:00-17:00
    du 2 novembre 2020 au 14 décembre 2020


Intervenant·e·s


  • Bénédicte Garnier [référent·e]   ingénieure d'études, INED /
  • Marie Plessz   chargée de recherche, INRAE / Centre Maurice-Halbwachs (CMH)
  • Gabriel Alcaras   doctorant chargé d'enseignement, EHESS / Centre Maurice-Halbwachs (CMH)

Planning


  • 48 bd Jourdan
    48 bd Jourdan 75014 Paris
    1er semestre / hebdomadaire, lundi 14:00-17:00
    du 2 novembre 2020 au 14 décembre 2020


Description


Type d'UE
Séminaires de tronc commun
Disciplines
Anthropologie sociale, ethnographie et ethnologie, Sociologie
Page web
-
Langues
-
Mots-clés
-
Aires culturelles
-

Le séminaire introduit des méthodes quantitatives pour explorer des données complexes en sciences sociales : statistique textuelle (12h), extraction de données du Web (9h) et cartographie (8h).

Les sciences sociales font de plus en plus usage de données qui ne s'apparentent pas aux réponses standardisées à un questionnaire. Ces sources ouvrent des possibilités pour les sciences sociales mais nécessitent des méthodes adaptées et une connaissance de leurs limites. Le séminaire est organisé en trois modules. Le logiciel R et Rstudio seront utilisés.

Statistiques textuelles (Bénédicte Garnier).

Produire des statistiques propres à des données textuelles, identifier des structures, des thèmes et extraire des spécificités
• les méthodes de la statistique textuelle
• Mise en œuvre sur un corpus: pré-traiter (nettoyer, normaliser) les données, appliquer les méthodes adaptées
• Interpréter les résultats et les restituer à un public

extraction de données du Web (Gabriel Alcaras)

Techniques de scraping ou de moissonnage pour constituer une base de données à partir d’informations accessibles en ligne.
• Intérêts et limites des méthodes de moissonnage : enjeux scientifiques, méthodologiques et juridiques
• Introduction aux rudiments des technologies du web : protocoles, langages, API
• Présentation et réalisation concrète d’un scraper avec R

Cartographie (Enseignant.e à venir)

Introduction à la Visualisation et à l'analyse des données géographiques. Représenter sur une carte des indicateurs statistiques.

 

 


Master


  • Sciences sociales-Quantifier en sciences sociales – M2/S3
    Suivi et validation – semestriel hebdomadaire = 6 ECTS
    MCC – autre (mini-mémoire à 2-3 étudiant.e.s), contrôle continu

Renseignements


Contacts additionnels
-
Informations pratiques

Les horaires et salles sont indiqués ici : http://master-sciences-sociales.ens.fr/emploi-du-temps/.  Les horaires figurant sur Neobab ne concernent que les premières séances. Il est indispensable de vérifier l'emploi du temps.

Il est recommandé d'installer sur son ordinateur personnel R et Rstudio.

Pour le module Statistique textuelle, installer le package R.temis.

Pour le module Extraction de données web : installer les packages : rvest, tidyverse, lubridate, testthat ; disposer des navigateurs Firefox ou Chrome ; installer l’outil Git.

Direction de travaux des étudiants
-
Réception des candidats
-
Pré-requis

Des bases sur le logiciel R avec son interface Rstudio.

Les bases des statistiques descriptives exploratoires (tris croisés, tests du Chi-2) et de l'analyse factorielle.