Attention, les informations que vous consultez actuellement ne sont pas celles de l'année universitaire en cours. Consulter l'année universitaire 2024-2025.
UE905 - Datamining et cartographie
Lieu et planning
-
48 bd Jourdan
48 bd Jourdan 75014 Paris
1er semestre / hebdomadaire, lundi 14:00-17:00
du 2 novembre 2020 au 14 décembre 2020
Description
Dernière modification : 31 mai 2020 17:32
- Type d'UE
- Enseignements fondamentaux de master
- Disciplines
- Anthropologie sociale, ethnographie et ethnologie, Sociologie
- Page web
- -
- Langues
- -
- Mots-clés
- -
- Aires culturelles
- -
Intervenant·e·s
- Bénédicte Garnier [référent·e] ingénieure d'études, INED
- Marie Plessz chargée de recherche, INRAE / Centre Maurice-Halbwachs (CMH)
- Gabriel Alcaras doctorant chargé d'enseignement, EHESS / Centre Maurice-Halbwachs (CMH)
Le séminaire introduit des méthodes quantitatives pour explorer des données complexes en sciences sociales : statistique textuelle (12h), extraction de données du Web (9h) et cartographie (8h).
Les sciences sociales font de plus en plus usage de données qui ne s'apparentent pas aux réponses standardisées à un questionnaire. Ces sources ouvrent des possibilités pour les sciences sociales mais nécessitent des méthodes adaptées et une connaissance de leurs limites. Le séminaire est organisé en trois modules. Le logiciel R et Rstudio seront utilisés.
Statistiques textuelles (Bénédicte Garnier).
Produire des statistiques propres à des données textuelles, identifier des structures, des thèmes et extraire des spécificités
• les méthodes de la statistique textuelle
• Mise en œuvre sur un corpus: pré-traiter (nettoyer, normaliser) les données, appliquer les méthodes adaptées
• Interpréter les résultats et les restituer à un public
extraction de données du Web (Gabriel Alcaras)
Techniques de scraping ou de moissonnage pour constituer une base de données à partir d’informations accessibles en ligne.
• Intérêts et limites des méthodes de moissonnage : enjeux scientifiques, méthodologiques et juridiques
• Introduction aux rudiments des technologies du web : protocoles, langages, API
• Présentation et réalisation concrète d’un scraper avec R
Cartographie (Enseignant.e à venir)
Introduction à la Visualisation et à l'analyse des données géographiques. Représenter sur une carte des indicateurs statistiques.
Master
-
Séminaires de tronc commun
– Sciences sociales-Quantifier en sciences sociales
– M2/S3
Suivi et validation – semestriel hebdomadaire = 6 ECTS
MCC – mini-mémoire à 2-3 étudiant.e.s, contrôle continu
Renseignements
- Contacts additionnels
- -
- Informations pratiques
Les horaires et salles sont indiqués ici : http://master-sciences-sociales.ens.fr/emploi-du-temps/. Les horaires figurant sur Neobab ne concernent que les premières séances. Il est indispensable de vérifier l'emploi du temps.
Il est recommandé d'installer sur son ordinateur personnel R et Rstudio.
Pour le module Statistique textuelle, installer le package R.temis.
Pour le module Extraction de données web : installer les packages : rvest, tidyverse, lubridate, testthat ; disposer des navigateurs Firefox ou Chrome ; installer l’outil Git.
- Direction de travaux des étudiants
- -
- Réception des candidats
- -
- Pré-requis
Des bases sur le logiciel R avec son interface Rstudio.
Les bases des statistiques descriptives exploratoires (tris croisés, tests du Chi-2) et de l'analyse factorielle.
Dernière modification : 31 mai 2020 17:32
- Type d'UE
- Enseignements fondamentaux de master
- Disciplines
- Anthropologie sociale, ethnographie et ethnologie, Sociologie
- Page web
- -
- Langues
- -
- Mots-clés
- -
- Aires culturelles
- -
Intervenant·e·s
- Bénédicte Garnier [référent·e] ingénieure d'études, INED
- Marie Plessz chargée de recherche, INRAE / Centre Maurice-Halbwachs (CMH)
- Gabriel Alcaras doctorant chargé d'enseignement, EHESS / Centre Maurice-Halbwachs (CMH)
Le séminaire introduit des méthodes quantitatives pour explorer des données complexes en sciences sociales : statistique textuelle (12h), extraction de données du Web (9h) et cartographie (8h).
Les sciences sociales font de plus en plus usage de données qui ne s'apparentent pas aux réponses standardisées à un questionnaire. Ces sources ouvrent des possibilités pour les sciences sociales mais nécessitent des méthodes adaptées et une connaissance de leurs limites. Le séminaire est organisé en trois modules. Le logiciel R et Rstudio seront utilisés.
Statistiques textuelles (Bénédicte Garnier).
Produire des statistiques propres à des données textuelles, identifier des structures, des thèmes et extraire des spécificités
• les méthodes de la statistique textuelle
• Mise en œuvre sur un corpus: pré-traiter (nettoyer, normaliser) les données, appliquer les méthodes adaptées
• Interpréter les résultats et les restituer à un public
extraction de données du Web (Gabriel Alcaras)
Techniques de scraping ou de moissonnage pour constituer une base de données à partir d’informations accessibles en ligne.
• Intérêts et limites des méthodes de moissonnage : enjeux scientifiques, méthodologiques et juridiques
• Introduction aux rudiments des technologies du web : protocoles, langages, API
• Présentation et réalisation concrète d’un scraper avec R
Cartographie (Enseignant.e à venir)
Introduction à la Visualisation et à l'analyse des données géographiques. Représenter sur une carte des indicateurs statistiques.
-
Séminaires de tronc commun
– Sciences sociales-Quantifier en sciences sociales
– M2/S3
Suivi et validation – semestriel hebdomadaire = 6 ECTS
MCC – mini-mémoire à 2-3 étudiant.e.s, contrôle continu
- Contacts additionnels
- -
- Informations pratiques
Les horaires et salles sont indiqués ici : http://master-sciences-sociales.ens.fr/emploi-du-temps/. Les horaires figurant sur Neobab ne concernent que les premières séances. Il est indispensable de vérifier l'emploi du temps.
Il est recommandé d'installer sur son ordinateur personnel R et Rstudio.
Pour le module Statistique textuelle, installer le package R.temis.
Pour le module Extraction de données web : installer les packages : rvest, tidyverse, lubridate, testthat ; disposer des navigateurs Firefox ou Chrome ; installer l’outil Git.
- Direction de travaux des étudiants
- -
- Réception des candidats
- -
- Pré-requis
Des bases sur le logiciel R avec son interface Rstudio.
Les bases des statistiques descriptives exploratoires (tris croisés, tests du Chi-2) et de l'analyse factorielle.
-
48 bd Jourdan
48 bd Jourdan 75014 Paris
1er semestre / hebdomadaire, lundi 14:00-17:00
du 2 novembre 2020 au 14 décembre 2020