BSTA 16F00 - STATISTIQUES POUR LES SCIENCES HUMAINES ET SOCIALES
Le cours de statistiques pour les sciences humaines et sociales de première année est une introduction aux méthodes quantitatives. Lieu d'interdisciplinarité très fort dans les sciences sociales, les statistiques sont utilisées dans la plupart des disciplines fondamentales enseignées à Sciences Po en première année, telles que la sociologie, l'économie ou la science politique. Si elles apparaissent moins souvent dans les publications d'histoire et de droit, elles contribuent cependant à y renouveler certains domaines de recherche.
Ce cours a pour but de familiariser les étudiant.es avec la lecture de résultats chiffrés et graphiques, l'analyse de données et la pratique des statistiques en sciences sociales. Il s'agit de former des étudiant.es capables de lire des tableaux et des graphiques correctement, et de les interpréter en se posant les bonnes questions concernant les modalités de leur construction.
Au-delà de leur rôle dans la recherche scientifique, les statistiques sont un outil de premier plan pour l'action : elles aident à la gestion et au pilotage des institutions et des entreprises. Par une approche critique, nous proposons aux étudiant.es de bâtir une culture statistique solide accessible à toutes et tous : les statistiques ne sont pas un domaine réservé. Nul besoin d'un lourd bagage mathématique pour comparer des moyennes ou des pourcentages, en tirer des conclusions et s'en servir pour argumenter ou prendre une décision
ORGANISATION DES SÉANCES
Séance 1. – Les statistiques, un outil pour l'argumentation
Les méthodes quantitatives ne sont pas qu'une affaire de mathématiques mais renvoient également à des enjeux sociaux, politiques, etc. À ce titre, les statistiques s'inscrivent dans une logique argumentative en proposant une manière (parmi d'autres) de faire preuve. Dans cette séance sont abordés les enjeux de quantification – la « mise en chiffres » comme résultat d'une entreprise de « construction » des données.
Notions abordées : quantification, épistémologie et histoire des statistiques, argumentation
Séance 2. – Décrire une variable
La séance propose une prise en main du tableur utilisé dans le cours (Google Sheet) et propose une initiation aux principales statistiques univariées : indicateurs de tendance centrale (« résumant » une variable) et indicateurs de dispersion (qui en indiquent la répartition). La séance aborde enfin les enjeux de représentation de la distribution d'une variable : quelle différence y a-t-il entre une représentation sous forme de tableau et une autre sous forme de graphique ?
Notions abordées : moyenne, médiane, écart-type, variance, quantiles
Séances 3 & 4. – Relier des variables
Établir le lien entre deux variables diffère selon leur nature. Les méthodes et outils appropriés pour l'étudier dans le cas de deux variables qualitatives (comme le genre ou la catégorie d'âge) ne le sont pas dans le cas de deux variables quantitatives (comme la taille ou le poids), ou dans le cas d'une variable qualitative et une autre, quantitative. Ces deux séances présentent aussi certaines méthodes permettant d'étudier la relation de cause à effet entre deux variables, par la comparaison entre un groupe test et un groupe témoin.
Notions abordées : tableaux croisés, comparaison de moyennes, covariance, corrélation.
Séance 5. – D'où viennent les données statistiques ?
Cette séance vise d'abord à donner une idée du paysage des types de données à partir desquelles on fait des statistiques, ainsi que de leurs inconvénients ou avantages respectifs : données issues d'enquête, données dites administratives, données construites à partir de traces. L'objectif est alors de donner les clés permettant de trouver la source d'un tableau ou d'un graphique. La séance revient ensuite sur les questions liées à l'échantillonnage ou au choix de population sur lesquelles on fait des statistiques.
Notions abordées : types de données, population, échantillonnage (aléatoire ou non), marge d'erreur
Séance 6 & 7. – Construire et catégoriser des données
Au cours de ces deux séances, on expérimente quelques principes importants de la construction des données. Elles visent d'abord à sensibiliser à la difficulté de construire un questionnaire : la différence entre questions ouvertes et fermées, l'impact de leur ordre et de leur formulation, le rôle du RGPD sur la collecte d'informations, etc. Elles introduisent ensuite à l'enjeu du recodage des données qui, loin d'être une simple opération technique, engage des choix scientifiques et, souvent, politiques, a fortiori quand il s'agit de construire une base de données à partir de traces (écrites ou numériques) peu ou pas structurées.
Notions abordées : questionnaire, catégorisation, classe statistique, catégorisation, recodage
Séance 8 & 9. – Tester la significativité
Vérifier que le lien entre deux variables n'est pas simplement l'effet du hasard suppose d'en éprouver la significativité, en la comparant à la loi statistique appropriée : c'est ce en quoi consiste un « test ». Ces deux séances introduisent les étudiant·es à cette démarche et à sa mise en œuvre. Une séance est consacrée au test de Student (cas d'une différence de moyennes), et l'autre au test du Chi-deux (cas d'une différence de proportions).
Notions abordées : test statistiques, erreur-type, intervalle de confiance
Séance 10. – Introduction à la régression linéaire
L'objectif de cette séance est de familiariser les étudiant·es aux techniques de régression et aux notions voisines, afin de les rendre capables de lire les résultats d'une régression (simple, multiple ou logistique). Une régression linéaire simple sera réalisée en classe.
Notions abordées : nuage de points, droite de régression, R², coefficients p (p-value)
Séance 11. – Introduction à la sémiologie graphique
La dernière séance aborde les enjeux de visualisation des données. En particulier, elle distingue le traitement des données spatiales (qui relève de la cartographie) du cas des données non-spatiales : chronologie, catégories, diagrammes, matrices, résultats de traitements statistiques, etc.
Notions abordées : cartographie, graphiques, visualisation des données (dataviz), échelles
Séance 12. – Examen final
Ida GAEDE,Diego DABENE,Sophie NIVOIX,Amine BENKHAI
Séminaire
français
OBJECTIFS PÉDAGOGIQUES
• Acquérir des connaissances en statistiques dans leur dimension interdisciplinaire
• En découvrir les fondements épistémologiques et les modalités de construction pour bâtir des connaissances critiques
• Lire les statistiques et les manipuler dans leurs applications concrètes (au moyen de Google Sheets)