bibliographie

la régression des moindres carrés ordinaires (OLS) est une méthode statistique d’analyse qui estime la relation entre une ou plusieurs variables indépendantes et une variable dépendante; la méthode estime la relation en minimisant la somme des carrés dans la différence entre les valeurs observées et prédites de la variable dépendante configurée comme une ligne droite., Dans cette entrée, la régression OLS sera discutée dans le contexte d’un modèle bivarié, c’est-à-dire un modèle dans lequel il n’y a qu’une seule variable indépendante ( X ) prédisant une variable dépendante ( Y ). Cependant, la logique de la régression OLS est facilement étendue au modèle multivarié dans lequel il existe deux variables indépendantes ou plus.

Les spécialistes des sciences sociales sont souvent préoccupés par des questions sur la relation entre deux variables. Ceux-ci comprennent les éléments suivants: chez les femmes, existe-t-il un lien entre l’éducation et la fécondité?, Les femmes plus instruites ont-elles moins d’enfants et les femmes moins instruites ont-elles plus d’enfants? Entre les pays, Existe-t-il une relation entre le produit national brut (PNB) et l’espérance de vie? Les pays dont le PNB est plus élevé ont-ils des niveaux d’espérance de vie plus élevés, et les pays dont le PNB est plus faible, des niveaux d’espérance de vie plus faibles? Entre les pays, Existe-t-il une relation positive entre les possibilités d’emploi et le solde migratoire? Chez les personnes, existe-t-il une relation entre l’âge et les valeurs de la pression artérielle systolique de base? (Lewis-Beck 1980; Bachy et coll. 2005).,

comme le note Michael Lewis-Beck, ces exemples sont des exemples spécifiques de la requête commune,  » Quelle est la relation entre la variable X et la variable Y ?” (1980, p. 9). Si la relation est supposée linéaire, la régression bivariée peut être utilisée pour résoudre ce problème en ajustant une ligne droite à un nuage de points d’observations sur la variable X et la variable Y., L’énoncé le plus simple d’une telle relation entre une variable indépendante, étiquetée X, et une variable dépendante, étiquetée Y, peut être exprimé sous forme de ligne droite dans cette formule:

où a est l’ordonnée à l’origine et indique où la ligne droite Coupe l’axe Y (l’axe vertical); b est la pente et indique le degré de raideur de la ligne droite; et e représente l’erreur.

Le terme d’erreur indique que la relation prédite dans l’équation n’est pas parfait. Autrement dit, la ligne droite ne prédit pas parfaitement Y., Cette absence de prédiction parfaite est courante dans les sciences sociales. Par exemple, en ce qui concerne la relation entre l’éducation et la fécondité mentionnée ci-dessus, nous ne nous attendrions pas à ce que toutes les femmes ayant exactement seize ans d’éducation aient exactement un enfant et que les femmes ayant exactement quatre ans d’éducation aient exactement huit enfants. Mais nous nous attendons à ce qu’une femme avec beaucoup de l’éducation ont moins d’enfants qu’une femme avec un peu d’éducation. Autrement dit, le nombre d’enfants nés d’une femme est susceptible d’être une fonction linéaire de son éducation, plus une erreur., En fait, dans les sociétés à faible fécondité, les méthodes de Poisson et de régression binomiale négative sont préférées aux méthodes de régression par moindres carrés ordinaires pour la prédiction de la fécondité (Poston 2002; Poston et McKibben 2003).

Nous introduisons d’abord une note sur la notation utilisée dans cette entrée. Dans les sciences sociales, nous effectuons presque toujours des recherches avec des échantillons tirés de populations plus importantes, disons un échantillon aléatoire de 1% de la population américaine. Les lettres grecques comme α Et β sont utilisées pour désigner les paramètres (c’est-à-dire,, les valeurs d’interception et de pente) représentant la relation entre X et Y dans la plus grande population, tandis que les lettres romaines minuscules comme a et b seront utilisées pour désigner les paramètres de l’échantillon.

lorsque l’on postule des relations dans les sciences sociales, la linéarité est souvent supposée, mais ce n’est peut-être pas toujours le cas. En effet, beaucoup de relations ne sont pas linéaires. Lorsque l’on suppose la forme d’une relation entre deux variables, il faut être guidé à la fois par la théorie utilisée, ainsi que par une inspection des données.,

mais étant donné que nous souhaitons utiliser une ligne droite pour relier la variable Y, la variable dépendante, avec la variable X, la variable indépendante, il y a une question sur la ligne à utiliser. Dans tout nuage de points d’observations de valeurs X et Y (voir Figure 1), Il y aurait un nombre infini de lignes droites qui pourraient être utilisées pour représenter la relation. La ligne est la meilleure ligne?

Le choisi ligne droite doit être celui qui minimise la quantité d’erreur entre les valeurs prédites de Y et les valeurs réelles de Y., Plus précisément, pour chacune des i observations observations de l’échantillon, si L’on mettait au carré la différence entre les valeurs observées et prédites de Y, puis additionnait ces différences au carré, la meilleure ligne aurait la plus faible somme d’erreurs au carré (SSE), représentée comme suit:

la régression par les moindres carrés ordinaires est une méthode statistique qui produit la seule ligne droite qui minimise l’erreur au carré totale.

en utilisant le calcul, on peut montrer que SSE est la plus faible ou la « moindre” quantité lorsque les coefficients a et b sont calculés avec ces formules (Hamilton 1992, p., 33):

ces valeurs de a et b sont appelées coefficients des moindres carrés, ou parfois coefficients des moindres carrés ordinaires ou coefficients OLS.

nous allons maintenant appliquer les principes des moindres carrés. Nous nous intéressons à la mesure dans laquelle il existe une relation entre le taux de fécondité (la variable dépendante) et le niveau d’analphabétisme (la variable indépendante) entre les comtés de Chine. La Chine comptait 2 372 comtés en 1982., Nous émettons l & apos; hypothèse que les comtés dont la population est fortement analphabète auront des taux de fécondité plus élevés que ceux dont le taux d & apos; analphabétisme est faible.

la variable dépendante, Y, est le taux général de fécondité, DFG, c’est-à-dire le nombre d’enfants nés en 1982 pour 1 000 femmes dans le groupe d’âge de quinze à quarante-neuf ans. La variable indépendante, X, est le pourcentage de la population du comté en 1981 âgée de douze ans ou plus et analphabète.

la relation peut être représentée dans le nuage de points de la Figure 1., L’association entre le DFG et le taux d’analphabétisme semble linéaire et positive. Chaque point fait référence à un comté de Chine; il y a 2 372 points sur le nuage de points.

L’équation (1) peut être estimée en utilisant les formules des moindres carrés pour a et b dans les équations (3) et (4). Ceci produit ce qui suit:

les résultats OLS dans l’équation (5) indiquent que la valeur d’interception est 57.56, et la valeur de pente est 1.19. L’ordonnée à l’origine, ou a, indique le point où la droite de régression « intercepte” l’axe des ordonnées. Il indique la valeur moyenne de Y lorsque X = 0., Ainsi, dans cet ensemble de données sur la Chine, la valeur de a indique qu’un comté sans personne analphabète dans la population aurait un taux de fécondité attendu de 57,6 enfants pour 1 000 femmes âgées de quinze à quarante-neuf ans.

Le coefficient de pente, ou b, indique la variation moyenne de Y associée à une variation D’une unité de X. Dans L’exemple de la Chine, b = 1,19, ce qui signifie qu’une augmentation de 1% du taux d’analphabétisme d’un comté est associée à une augmentation moyenne du DFG, ou à un gain, de 1,19 enfant pour 1 000 femmes âgées de quinze à quarante-neuf ans.,

Nous voudrions probablement interpréter ce coefficient b dans l’autre sens; c’est-à-dire qu’il est plus logique de dire que si nous réduisons le taux d’analphabétisme du comté de 1%, cela se traduirait par une réduction moyenne de 1,2 enfant pour 1 000 femmes âgées de quinze à quarante-neuf ans. Ce type d’interprétation est conforme à une politique d’intervention qu’un gouvernement peut souhaiter utiliser; c’est, d’une baisse des taux d’analphabétisme aurait tendance à entraîner une baisse du taux de fécondité.

la droite de régression peut être tracée dans le nuage de points ci-dessus, comme le montre la Figure 2.,

Il est à noter que si en général la relation entre l’analphabétisme et la fécondité est linéaire, il y a beaucoup d’erreurs dans la prédiction de la fécondité du comté avec une connaissance de l’analphabétisme du comté. Alors que certains comtés se trouvent juste sur ou à proximité de la ligne de régression, et donc, leurs taux d « analphabétisme prédisent parfaitement ou presque parfaitement leurs taux de fécondité, les prédictions pour d » autres comtés ne sont pas aussi bonnes.

Une façon d’évaluer l’efficacité prédictive globale du modèle OLS est de « regarder” la relation comme nous l’avons fait ci-dessus., Dans quelle mesure l’équation OLS ci-dessus correspond-elle à la variation des taux de fécondité des comtés? Comme nous l’avons noté ci-dessus, la relation semble être positive et linéaire. Une approche statistique plus précise pour répondre à la question

de savoir dans quelle mesure les points de données correspondent à la droite de régression avec le coefficient de détermination ( R 2).

nous commençons par considérer le problème de la prédiction de Y, le taux de fécondité, lorsque nous n’avons aucune autre connaissance des observations (les comtés)., Autrement dit, si nous ne connaissons que les valeurs de Y pour les observations, alors la meilleure prédiction de Y, le taux de fécondité, est la moyenne de Y. On pense que Carl Friedrich Gauss (1777-1855) a été le premier à démontrer que faute d’autres informations sur la valeur d’une variable pour un sujet donné, la moyenne arithmétique est la valeur la plus probable (Gauss 2004, p. 244).

Mais si l’on suppose que la moyenne de Y pour chaque cas, nous aurons beaucoup de mauvaises prédictions et beaucoup d’erreur. Lorsque nous avons des informations sur les valeurs de X, l’efficacité prédictive peut être améliorée, tant que X a une relation avec Y., « La question est alors, dans quelle mesure cette connaissance de X améliore-t-elle Notre prédiction de Y ? »(Lewis-Beck 1980, p. 20).

tout d’abord, considérons la somme des différences au carré de la valeur de chaque observation sur Y à partir de la moyenne de Y. Il s’agit de la somme totale des carrés (TSS) et représente la quantité totale de variation statistique Dans Y, la variable dépendante.

Les valeurs sur X sont ensuite introduites pour toutes les observations (les comtés chinois), et l’équation de régression OLS est estimée., La droite de régression est tracée (comme dans le nuage de points de la Figure 2), et les valeurs réelles de Y pour toutes les observations sont comparées à leurs valeurs prédites de Y. la somme des différences au carré entre les valeurs prédites de Y et la moyenne de Y est la somme expliquée des carrés (ESS), parfois appelée somme modèle des carrés. Cela représente la quantité de la variation totale de Y qui est prise en compte par X. La différence entre TSS et ESS est la quantité de la variation de Y qui n’est pas expliquée par X, connue sous le nom de somme résiduelle des carrés (CNR).,

Le coefficient de détermination (R2) est le suivant:

Le coefficient de détermination, multiplié par 100, représente le pourcentage de variation de Y (taux de fécondité des comtés chinois) qui est pris en compte par X (taux d’analphabétisme des comtés). Les valeurs R2 vont de +1 à 0. Si R2 = 1,0, la variable X tient parfaitement compte de la variation de Y. alternativement, lorsque R2 = 0 (dans ce cas, la pente de la droite, b, serait également égale à 0), la variable X ne tient compte d’aucune variation de Y (Vittinghoff et al. 2005, p. 44; Lewis-Beck 1980, p. 21 et 22).,

Voir Aussi Cliométrie; moindres carrés, en trois étapes; moindres carrés, en deux étapes; régression linéaire; régression logistique; méthodes, quantitatives; régression probabiliste; régression; analyse de régression; Sciences Sociales; statistiques en Sciences sociales; Tobit

bibliographie

Gauss, Carl Friedrich. 2004. Théorie du mouvement des corps célestes se déplaçant autour du Soleil en sections coniques: une traduction de Theoria Motus. Mineola, NY: Douvres.

Hamilton, Lawrence C. 1992. Régression avec Graphiques: un deuxième cours en statistiques appliquées. Pacific Grove, Californie: Brooks / Cole.,

Lewis-Beck, Michael S. 1980. Régression Appliquée: Une Introduction. Beverly Hills, Californie: Sage.

Poston, Dudley L., Jr.2002. La modélisation statistique de la fertilité des femmes chinoises. Journal de la Moderne Appliquée à des Méthodes Statistiques 1 (2): 387-396.

Vittinghoff, Eric, David V. Glidden, Stephen C. Shiboski et Charles E. McCulloch. 2005. Méthodes de régression en biostatistique: modèles linéaires, logistiques, de survie et de mesures répétées. New York: Springer.

Dudley L. Poston Jr .