BIBLIOGRAFIA
i minimi quadrati Ordinari (OLS) regressione è un metodo statistico di analisi che valuta il rapporto tra una o più variabili indipendenti e la variabile dipendente; il metodo di stima il rapporto minimizzando la somma dei quadrati nella differenza tra osservati e valori stimati della variabile dipendente configurato come una linea retta., In questa voce, la regressione OLS sarà discussa nel contesto di un modello bivariato, cioè un modello in cui esiste una sola variabile indipendente ( X ) che predice una variabile dipendente ( Y ). Tuttavia, la logica della regressione OLS è facilmente estesa al modello multivariato in cui ci sono due o più variabili indipendenti.
Gli scienziati sociali sono spesso interessati a domande sulla relazione tra due variabili. Questi includono quanto segue: tra le donne, esiste una relazione tra istruzione e fertilità?, Le donne più istruite hanno meno figli e le donne meno istruite hanno più figli? Tra i paesi, esiste una relazione tra il prodotto nazionale lordo (PNL) e l’aspettativa di vita? I paesi con livelli più elevati di PNL hanno livelli più elevati di aspettativa di vita e i paesi con livelli più bassi di PNL, livelli più bassi di aspettativa di vita? Tra i paesi, esiste una relazione positiva tra opportunità di lavoro e migrazione netta? Tra le persone, esiste una relazione tra età e valori della pressione sistolica basale? (Lewis-Beck 1980; Vittinghoff et al. 2005).,
Come osserva Michael Lewis-Beck, questi esempi sono istanze specifiche della query comune, ” Qual è la relazione tra la variabile X e la variabile Y ?”(1980, p. 9). Se si presume che la relazione sia lineare, la regressione bivariata può essere utilizzata per risolvere questo problema adattando una linea retta a un diagramma a dispersione di osservazioni sulla variabile X e sulla variabile Y., La dichiarazione più semplice di una relazione tra una variabile indipendente, con etichetta X e una variabile dipendente, con l’etichetta Y, può essere espresso come una linea retta nella formulazione di questo prodotto:
dove a è l’intercetta e indica il punto in cui la retta interseca l’asse Y (asse verticale); b è la pendenza e indica il grado di pendenza della retta; e rappresenta l’errore.
Il termine di errore indica che la relazione prevista nell’equazione non è perfetta. Cioè, la linea retta non prevede perfettamente Y., Questa mancanza di una previsione perfetta è comune nelle scienze sociali. Per esempio, in termini di rapporto di istruzione e fertilità di cui sopra, non ci aspetteremmo tutte le donne con esattamente sedici anni di istruzione per avere esattamente un figlio, e le donne con esattamente quattro anni di istruzione per avere esattamente otto figli. Ma ci aspetteremmo che una donna con molta istruzione avrebbe meno figli di una donna con un po ‘ di istruzione. Detto in un altro modo, il numero di bambini nati da una donna è probabile che sia una funzione lineare della sua educazione, oltre a qualche errore., In realtà, nelle società a bassa fertilità, i metodi di regressione binomiale di Poisson e negativa sono preferiti rispetto ai metodi di regressione dei minimi quadrati ordinari per la previsione della fertilità (Poston 2002; Poston e McKibben 2003).
Per prima cosa introduciamo una nota sulla notazione utilizzata in questa voce. Nelle scienze sociali intraprendiamo quasi sempre ricerche con campioni tratti da popolazioni più grandi, ad esempio un campione casuale dell ‘ 1% della popolazione statunitense. Lettere greche come α e β sono usate per indicare i parametri (cioè,, i valori di intercetta e pendenza) che rappresenta la relazione tra X e Y nella popolazione più grande, mentre le lettere minuscole romane come a e b saranno usate per indicare i parametri nel campione.
Quando si postulano relazioni nelle scienze sociali, spesso si assume la linearità, ma ciò potrebbe non essere sempre il caso. In effetti, molte relazioni non sono lineari. Quando si ipotizza la forma di una relazione tra due variabili, è necessario essere guidati sia dalla teoria utilizzata, sia da un’ispezione dei dati.,
Ma dato che vogliamo usare una linea retta per mettere in relazione la variabile Y, la variabile dipendente, con la variabile X, la variabile indipendente, c’è una domanda su quale linea usare. In qualsiasi diagramma a dispersione di osservazioni di valori X e Y (vedere Figura 1), ci sarebbe un numero infinito di linee rette che potrebbero essere utilizzate per rappresentare la relazione. Quale linea è la linea migliore?
La retta scelta deve essere quella che minimizza la quantità di errore tra i valori previsti di Y e i valori effettivi di Y., In particolare, per ciascuna delle i esime osservazioni nel campione, se si dovesse quadrare la differenza tra i valori osservati e previsti di Y, e quindi sommare queste differenze al quadrato, la linea migliore avrebbe la somma più bassa degli errori al quadrato (SSE), rappresentata come segue:
La regressione ordinaria dei minimi quadrati è un metodo statistico che produce l’unica retta che minimizza l’errore al quadrato totale.
Usando il calcolo, si può dimostrare che SSE è l’importo più basso o il “minimo” quando i coefficienti a e b sono calcolati con queste formule (Hamilton 1992, p., 33):
Questi valori di a e b sono noti come coefficienti minimi quadrati, o talvolta come coefficienti minimi quadrati ordinari o coefficienti OLS.
Ora applicheremo i principi dei minimi quadrati. Siamo interessati alla misura in cui esiste una relazione tra le contee della Cina tra il tasso di fertilità (la variabile dipendente) e il livello di analfabetismo (la variabile indipendente). La Cina aveva 2.372 contee nel 1982., Ipotizziamo che le contee con popolazioni fortemente analfabete avranno tassi di fertilità più elevati rispetto a quelli con popolazioni con bassi livelli di analfabetismo.
La variabile dipendente, Y, è il tasso generale di fertilità, GFR, cioè il numero di bambini nati nel 1982 per 1.000 donne nella fascia di età da quindici a quarantanove. La variabile indipendente, X, è la percentuale della popolazione della contea nel 1981 di dodici anni o più che sono analfabeti.
La relazione può essere graficamente nel grafico a dispersione in Figura 1., L’associazione tra il GFR e il tasso di analfabetismo sembra essere lineare e positiva. Ogni punto si riferisce a una contea della Cina; ci sono 2.372 punti sul grafico a dispersione.
L’equazione (1) può essere stimata utilizzando le formule dei minimi quadrati per a e b nelle equazioni (3) e (4). Ciò produce quanto segue:
I risultati OLS nell’equazione (5) indicano che il valore di intercetta è 57.56 e il valore di pendenza è 1.19. L’intercetta, o a, indica il punto in cui la linea di regressione “intercetta” l’asse Y. Indica il valore medio di Y quando X = 0., Pertanto, in questo set di dati in Cina, il valore di a indica che una contea senza persona analfabeta nella popolazione avrebbe un tasso di fertilità previsto di 57,6 bambini per 1.000 donne di età compresa tra quindici e quarantanove anni.
Il coefficiente di pendenza, o b, indica la variazione media di Y associata a una variazione di un’unità in X. Nell’esempio cinese, b = 1,19, il che significa che un aumento dell ‘ 1% del tasso di analfabetismo di una contea è associato ad un aumento medio di GFR, o guadagno, di 1,19 bambini per 1.000 donne di età compresa tra,
Probabilmente vorremmo interpretare questo coefficiente b nella direzione opposta; cioè, ha più senso dire che se riduciamo il tasso di analfabetismo della contea dell ‘ 1 per cento, ciò comporterebbe una riduzione media di 1,2 bambini per 1.000 donne di età compresa tra quindici e quarantanove anni. Questo tipo di interpretazione sarebbe coerente con un intervento politico che un governo potrebbe desiderare di utilizzare; cioè, un tasso di analfabetismo più basso tenderebbe a tradursi in un tasso di fertilità più basso.
La linea di regressione può essere tracciata nel diagramma a dispersione sopra, come mostrato in Figura 2.,
Si nota che mentre in generale la relazione tra analfabetismo e fertilità è lineare, c’è molto errore nella previsione della fertilità della contea con una conoscenza dell’analfabetismo della contea. Mentre alcune contee si trovano proprio sulla o vicino alla linea di regressione, e quindi, i loro tassi di analfabetismo perfettamente o quasi perfettamente prevedere i loro tassi di fertilità, le previsioni per le altre contee non sono così buone.
Un modo per valutare l’efficienza predittiva complessiva del modello OLS è quello di “eyeball” la relazione come abbiamo fatto sopra., Quanto bene la suddetta equazione OLS corrisponde alla variazione dei tassi di fertilità delle contee? Come abbiamo notato sopra, la relazione sembra essere positiva e lineare. Un approccio statistico più accurato per affrontare la questione
di quanto bene i punti di dati si adattano alla linea di regressione è con il coefficiente di determinazione ( R 2).
Iniziamo considerando il problema di predire Y, il tasso di fertilità, quando non abbiamo altre conoscenze sulle osservazioni (le contee)., Cioè, se conosciamo solo i valori di Y per le osservazioni, allora la migliore previsione di Y, il tasso di fertilità, è la media di Y. Si ritiene che Carl Friedrich Gauss (1777-1855) sia stato il primo a dimostrare che, mancando altre informazioni sul valore di una variabile per qualsiasi soggetto, la media aritmetica è il valore più probabile (Gauss 2004, p. 244).
Ma se indoviniamo la media di Y per ogni caso, avremo molte previsioni scadenti e molti errori. Quando abbiamo informazioni sui valori di X, l’efficienza predittiva può essere migliorata, purché X abbia una relazione con Y., “La domanda allora è, quanto questa conoscenza di X migliora la nostra previsione di Y ?”(Lewis-Beck 1980, p. 20).
Innanzitutto, considera la somma delle differenze al quadrato del valore di ogni osservazione su Y dalla media di Y. Questa è la somma totale dei quadrati (TSS) e rappresenta la quantità totale di variazione statistica in Y, la variabile dipendente.
I valori su X vengono quindi introdotti per tutte le osservazioni (le contee cinesi) e viene stimata l’equazione di regressione OLS., La linea di regressione viene tracciata (come nel grafico a dispersione in Figura 2) e i valori effettivi di Y per tutte le osservazioni vengono confrontati con i loro valori previsti di Y. La somma delle differenze al quadrato tra i valori previsti di Y e la media di Y è la somma spiegata dei quadrati (ESS), a volte indicata come la somma del modello Questo rappresenta la quantità della variazione totale in Y che è rappresentato da X. La differenza tra TSS e ESS è la quantità della variazione in Y che non è spiegato da X, noto come la somma residua dei quadrati (RSS).,
Il coefficiente di determinazione (R2) è:
Il coefficiente di determinazione, moltiplicato per 100, rappresenta la percentuale di variazione in Y (i tassi di fertilità dei Cinesi contee) che è rappresentato da X (i tassi di analfabetismo delle contee). I valori R2 vanno da +1 a 0. Se R2 = 1.0, la variabile X rappresenta perfettamente la variazione in Y. Alternativamente, quando R2 = 0 (in questo caso anche la pendenza della linea, b, sarebbe uguale a 0), la variabile X non tiene conto di nessuna delle variazioni in Y (Vittinghoff et al. 2005, p. 44; Lewis-Beck 1980, pp. 21-22).,
VEDI ANCHE Cliometria; Minimi quadrati, Tre stadi; Minimi quadrati, Due stadi; Regressione lineare; Regressione logistica; Metodi, quantitativa; Regressione probabilistica; Regressione; Analisi di regressione; Scienze sociali; Statistica nelle scienze sociali; Tobia
BIBLIOGRAFIA
Gauss, Carl Friedrich. 2004. Teoria del moto dei corpi celesti che si muovono intorno al Sole in sezioni coniche: Una traduzione di Theoria Motus. Mineola, NY: Dover.
Hamilton, Lawrence C. 1992. Regressione con grafica: Un secondo corso di Statistica Applicata. La nostra azienda si occupa di,
Lewis-Beck, Michael S. 1980. Regressione applicata: Un’introduzione. Beverly Hills, CA: Sage.
Poston, Dudley L., Jr. 2002. La modellazione statistica della fertilità delle donne cinesi. Journal of Modern Applied Statistical Methods 1 (2): 387-396.
Vittinghoff, Eric, David V. Glidden, Stephen C. Shiboski e Charles E. McCulloch. 2005. Metodi di regressione in Biostatistica: Modelli lineari, logistici, di sopravvivenza e di misure ripetute. Springer.
Dudley L. Poston Jr .
Lascia un commento