BIBLIOGRAFIE
celor mai mici pătrate (OLS) regresia este o metodă statistică de analiză, care estimează o relație între una sau mai multe variabile independente și o variabilă dependentă; metoda estimărilor relația prin minimizarea sumei pătratelor în diferența dintre frecvențele observate și valorile estimate ale variabilei dependente configurat ca o linie dreaptă., În această intrare, regresia OLS va fi discutată în contextul unui model bivariat, adică un model în care există o singură variabilă independentă ( X ) care prezice o variabilă dependentă ( Y ). Cu toate acestea, logica regresiei OLS este ușor extinsă la modelul multivariat în care există două sau mai multe variabile independente.oamenii de știință sociali sunt adesea preocupați de întrebări despre relația dintre două variabile. Acestea includ următoarele: în rândul femeilor, există o relație între educație și fertilitate?, Femeile mai educate au mai puțini copii, iar femeile mai puțin educate au mai mulți copii? Între țări, există o relație între produsul național brut (PNB) și speranța de viață? Țările cu niveluri mai ridicate de PNB au niveluri mai ridicate ale speranței de viață, iar țările cu niveluri mai scăzute de PNB, niveluri mai scăzute ale speranței de viață? Între țări, există o relație pozitivă între oportunitățile de angajare și migrația netă? Printre oameni, există o relație între vârstă și valorile tensiunii arteriale sistolice de bază? (Lewis-Beck 1980; Vittinghoff și colab. 2005).,după cum notează Michael Lewis-Beck, aceste exemple sunt instanțe specifice ale interogării comune, ” care este relația dintre variabila X și variabila Y?”(1980, p. 9). Dacă se presupune că relația este liniară, regresia bivariată poate fi utilizată pentru a aborda această problemă prin montarea unei linii drepte la un scatterplot de observații asupra variabilei X și variabilei Y., Cea mai simplă afirmație a unei astfel de relații între o variabilă independentă, etichetată X, și o variabilă dependentă, etichetată Y, poate fi exprimată ca o linie dreaptă în această formulă:
unde a este interceptarea și indică unde linia dreaptă intersectează axa Y (axa verticală); b este panta și indică gradul de abruptă a liniei drepte; iar e reprezintă eroarea.
termenul de eroare indică faptul că relația prevăzută în ecuație nu este perfectă. Adică, linia dreaptă nu prezice perfect Y., Această lipsă a unei predicții perfecte este comună în științele sociale. De exemplu, în ceea ce privește relația de educație și fertilitate menționată mai sus, nu ne-am aștepta ca toate femeile cu exact șaisprezece ani de educație să aibă exact un copil, iar femeile cu exact patru ani de educație să aibă exact opt copii. Dar ne-am aștepta ca o femeie cu multă educație să aibă mai puțini copii decât o femeie cu puțină educație. Declarat într-un alt mod, Numărul de copii născuți de o femeie este probabil să fie o funcție liniară a educației sale, plus o anumită eroare., De fapt, în fertilitate scăzută societăți, Poisson și negativ binomială de regresie metode sunt de preferat mai mici pătrate ordinare de regresie metode de predicție a fertilității (Poston 2002; Poston și McKibben 2003).mai întâi introducem o notă despre notația folosită în această intrare. În științele sociale, aproape întotdeauna efectuăm cercetări cu probe extrase din populații mai mari, să zicem, un eșantion aleatoriu de 1% din populația SUA. Literele grecești ca α și β sunt folosite pentru a desemna parametrii (adică.,, interceptarea și valorile pantei) reprezentând relația dintre X și Y în populația mai mare, în timp ce literele romane minuscule precum a și b vor fi utilizate pentru a indica parametrii din eșantion.când postulăm relațiile în științele sociale, liniaritatea este adesea asumată, dar acest lucru nu poate fi întotdeauna cazul. Într-adevăr, o mulțime de relații nu sunt liniare. Atunci când se ipotezează forma unei relații între două variabile, trebuie să fie ghidată atât de teoria utilizată, cât și de o inspecție a datelor.,
dar având în vedere că dorim să folosim o linie dreaptă pentru a relaționa variabila y, variabila dependentă, cu variabila X, variabila independentă, există o întrebare despre ce linie să folosim. În orice scatterplot de observații ale valorilor X și Y (vezi Figura 1), ar exista un număr infinit de linii drepte care ar putea fi folosite pentru a reprezenta relația. Care linie este cea mai bună linie?
linia dreaptă aleasă trebuie să fie cea care minimizează cantitatea de eroare dintre valorile prezise ale lui Y și valorile reale ale lui Y., În mod specific, pentru fiecare al i-lea observații din eșantion, dacă s-pătrat diferența între cele observate și valorile estimate de Y, și apoi suma acestor pătrat diferențe, cea mai bună linie ar fi cea mai mică sumă a pătratelor erorilor (SSE), reprezentate după cum urmează:
mai mici pătrate Ordinare de regresie este o metodă statistică care produce o linie dreaptă care minimizează total pătrat de eroare.folosind calculul, se poate arăta că SSE este cea mai mică sau „cea mai mică” sumă atunci când coeficienții a și b sunt calculați cu aceste formule (Hamilton 1992, p., 33):
aceste valori ale a și b sunt cunoscute ca coeficienți ai celor mai mici pătrate sau, uneori, ca coeficienți obișnuiți ai celor mai mici pătrate sau coeficienți OLS.
acum vom aplica principiile celor mai mici pătrate. Suntem interesați de măsura în care există o relație între județele din China între rata fertilității (variabila dependentă) și nivelul analfabetismului (variabila independentă). China a avut 2,372 comitate în 1982., Presupunem că județele cu populații puternic analfabete vor avea rate de fertilitate mai mari decât cele cu populații cu niveluri scăzute de analfabetism.variabila dependentă, Y, este rata generală a fertilității, GFR, adică numărul de copii născuți în 1982 la 1.000 de femei din grupa de vârstă cincisprezece până la patruzeci și nouă. Variabila independentă, X, este procentul populației din județ în 1981 în vârstă de doisprezece sau mai mulți care sunt analfabeți.
relația poate fi grafic în scatterplot în Figura 1., Asocierea dintre RFG și rata analfabetismului pare a fi liniară și pozitivă. Fiecare punct se referă la un județ din China; există 2,372 puncte pe scatterplot.
ecuația (1) poate fi estimată folosind formulele celor mai mici pătrate pentru a și b în ecuațiile (3) și (4). Acest lucru produce următoarele:
rezultatele OLS din ecuația (5) indică faptul că valoarea interceptării este 57.56, iar valoarea pantei este 1.19. Interceptarea sau a indică punctul în care linia de regresie „interceptează” axa Y. Se spune valoarea medie a Y atunci când X = 0., Astfel, în acest set de date din China, valoarea a indică faptul că un județ fără o persoană analfabetă din populație ar avea o rată de fertilitate așteptată de 57.6 copii la 1.000 de femei cu vârste cuprinse între Cincisprezece și patruzeci și nouă de ani.coeficientul de pantă, sau b, indică modificarea medie în Y asociată cu o modificare de o unitate în X. În exemplul Chinei, b = 1.19, ceea ce înseamnă că o creștere de 1% a ratei analfabetismului unui județ este asociată cu o creștere medie a GFR sau câștig, de 1.19 copii la 1.000 de femei cu vârste cuprinse între Cincisprezece și patruzeci și nouă de ani.,probabil că am dori să interpretăm acest coeficient b în cealaltă direcție; adică este mai logic să spunem că, dacă reducem rata analfabetismului județului cu 1%, Aceasta ar duce la o reducere medie de 1, 2 copii la 1.000 de femei cu vârste cuprinse între Cincisprezece și patruzeci și nouă de ani. Acest tip de interpretare ar fi în concordanță cu o intervenție politică pe care un guvern ar dori să o folosească; adică o rată mai scăzută a analfabetismului ar tinde să conducă la o rată a fertilității mai scăzută.
linia de regresie poate fi reprezentată grafic în scatterplot de mai sus, așa cum se arată în Figura 2.,se remarcă faptul că, în timp ce, în general, relația dintre analfabetism și fertilitate este liniară, există o mulțime de erori în predicția fertilității județene, cu o cunoaștere a analfabetismului Județean. În timp ce unele județe se află chiar pe sau aproape de linia de regresie și, prin urmare, ratele lor de analfabetism prezic perfect sau aproape perfect ratele de fertilitate, predicțiile pentru alte județe nu sunt la fel de bune.o modalitate de a evalua eficiența predictivă generală a modelului OLS este de a „globul ocular” relația așa cum am făcut mai sus., Cât de bine corespunde ecuația OLS de mai sus cu variația ratelor de fertilitate ale județelor? După cum am menționat mai sus, relația pare a fi pozitivă și liniară. O abordare statistică mai precisă pentru a aborda întrebarea
despre cât de bine se potrivesc punctele de date liniei de regresie cu coeficientul de determinare ( R 2).începem prin a lua în considerare problema prezicerii Y, rata fertilității, atunci când nu avem alte cunoștințe despre observații (județele)., Asta este, dacă știm doar valori ale lui Y pentru observații, atunci cea mai bună predicție a Y, rata de fertilitate, este de Y. se crede că Carl Friedrich Gauss (1777-1855) a fost primul care a demonstrat că lipsesc orice alte informații despre o variabilă valoare pentru orice subiect, de la media aritmetică este cea mai probabilă valoare (Gauss 2004, p. 244).
dar dacă ghicim media lui Y pentru fiecare caz, vom avea o mulțime de predicții slabe și o mulțime de erori. Când avem informații despre valorile lui X, eficiența predictivă poate fi îmbunătățită, atâta timp cât X are o relație cu Y., „Întrebarea este atunci: cât de mult îmbunătățește această cunoaștere a lui X predicția noastră despre Y ?”(Lewis-Beck 1980, p. 20).mai întâi, luați în considerare suma diferențelor pătrate ale valorii fiecărei observații pe Y din media lui Y. Aceasta este suma totală a pătratelor (TSS) și reprezintă suma totală a variației statistice în Y, variabila dependentă.valorile pe X sunt apoi introduse pentru toate observațiile (județele chineze), iar ecuația de regresie OLS este estimată., Linia de regresie este reprezentată grafic (ca în scatterplot în Figura 2), și valorile reale ale lui Y pentru toate observațiile sunt în comparație cu valorile estimate de Y. suma pătratelor diferențelor dintre valorile estimate ale lui Y și Y este explicat sumă de pătrate (ESS), uneori menționată ca model sumă de pătrate. Aceasta reprezintă suma variației totale în Y care este contabilizată de X. diferența dintre TSS și ESS este suma variației în Y care nu este explicată de X, cunoscută sub numele de suma reziduală a pătratelor (RSS).,coeficientul de determinare (R2) este:
coeficientul de determinare, atunci când este înmulțit cu 100, reprezintă cantitatea procentuală de variație în Y (ratele de fertilitate ale județelor chineze) care este contabilizată de X (ratele de analfabetism ale județelor). Valorile R2 variază de la +1 la 0. Dacă R2 = 1.0, variabila X reprezintă perfect variația în Y. alternativ, când R2 = 0 (în acest caz panta liniei, b, ar fi egală și 0), variabila X nu ține cont de nicio variație în Y (Vittinghoff et al. 2005, p. 44; Lewis-Beck 1980, pp.21-22).,
a se VEDEA, de ASEMENEA, Cliometrics; celor mai mici Pătrate, în Trei Etape; mai mici Pătrate, în Două Etape; Regresie Liniară, Regresia Logistică; Metode Cantitative; Probabilistice de Regresie; Regresia; Analiza de Regresie; Științe Sociale; Statistică în Științele Sociale; Tobit
BIBLIOGRAFIE
Gauss, Carl Friedrich. 2004. Teoria mișcării corpurilor cerești care se mișcă în jurul Soarelui în secțiuni conice: o traducere a Theoria Motus. Dover.Hamilton, Lawrence C. 1992. Regresie cu grafică: Un al doilea curs în Statisticile aplicate. Pacific Grove, CA: Brooks / Cole.,Lewis-Beck, Michael S. 1980. Regresie Aplicată: O Introducere. Sage.Poston, Dudley L., Jr. 2002. Modelarea statistică a fertilității femeilor chineze. Journal of Modern Applied Statistical Methods 1 (2): 387-396.în 1990, a fost ales ca membru al Academiei de științe a Moldovei. 2005. Metode de regresie în biostatistică: modele liniare, logistice, de supraviețuire și măsuri repetate. New York: Springer.
Dudley L. Poston Jr .
Lasă un răspuns