Marea enciclopedie a petrolului și gazelor. Semnificația statistică a parametrilor de regresie și corelație

Pagina 1


Semnificația modelului pentru rezolvarea problemelor specifice de cercetare constă în faptul că ne permite să dăm cuantificare parametrii ascunși, reflectând dinamica sistemelor cu două produse. La rezolvarea unor astfel de probleme, conceptele de intern (produs de primul fel) și extern (produs de al doilea fel) se pot schimba. Astfel, în modelul de biosinteză a proteinelor construit de V.M. Glushkov și colegii săi (1979), rolul produselor de primul și al doilea fel este jucat de proteinele de reglare și structurale, în modelul răspunsului imun - celule stem și limfocite, respectiv, în modelul de reglare a contracțiilor cardiace - substanțe care sunt livrate miocardiocitelor, respectiv, prin vasele coronare și prin aortă.

Evaluarea semnificației modelului este dată prin criteriul / - și / J2 pentru fiecare ecuație separat.

Asumarea semnificației modelului se bazează pe două prevederi.

Toate acestea nu scad de la semnificația modelului. Desigur, fără iotas existența muzicii este de neconceput.

În fine, limitarea maximă a semnificației modelului contractual ca atare a fost facilitată de faptul că aproape toate normele în vigoare în acest domeniu erau de natură absolut obligatorie (imperativă).

Utilizarea analizei varianței pe lângă regresie ne permite să evaluăm nu numai semnificația modelului în ansamblu, ci și semnificația dependențelor particulare.

Din datele prezentate mai rezultă că atunci când se forează roci mai dure, semnificația modelului este mai mare. Dovada semnificaţiei modelului rezultat confirmă ipoteza că dependență liniară parametrii luati in considerare.

În ciuda succeselor în dezvoltarea teoriei de luare a deciziilor, se pare că aceasta va rămâne mult timp într-un loc intermediar între artă - capacitatea de a lua decizii inerente în la acest mediu decizii - și știința ca sistem de principii, Dispoziții generale, proceduri și metode. Cu toate acestea, acest lucru nu reduce relevanța cărții: numărul de sisteme om-calculator va crește, importanța luării deciziilor în situații complexe va crește și va deveni din ce în ce mai dificil pentru o persoană să rezolve problemele corespunzătoare folosind vechi ( metode precise şi probabiliste). Prin urmare, importanța modelelor care utilizează incertitudini formalizate bazate pe alte idei decât matematica întâmplării nu poate decât să crească.

Prin abordarea inductivă, caracteristică procesului de modelare în cadrul analizei activității de afaceri, modelul este obținut prin generalizarea observațiilor asupra unor fapte particulare individuale, a căror luare în considerare este considerată importantă pentru luarea deciziilor. Modelele sunt dezvoltate inductiv pentru a le rezolva probleme specifice management economic. Modelele includ luarea în considerare a proprietăților specifice formate istoric ale procesului care este modelat. Problema principală a întocmirii modelelor inductive este selectarea dintr-un set de observații individuale a celor care determină esența deciziei care se ia, precum și prezentarea structurii și conexiunilor acestora într-o formă formalizată. Semnificația modelelor inductive este că prin simplificarea descrierii relațiilor, informațiile conținute într-un set mare de observații vor fi prezentate într-o formă vizuală și concisă. Calitatea modelelor inductive nu este determinată de acuratețea copierii realității complexe prin sisteme simbolice, ci depinde de cât de mult este posibil, pe de o parte, să se simplifice modelul în așa fel încât să se obțină o soluție a problemei la un cost acceptabil, dar, pe de altă parte, să reflecte proprietățile de bază ale realității.

Dacă aceste tipuri de contracte de muncă fixează nivelul salariilor, atunci când nivelul pieței se abate de la nivelul așteptat de lucrători și angajatori atunci când au semnat contractul, atunci ar fi optim atât pentru lucrători, cât și pentru angajatori să modifice salariul nominal fix. Prin urmare, având în vedere că condițiile de pe piața muncii sunt în continuă schimbare, ar fi logic să presupunem că, în timp, astfel de contracte de muncă vor înceta să mai existe. Lucrătorii și angajatorii se vor aștepta ca salariile nominale să fie ajustate în fiecare zi, rezultând salarii nominale care vor fluctua elastic ca răspuns la dinamica cererii și ofertei de pe piața muncii. De fapt, adevărul acestor critici este scăderea bruscă a activității sindicale în industriile din SUA la sfârșitul anilor 1970 și 1980. Desigur, lucrătorii nesindicaliți au adesea contracte de muncă formale sau informale cu angajatorii lor, dar unii economiști consideră că această scădere a ponderii lucrătorilor sindicalizați este o dovadă a importanței în scădere a modelului de negociere colectivă pentru economia SUA.

Coeficientul de determinare este o statistică deoarece valorile sale sunt calculate din datele observate. Pe baza coeficientului de determinare, se construiește o procedură statistică care verifică cât de semnificativă este relația liniară dintre factori.

Statisticile care testează semnificația întregii ecuații de regresie sunt:

Primim:

Valorile crescătoare ale statisticilor corespund valorilor crescătoare ale statisticilor, prin urmare, o ipoteză care nu este acceptată atunci când = nu este acceptată dacă inegalitatea este satisfăcută, unde

Probabilitatea de a respinge incorect ipoteza este egală.

Să calculăm valorile critice pentru un număr diferit de observații.

Luați în considerare o regresie liniară simplă, deci

Valori critice obținute în funcție de numărul de observații:

Adică, cu un număr semnificativ de observații, chiar și abaterile mici ale valorii reale de la 0 se dovedesc a fi semnificative pentru recunoaștere semnificație statistică coeficient de regresie, cu o variabilă explicativă semnificativă.

Valoarea coincide cu pătratul coeficientului de corelație dintre variabile, aceeași concluzie este valabilă și pentru coeficientul de corelație:

Să luăm acum în considerare coeficienții de determinare R 2 pentru modelul complet și redus. În modelul complet, valoarea lui R2 este întotdeauna mai mare decât în ​​cel redus, deoarece într-un model complet cu m variabile explicative, minimizăm suma

pentru toate valorile coeficientului. Când se consideră un model redus, de exemplu, fără variabila explicativă a m-a, se caută minimul sumei

pentru toate valorile coeficientului, valoarea minimă rezultată nu poate fi valoare mai mare, obținut prin minimizarea sumei abaterilor asupra tuturor valorilor, inclusiv a valorilor. De aici provine proprietatea coeficientului.

Pentru comoditatea procedurii de selectare a unui model folosind, se propune să se folosească în schimb forma sa ajustată

care introduce o penalizare asociată cu o creştere a numărului de variabile explicative. Primim:

Astfel, cel dintre modelele concurente pentru care ia valoarea maxima posibila este recunoscut ca fiind cel mai bun.

Când se compară modele concurente, dacă estimarea se face folosind același număr de observații, atunci compararea modelelor după mărime este echivalentă cu compararea acelor modele după valoare sau. În acest caz, se selectează un model alternativ cu valoarea minima(sau).

Pe lângă coeficienții de determinare ajustați, atunci când alegeți unul dintre mai mulți modele alternative se folosesc criterii de informare, precum criteriul Schwartz, criteriul Akaike, „penalizant” pentru o creștere a variabilelor explicative, dar folosind metode ușor diferite.

Criteriul Akaike (Akaike"sinformationcriterion-AIC). Folosind acest criteriu model liniar cu factori explicativi, construiți din observații, se compară cu valoarea

Suma reziduală a pătratelor. Deoarece Pe măsură ce numărul variabilelor explicative crește, primul termen scade, iar al doilea termen crește, atunci din modelele alternative selectăm modelul cu cea mai mică valoare, astfel se ajunge la un compromis între suma reziduală a pătratelor și numărul explicative. factori.

Criteriul Schwarz (Schwarz"sinformationcriterion-SC, SIC). Utilizând acest criteriu, un model liniar cu factori explicativi, construit din observații, este comparat cu valoarea

Și aici, la fel ca atunci când se folosește criteriul Akaike, o creștere a numărului de factori explicativi duce la o scădere a primului termen al părții drepte și o creștere a celui de-al doilea. Dintre modelele alternative complete și reduse, este selectat modelul cu cea mai mică valoare.

25.07.16 Irina Anichina

33095 0

În acest articol vom vorbi despre cum să înțelegem dacă am construit un model de înaltă calitate. La urma urmei, este model de înaltă calitate ne va oferi previziuni de înaltă calitate.

Platforma Prognoz are o listă extinsă de modele pentru construcție și analiză. Fiecare model are specificul său și este utilizat în condiții diferite.

Obiectul „Model” vă permite să construiți următoarele modele de regresie:

  • Regresia liniară (estimarea celor mai mici pătrate);
  • Regresia liniară (estimarea variabilelor instrumentale);
  • Model cu alegere binară (estimarea maximă de probabilitate);
  • Regresie neliniară (estimare neliniară cu cele mai mici pătrate).

Să începem cu un model de regresie liniară. Multe din cele spuse se vor aplica altor specii.

Model de regresie liniară (estimare OLS)

Unde y– seria explicată, X 1 , …, x k- serii explicative, e– vectorul erorilor de model, b 0 , b 1 , …, b k– coeficienții modelului.

Deci unde să caut?

Coeficienții modelului

Pentru fiecare coeficient din panoul „Ecuație identificată”, se calculează un număr de statistici: eroare standardt-statistici, probabilitatea semnificației coeficientului. Acesta din urmă este cel mai universal și arată probabilitatea cu care eliminarea unui factor corespunzător unui coeficient dat din model nu se va dovedi a fi semnificativă.

Deschidem panoul și ne uităm la ultima coloană, pentru că este cea care ne va spune imediat despre semnificația coeficienților.

Nu ar trebui să existe factori cu o probabilitate mare de nesemnificație în model.

După cum puteți vedea, la excluderea ultimului factor, coeficienții modelului au rămas practic neschimbați.

Probleme posibile: Ce să faci dacă, conform modelului tău teoretic, trebuie să existe un factor cu o mare probabilitate de nesemnificație? Există și alte moduri de a determina semnificația coeficienților. De exemplu, aruncați o privire la matricea de corelație a factorilor.

Matricea de corelație

Panoul Factor Corelation conține matricea de corelareîntre toate variabilele modelului și, de asemenea, construiește un nor de observații pentru o pereche de valori selectată.

Coeficient de corelație arată puterea unei relații liniare între două variabile. Acesta variază de la -1 la 1. Apropierea de -1 indică o relație liniară negativă, apropierea de 1 indică una pozitivă.

Norul de observație vă permite să determinați vizual dacă dependența unei variabile de alta este liniară.

Dacă există factori care se corelează puternic între ei, excludeți unul dintre ei. Dacă doriți, în locul unui model de regresie liniară obișnuită, puteți construi un model cu variabile instrumentale, inclusiv factori excluși din cauza corelației din lista de variabile instrumentale.

Matricea de corelație nu este semnificativă pentru un model de regresie neliniară, deoarece arată doar puterea liniar dependențe.

Criterii de calitate

Pe lângă verificarea fiecărui coeficient al modelului, este important să știm cât de bun este în general. Pentru a face acest lucru, calculați statisticile situate în panoul „Caracteristici statistice”.

Coeficient de determinare (R 2 ) – cea mai comună statistică pentru evaluarea calității unui model. R 2 calculat folosind următoarea formulă:

Unde n– numărul de observații; y eu— valorile variabilei explicate; — valoarea medie a variabilei explicate; i— valorile modelului construite din parametrii estimați.

R 2 ia o valoare de la 0 la 1 și arată proporția de varianță explicată a seriei explicate. Aproape R 2 la 1, atunci model mai bun, cu atât proporția inexplicabilului este mai mică.

Probleme posibile: Probleme cu utilizarea R 2 sunt că valoarea sa nu scade atunci când factorii sunt adăugați la ecuație, indiferent cât de rău ar fi aceștia. Este garantat să fie egal cu 1 dacă adăugăm la model atâția factori câți observații avem. Prin urmare, comparați modelele cu cantități diferite factori folosind R 2 , nu are niciun sens.

Pentru o evaluare mai adecvată a modelului, folosim coeficient de determinare ajustat (Adj R 2 ) . După cum sugerează și numele, acest indicator este o versiune ajustată R 2 , impunând o „penalizare” pentru fiecare factor adăugat:

Unde k– numărul de factori incluși în model.

Coeficient Adj R 2 de asemenea, ia valori de la 0 la 1, dar nu va fi niciodată mai mare decât valoarea R 2 .

Analogic t-statistica coeficientului este Statistici Fisher (F -statistici). Cu toate acestea, dacă t-statistica testează ipoteza despre nesemnificația unui coeficient, atunci F-statistica testeaza ipoteza ca toti factorii (cu exceptia constantei) sunt nesemnificativi. Sens F-statisticile se compară și cu cea critică, iar pentru aceasta putem obține și probabilitatea de nesemnificație. Merită să înțelegem asta acest test testează ipoteza că toți factorii simultan sunt nesemnificative. Prin urmare, în prezența unor factori nesemnificativi, modelul în ansamblu poate fi semnificativ.

Probleme posibile: Majoritatea statisticilor sunt construite pentru cazul în care modelul include o constantă. Cu toate acestea, în Platforma Prognoz avem posibilitatea de a elimina o constantă din lista coeficienților estimați. Merită să înțelegem că astfel de manipulări duc la faptul că unele caracteristici pot lua valori inacceptabile. Asa de, R 2 Și Adj R 2 în absenţa constantelor pot lua valori negative. În acest caz, ele nu mai pot fi interpretate ca o fracție care are o valoare de la 0 la 1.

Pentru modelele fără constantă în Platforma Prognoz, acestea sunt calculate coeficienţi de determinare necentraţi(R 2 Și Adj R 2 ). Formula modificată aduce valorile lor în intervalul de la 0 la 1, chiar și în modelul fără constantă.

Să ne uităm la valorile criteriilor descrise pentru modelul de mai sus:

După cum putem vedea, coeficientul de determinare este destul de mare, dar există încă o cantitate semnificativă de varianță inexplicabilă. Statisticile lui Fisher indică faptul că setul de factori pe care l-am ales este semnificativ.

Criterii comparative

Pe lângă criteriile care ne permit să vorbim despre calitatea modelului în sine, există o serie de caracteristici care ne permit să comparăm modele între ele (cu condiția să explicăm aceeași serie în aceeași perioadă).

Majoritatea modelelor de regresie se reduc la o problemă de minimizare suma resturilor pătrate (sumă de pătrat reziduuri , SSR ) . Astfel, prin compararea modelelor în funcție de acest indicator, se poate determina care dintre modele a explicat mai bine seria studiată. Acest model va corespunde celei mai mici valori a sumei reziduurilor pătrate.

Probleme posibile: Este de remarcat faptul că, odată cu creșterea numărului de factori, acest indicator este același cu R 2 , va tinde către valoarea limită (SSR are evident o valoare limită de 0).

Unele modele se reduc la maximizare logaritmul funcției de probabilitate maximă (LogL ) . Pentru un model de regresie liniară, aceste probleme conduc la aceeași soluție. Bazat LogL sunt construite criterii de informare care sunt adesea folosite pentru a rezolva problema selectării modelelor de regresie și de netezire:

  • Criteriul de informare Akaike (Akaike informație criteriu, AIC)
  • criteriul Schwarz (Schwarz Criteriu, S.C.)
  • testul Hannan-Quinn (Hannan- Quinn Criteriu, HQ)

Toate criteriile iau în considerare numărul de observații și numărul de parametri ai modelului și diferă unul de celălalt sub forma „funcției de penalizare” pentru numărul de parametri. Regula pentru criteriile de informare este: cel mai bun model are cea mai mică valoare de criteriu.

Să comparăm modelul nostru cu prima sa versiune (cu un coeficient „în plus”):

După cum puteți vedea, acest model deși a dat o sumă mai mică de reziduuri pătrate, s-a dovedit a fi mai rău în ceea ce privește criterii de informare iar prin coeficientul de determinare ajustat.

Analiza reziduurilor

Un model este considerat a fi de bună calitate dacă reziduurile modelului nu se corelează între ele. În caz contrar, există un impact unidirecțional constant asupra variabilei explicate a factorilor neluați în considerare în model. Acest lucru afectează calitatea estimărilor modelului, făcându-le ineficiente.

Statisticile sunt folosite pentru a verifica reziduurile pentru autocorelarea de ordinul întâi (dependența valorii curente de cele anterioare) Durbin-Watson (DW ) . Valoarea acestuia variază de la 0 la 4. În absența autocorelației DW aproape de 2. Apropierea de 0 indică autocorelare pozitivă, aproape de 4 indică autocorelare negativă.

După cum se dovedește, modelul nostru conține autocorelarea reziduurilor. Puteți scăpa de autocorelare aplicând transformarea „Diferență” variabilei explicate sau folosind un alt tip de model - modelul ARIMA sau modelul ARMAX.

Probleme posibile: Statisticile Durbin-Watson nu sunt aplicabile modelelor fără constantă, precum și modelelor care utilizează ca factori valori întârziate ale variabilei explicate. În aceste cazuri, statisticile pot arăta absența autocorelației atunci când aceasta există.

Model de regresie liniară (metoda variabilelor instrumentale)

Modelul de regresie liniară cu variabile instrumentale este:

Unde y– seria explicată, X 1 , …, x k- serii explicative, X1, …,X̃ k– serii explicative modelate folosind variabile instrumentale, z 1 , …, z l- variabile instrumentale, e, j– vectori ai erorilor de model, b 0 , b 1 , …, b k– coeficienții modelului, c 0 j, c 1 j, …, c lj – coeficienții modelelor pentru serii explicative.

Schema prin care trebuie verificată calitatea modelului este similară, doar că se adaugă la criteriile de calitate J -statistici- analogic F-statistică care ia în considerare variabile instrumentale.

Model cu alegere binară

Variabila explicată în modelul cu alegere binară este o valoare care ia doar două valori – 0 sau 1.

Unde y– seria explicată, X 1 , …, x k- serii explicative, e– vectorul erorilor de model, b 0 , b 1 , …, b k– coeficienții modelului, F– o funcție nedescrescătoare care returnează valori de la 0 la 1.

Coeficienții modelului sunt calculați folosind o metodă care maximizează valoarea funcției de probabilitate maximă. Pentru acest model vor fi relevante următoarele criterii de calitate:

  • coeficientul de determinare al lui McFadden (McFadden R 2 ) - analog celui obisnuit R 2 ;
  • LR-statistici iar probabilitatea sa este analogă F-statistici;
  • Criterii comparative: LogL , AIC, S.C., HQ.

Regresie neliniară

Prin model de regresie liniară înțelegem un model de forma:

Unde y– seria explicată, X 1 , …, x k- serii explicative, e– vectorul erorilor de model, b– vectorul coeficienților modelului.

Coeficienții modelului sunt calculați prin metoda care minimizează valoarea sumei pătratelor reziduurilor. Pentru acest model vor fi relevante aceleași criterii ca și pentru regresia liniară, cu excepția verificării matricei de corelație. Rețineți, de asemenea, că statistica F va testa dacă modelul în ansamblu este semnificativ în comparație cu modelul y = b 0 + e, chiar dacă în modelul original funcția f (X 1 , …, x k, b) nu există niciun termen corespunzător constantei.

Rezultate

Să rezumăm și să prezentăm o listă de caracteristici testate sub forma unui tabel:

Sper că acest articol a fost de folos cititorilor! Data viitoare vom vorbi despre alte tipuri de modele si anume ARIMA, ARMAX.

Calitatea modelului va fi evaluată folosind criteriile Student și Fisher prin compararea valorilor calculate cu cele tabulate.

Pentru a evalua calitatea modelului folosind criteriul Student, valoarea reală a acestui criteriu (t obs)

comparativ cu valoarea critică t cr care este luat din tabelul de valori t luând în considerare nivelul de semnificație dat ( α = 0,05) și numărul de grade de libertate (n - 2).

Dacă t observat > t cr, atunci valoarea rezultată a coeficientului de corelație de pereche este considerată semnificativă.

Valoarea critică la și este egală cu .

Să verificăm semnificația coeficientului de determinare folosind F- Criteriul Fisher.

Să calculăm statisticile F dupa formula:

m = 3– numărul de parametri din ecuația de regresie;

N=37– numărul de observații în populația eșantion.

Model matematic distributie statistica F-statistica este distribuția Fisher cu și grade de libertate. Valoarea critică a acestei statistici pentru și și gradele de libertate este egală cu .

Criteriul Fisher
F calc F cr Ecuația de regresie
8916.383 3.276 adecvat

Astfel, modelul explică 99.8% variația totală a trăsăturilor Y. Acest lucru indică faptul că modelul montat este adecvat.


Calculul valorilor prezise și suma abaterilor pătrate.

Să intrăm în celulă Q2 formulă =$F$54*N2+$E$54*O2(calculul valorilor prezise), apoi copiați-l în celule Q3:Q38. La celulă R2 formulă =(P2-Q2)^2(calculul sumei abaterilor pătrate), apoi copiați-l în celule R3:R38și calculați suma valorilor rezultate din celulă R39.

X 2 X 5 Y y(x) (Y - y(x)) 2
605.1 2063.2 1626.7 1589.7 1367.523
620.1 2143.7 1602.5 1650.5 2303.318
2447.7 1880.7 1914.5 1144.709
862.1 2406.4 1982.7 1876.9 11189.53
958.4 2592.9 2026.7 106.5821
1488.9 2193.9 2180.4 182.342
1231.5 2529.7 2152.1 2020.4 17335.88
1429.6 2644.9 2133.1 8814.026
1679.5 2793.7 2344.4 2277.8 4436.216
1326.2 2669.2 2341.7 2135.8 42415.15
1456.8 2211.9 2282.7 5014.463
2523.6 2990.5 2629.8 2543.9 7377.384
2659.8 2017.5 2059.0 1722.637
923.8 2636.6 2009.4 2053.4 1939.955
1173.3 2943.1 2312.8 2792.24
1156.7 2890.9 2400.1 2272.4 16298.85
1450.2 3051.5 2508.1 2432.0 5784.146
1845.2 2684.1 2633.3 2581.453
1566.4 3052.6 2736.6 2449.8 82275.65
1729.7 3349.7 2824.5 2689.8 18152.31
1987.3 3456.3 2880.2 2804.9 5676.928
1902.7 3731.2 2812.9 2992.6 32297.9
1839.1 3517.8 2704.2 2828.0 15336.69
3953.7 3823.1 3224.2 3358.1 17922.28
1351.2 3482.9 2584.7 2731.6 21584.07
1185.3 3347.6 2466.7 2609.0 20246.66
1715.5 3585.4 2928.3 2859.2 4768.047
1536.4 3678.3 3036.4 2900.8 18389.81
1823.1 3801.6 3021.1 3032.3 124.6986
2452.1 4002.1 3237.6 3269.8 1034.273
2076.6 3990.3 3247.1 3206.5 1647.633
2129.2 3436.9 3375.5 3767.099
2502.7 4154.2 3472.8 3387.8 7220.377
2238.7 4322.7 3504.1 3472.0 1028.291
2417.6 4623.1 3357.1 3716.7 129321.2
3838.4 4817.9 4034.7 4065.3 937.7363
1468.6 3450.4 3585.0 18128.14
532666.2



Formular de raportare

Opțiuni

Tarife pentru reclame și caracteristici reviste
Numele revistei Y, tarif (o pagină de publicitate color), USD. X 1, audiență planificată, mii de oameni X 2, procent de bărbați X 3, venitul mediu al familiei, dolari
Audubon 25 315 51,1 38 787
Case și grădini mai bune 198 000 34 797 22,1
Săptămâna de lucru 68,1 63 667
Cosmopolit 15 452 17,3 44 237
Elle 55 540 12,5 47 211
Antreprenor 40 355 2 476 60,4 47 579
Esquire 71,3 44 715
Cercul de familie 147 500 24 539 38 759
primul Pentru Femei 28 059 3 856 3,6 43 850
Forbes 59 340 68,8 66 606
Avere 3 891 68,8 58 402
Glamour 85 080 7,8
Goff Digest 6 250 78,9
Menaj bun 166 080 25 306 12,6 38 335
gurmand 49 640 29,6 57 060
Harper's Bazaar 52 805 2 621 11,5 44 992
Inc. 70 825 66,9
Finanța personală a lui Kiplinger 65,1 63 876
Doamnelor" Home Journal 127 000 6,8
Viaţă 63 750 14 220 46,9
Mademoiselle 55 910
Viața Marthei Stewart 93 328 4 849 16,6
McCalls 7,6 33 823
Bani 98 250 60,6
Trend motor 79 800 5 281 88,5 48 739
National Geographic 44 326
Istoria naturala
Newsweek 148 800 20 720 53,5 53 025
Revista Părinți 72 820 18,2
Calculatoare PC 40 675 57 916
oameni 125 000 33 668
Mecanica populară 86,9
Reader's Digest 42,4 38 060
Carte roșie 95 785 13 212 8,9 41 156
Rolling Stone 78 920 8 638 59,8 43 212
Lumea alergătorului 36 850 2 078 62,9 60 222
științific american 37 500 2 704
Şaptesprezece 71 115 5 738 37 034
Schi 32 480 2 249 64,5 58 629
Bani inteligenti 42 900 2 224 63,4
Smithsonianul 73 075 8 253 47,9
Telenovelă Digest 35 070 7 227 10,3
Sports Illustrated 162 000 78,8 45 897
Apus de soare 56 000 5 276 38,7 52 524
Adolescent 53 250 3 057 15,4
Noul Yorker 62 435 3 223 48,9
Timp 162 000 22 798 52,4
Poveste adevărată 12,2
Ghid TV 42,8 37 396
NE. Știri și Raport mondial 98 644 9 825 57,5 52 018
Vanity Fair 67 890 4 307 27,7
Vogă 63 900 12,9 44 242
Ziua Femeii 137 000 22 747 6,7
Femeie Muncitoare 87 500 6,3 44 674
YM 73 270 14,4 43 696
Valoarea medie 83 534 39,7 47 710
Deviație standard 25,9 10 225

Întrebări de control

Regresie pereche

1. Ce se înțelege prin regresie în perechi?

2. Ce probleme sunt rezolvate la construirea unei ecuații de regresie?

3. Ce metode sunt folosite pentru a selecta tipul de model de regresie?

4. Ce funcții sunt cel mai des folosite pentru a construi ecuația perechilor?

5. Noe regresie?

6. Care este forma sistemului de ecuații normale a metodei celor mai mici

7. pătrate în cazul regresiei liniare?

8. Cum se calculează indicele de determinare și ce arată acesta?

9. Cum se verifică semnificația unei ecuații de regresie?

10. Cum se verifică semnificația coeficienților ecuației de regresie?

11. Conceptul de interval de încredere pentru coeficienții de regresie.

12. Conceptul de punct și prognoza intervalului conform ecuaţiei de regresie liniară.

13. Cum se calculează coeficientul de elasticitate și ce arată acesta E, coeficient mediu elasticitate Ý ?

Regresie multiplă

1. Ce se înțelege prin regresie multiplă?

2. Cum diferă un model de regresie liniară multiplă de un model de regresie liniară pereche? Notați ecuația de regresie liniară multiplă.

3. Ce probleme sunt rezolvate la construirea unei ecuații de regresie?

4. Ce probleme sunt rezolvate la specificarea unui model?

5. Care sunt cerințele pentru factorii incluși în ecuația de regresie?

6. Ce se înțelege prin coliniaritate a factorilor?

7. Cum se verifică coliniaritatea?

8. Ce abordări sunt folosite pentru a depăși corelația interfactorilor?

9. Ce funcții sunt cele mai des folosite pentru a construi o ecuație? regresie multiplă?

10. Ce formulă se utilizează pentru a calcula indicele de corelație multiplă?

11. Cum se calculează indicele de determinare multiplă?

12. Care este coeficientul de determinare? Cum poate fi folosit pentru a evalua caracterul adecvat al modelului?

13. Ce înseamnă valoare mica coeficient de corelație multiplă?

14. Cum se verifică semnificația ecuației de regresie și a coeficienților individuali?

15. Cum se construiesc ipotezele pentru a testa semnificația parametrilor modelului?

16. Cum se construiesc ecuațiile de regresie parțială?

17. Cum se calculează coeficienții medii de elasticitate parțială?

18. Cum se construiesc intervalele de încredere pentru parametrii modelului?

19. Ce se înțelege prin homoscedasticitatea unei serii de reziduuri?

20. Cum este testată ipoteza despre homoscedasticitatea unui număr de reziduuri?

21. Cum se numește variabila dependentă într-un model?

22. Cum se numesc variabilele independente în model?

23. Numiți metoda principală de construire a unui model.

24. Scrieți un model de regresie multiplă în vedere generala cu 3 variabile independente

25. Notați suma abaterilor pătrate ale modelului (formula)

26. Ce este RSS? (definiție și formulă)

27. Cum se verifică semnificația modelului construit în ansamblu?

28. Cum se verifică semnificația coeficientului pentru variabila X_3?

29. Formulați semnificația economică a coeficientului de exemplu cu variabila X_5

30. Ce este un „model scurt” de regresie multiplă

Literatură

1. Shanchenko, N. I. Econometrie: atelier de laborator: tutorial/N. I. Shancenko. – Ulyanovsk: Ulyanovsk State Technical University, 2011. – 117 p.

2. Davnis V.V., Tinyakova V.I. Atelier informatic de modelare econometrică. Voronej, 2003. - 63 p.


Datele inițiale caracterizează prețul de vânzare al unui anumit produs în anumite momente în timp. Trebuie construit model de regresie dinamica schimbării acest indicator. Factorii care se crede că influențează această valoare includ prețul de vânzare al produsului de înlocuire, volumul vânzărilor produsului, valoarea costurilor de publicitate și costurile medii de publicitate.

Prețul de vânzare este o cantitate dependentă, să o notăm Y.

Factorii care influențează (probabil) valoarea lui Y vor fi notați cu X i: X 1 – prețul produsului de înlocuire, X 2 – volumul vânzărilor, X 3 – volumul costurilor de publicitate, X 4 – costurile medii de publicitate.

Datele inițiale

Testarea semnificației modelului folosind testul raportului de probabilitate (testul Wald) începe cu formularea ipotezei principale:

Pentru a testa această ipoteză, se calculează statisticile eșantionului

Aici lnL este valoarea maximă a logaritmului funcției de probabilitate, iar lnL0 este valoarea logaritmului funcției de probabilitate dacă ipoteza principală este adevărată.

Dacă ipoteza principală este adevărată, atunci statisticile eșantionului (4.7.1) sunt distribuite conform legii 2 cu (m-1) grade de libertate. Limita regiunii critice din dreapta K2 este căutată folosind tabele de puncte critice chi-pătrat în funcție de nivelul de semnificație (1-b) și (m-1) gradul de libertate. Dacă inegalitatea este valabilă:

atunci ipoteza principală este respinsă, ipoteza alternativă este acceptată și spunem: că modelul este semnificativ statistic.În caz contrar, ei acceptă ipoteza că modelul nu este semnificativ și procedează la revizuirea lui.

Pentru modelele cu alegere binară, semnificația factorilor este verificată prin testarea pentru fiecare factor хi, i=1,…, (m-1) ipoteze de forma:

Eșantionul de statistici care sunt utilizate pentru a testa aceste ipoteze au asimptotic distributie normalași se numesc z-statistici. Limita regiunii critice cu două fețe este căutată folosind tabele Laplace la un nivel de semnificație dat (1-b).

Dacă inegalitatea este valabilă:

K 1

apoi acceptă ipoteza principală despre diferența nesemnificativă față de zero a coeficientului i și concluzionează că factorul corespunzător este nesemnificativ pentru model.

Pentru modelele cu alegere binară, conceptul de coeficient de determinare nu este definit. Totuși, pentru ei se determină un așa-numit pseudo coeficient de determinare, care nu mai caracterizează puterea explicativă a modelului.

Definiție 4.7.1. Pseudo-coeficientul de determinare este următoarea valoare:

Definiție 4.7.2. Indicele raportului de probabilitate McFadden este caracteristica:

Trebuie subliniat că dacă parametrii modelului de alegere binară nu diferă semnificativ de zero, atunci ambii coeficienți introduși sunt egali cu zero.

În prelegere, am analizat modelele de regresie neliniară, în special modelele pentru o variabilă binară dependentă. Am examinat aceste modele pentru două funcții de regresie: logit (am folosit funcția logistică) și probit (am folosit funcția de distribuție a legii standard de distribuție normală). Estimările parametrilor pentru astfel de funcții de regresie sunt obținute folosind metoda probabilității maxime. Modelul este testat folosind testul Wald, care se bazează pe statistici care au o distribuție chi-pătrat. Când am studiat modelele de regresie multivariată, am interpretat estimările parametrilor în j ca efectul marginal al variabilelor independente asupra y. Să revenim la modelele cu alegere binară. Dacă încercăm să găsim derivata lui P(Y=1|X), vom ajunge la următoarea expresie:

unde Z= 0+1x1+...m-1xm-1.

Prin teorema derivatei unei funcții complexe și din proprietatea densității (derivata funcției de distribuție este densitatea de distribuție f(Z)), obținem:

sau, folosind a doua notație pentru estimările parametrilor:

P(Y=1|X)=вjf(Z)

Ca și înainte, bj denotă estimări ale parametrilor necunoscuți.

Apoi, putem raționa astfel: densitatea distribuției este întotdeauna nenegativă, deci semnul derivatei

va depinde doar de semnul estimărilor parametrilor, dar va fi o funcție a tuturor variabilelor independente. Mai mult, dacă estimarea parametrului este pozitivă, atunci o creștere a variabilei xj va duce la o creștere a probabilității

iar dacă estimarea parametrului este negativă, atunci, în consecință, probabilitatea indicată va scădea.

Cometariu. Dacă factorul x este o variabilă binară, atunci conceptul de efect marginal nu poate fi introdus pentru acesta.

Pentru fiecare variabilă x (cantitativă!!!) se introduce așa-numitul efect marginal mediu. Pentru a face acest lucru, calculați mediile eșantionului pentru variabilele cantitative și procentul „1” pentru cele binare și înlocuiți-le în expresia pentru densitatea distribuției în loc de variabile.

O altă întrebare de discuție: cum să preziceți valoarea lui y după estimarea parametrilor modelului logit (probit)? De exemplu, procedați după cum urmează. Înlocuiți valorile găsite ale estimărilor parametrilor și valorile lui xj în Z și calculați valoarea variabilei. Dacă Z>0, atunci considerăm că Y=1, dacă Z<0, то считают, что У=0. Замечание. Мы рассмотрели ситуацию, когда переменная у была измерена в номинальной шкале, но принимала всего два значения: 0 и 1. В общем случае, когда у может принимать несколько значений, например 0, 1, 2, 3, используют множественный (по у!!) логит или пробит. Кроме того, у может быть измерен в порядковой шкале, тогда в Стате используют порядковый логит (пробит) ologit (oprobit).

Cometariu. Foarte des în cercetare este necesar să se efectueze studii pe un eșantion trunchiat. De exemplu, dacă sunt studiate veniturile gospodăriei, există situații în care respondenții cu venituri foarte mari (de exemplu, mai mult de 1 milion de ruble) ar trebui excluși din studiu, adică

În astfel de cazuri, se folosesc modele Tobit.

F(0+1x1+...m-1xm-1)

F(0+1x1+...m-1xm-1)

F(0+1x1+...m-1xm-1)

F(0+1x1+...m-1xm-1) - (F(0+1x1+...m-1xm-1))2