Castiga timp, fa bani - si creste spre succes

ECONOMIE

Economia este o stiinta sociala ce studiaza productia si desfacerea, comertul si consumul de bunuri si servicii. Potrivit definitiei date de Lionel Robbins in 1932, economia este stiinta ce studiaza modul alocarii mijloacelor rare in scopuri alternative. Deoarece are ca obiect de studiu activitatea umana, economia este o stiinta sociala.

StiuCum Home » ECONOMIE » economie generala

Analiza legaturilor intre fenomenele economico-sociale

ANALIZA LEGATURILOR INTRE FENOMENELE ECONOMICO-SOCIALE

Relatia de dependenta intre doua variabile statistice se numeste legatura sau corelatie statistica. Pentru a reconstitui si previziona valorile unei variabile se poate utiliza informatia continuta in valorile unei alte variabile, cu care se afla in corelatie. O variabila Y este explicata prin variatia variabilei X, care devine explicativa. Modelarea variabilitatii unei caracteristici prin variatia unei alte caracteristici, incepe prin cuantificarea gradului de legatura dintre ele. Astfel se poate sti daca exista legatura semnificativa sau nu intre cele doua variabile.

Analiza corelatiei dintre Y si X, unde Y = f(X) poate conduce la masurarea intensitatii unei legaturi functionale sau sesizarea absentei unei legaturi, atunci cand cele doua variabile sunt independente.

Modelarea unei relatii intre doua variabile dependente consta in stabilirea unui model liniar sau neliniar exprimat printr-o functie analitica, care sa descrie cel mai bine aceasta relatie si care sa explice variatia lui Y, in cea mai mare masura posibila.

Metoda grafica ajuta la stabilirea functiei analitice adecvate, indicand natura legaturii: directa sau inversa, precum si forma sa: liniara sau neliniara. Graficul corelatiei dintre doua variabile X si Y se realizeaza reprezentand variabila X, pe axa Ox si variabila Y pe axa Oy. Acest tip de grafic se numeste ²nor de puncte² si poate apare sub una din urmatoarele forme din Figura 6.1:

. . .

. . . .

. . . . . .

. . . .

. . .

a) b)

. . . . .

. . . . . . .

. . . . . . . . . . . . .

. . . . . . . .. . ..

. . . . . .

c) d)

Figura 6.1. Forme de legaturi intre variabile

In graficul din Figura 6.1.a), legatura dintre X si Y este inversa: pe masura ce X creste, Y scade; in acest caz, este indicat modelul liniar, fapt verificat vizual prin trasarea liniei drepte intrerupte. In graficul 6.1.b), legatura este directa: creste X, creste si Y, si se poate aproxima evolutia legaturii lor, dupa o dreapta; modelul ales poate fi cel liniar, Y = a + bX.

Graficul 6.1.c) sugereaza utilizarea unui model neliniar, de exemplu o parabola: Y=a+bX+cX².

Graficul 6.1.d) arata lipsa existentei legaturii intre cele doua variabile: X si Y.

Metodele de analiza a legaturilor intre fenomenele economico-sociale se impart in doua mari categorii:

metode de verificare a existentei, a formei (liniara / neliniara) si a naturii (directa / inversa) legaturilor intre variabile si

metode de masurare a intensitatii legaturilor.

Din prima grupa de metode de verificare a existentei legaturilor dintre variabile, fac parte:

metoda seriilor interdependente, care consta in extragerea de serii de date din diverse surse si analiza lor vizuala, prin compararea lor - are dezavantajul ca sesizeaza numai existenta si eventual, dar nu cu siguranta, natura unor legaturi;

metoda gruparilor, care presupune sistematizarea datelor in tabele combinate dupa 2-3 caracteristici (un numar mai mare ar conduce la faramitarea colectivitatii si pierderea aspectelor esentiale) astfel: in cadrul primei caracteristici de grupare, X, pentru fiecare varianta x_i, se inscriu toate variantele caracteristicii Y, cu care se afla in corelatie, eventual frecventele comune variantei x_i si fiecarei variante y_j, adica frecventele f_ij, apoi pentru fiecare varianta y_j se inscriu toate variantele z_k, ale variabilei Z, cu eventual, frecventele comune f_ijk s.a.m.d. - prezinta dezavantajul ca nu verifica decat existenta si eventual natura legaturilor;

metoda grafica, care este cea mai buna dintre metodele de verificare a existentei legaturii dintre doua variabile x si y; graficul norilor de puncte ofera informatii privind existenta, forma si natura (directia) legaturii;

tabelul de corelatie reprezinta o combinare a metodei gruparilor si a metodei grafice. Se alcatuieste un tabel in care, pe orizontala, in capatul coloanelor se inscriu crescator de la stanga spre dreapta variantele caracteristicii x (corespunzator axei Ox), iar pe verticala, in capatul liniilor, se inscriu descrescator de sus in jos, variantele caracteristicii y (corespunzator axei Oy). Concentrarea frecventelor din interiorul tabelului, de-a lungul primei, respectiv a celei de a doua diagonale, sugereaza existenta si natura legaturii directe sau inverse.

analiza dispersionala, care prin intermediul testului Fisher poate stabili daca variabila X influenteaza semnificativ variatia caracteristicii Y, oferind doar informatii privind existenta legaturii, dar nu si despre forma sau despre natura sa;

metoda balantelor, care consta in construirea unor tabele input-output (tabele cu dubla intrare) realizate pentru a surprinde legaturi intre indicatorii macroeconomici agregati; interpretarea corelatiilor se face dupa cadranele care se formeaza in aceste tabele; de exemplu ramurile economiei nationale sunt trecute atat ca ramuri producatoare, pe linii, cat si ca ramuri consumatoare, pe coloane, iar elementele de pe diagonala reprezinta consumul intern al ramurii respective, adica ceea ce se produce si se consuma in interiorul ei;

tabelul de asociere, care se poate realiza pentru caracteristici cu doua variante, de natura calitativa. Variabilele numerice se pot transforma in caracteristici calitative daca cele doua variante se considera ca fiind: sub nivelul mediu / peste nivelul mediu al variabilei x, respectiv y, dupa cum se vede in Tabelul 6.1.

Variabila x	Variabila y		Total frecvente f_x
Variabila x	Sub	Peste	Total frecvente f_x
Sub	a	b	a+b
Peste	c	d	c+d
Total frecvente f_y	a+c	b+d	(a+b)+(c+d)=(a+c)+(b+d)

Tabelul 6.1. Tabelul de asociere intre variabilele x si y

Grupa a doua a metodelor de masurare a intensitatii legaturilor se impart in metode parametrice si metode neparametrice.

Metodele parametrice se caracterizeaza prin existenta parametrilor functiei analitice, stabiliti prin metoda regresiei, respectiv a indicatorilor de intensitate: coeficientul de corelatie, r si raportul de corelatie, R.

Dintre metodele neparametrice fac parte: coeficientii de corelatie a rangurilor: Spearman si Kendall si coeficientul de asociere.

Tabele de contingenta

O serie bivariata poate fi descrisa fie prin enumerarea perechilor de observari (x_i, y_i), cand numarul unitatilor statistice inregistrate este mic: (y₁, x₁) (y₂, x₂) (y₃, x₃).(y_i, x_i).(y_n, x_n), fie prin prezentarea seriei sub forma de doua siruri:

y₁, y₂, . , y_i, . , y_n

x₁, x₂, . , x_i, . , x_n

Cand numarul unitatilor statistice este mare, se pot stabili distributii de frecvente pentru cele doua variabile X si Y, datele centralizandu-se in tabele statistice.

Pentru acelasi numar de grupe ale caracteristicilor X si Y, cand acestea au frecvente comune, se folosesc tabele simple, ca in Tabelul 6.2.

Grupe dupa variabila X	Grupe dupa variabila Y	Frecvente comune
x₁	y₁	f₁

x_i	y_I	f_i

x_k	Y_k	f_k

Tabelul 6.2. Variabilele X si Y cu frecvente comune

Cand X si Y au un numar diferit de grupe, se folosesc tabele cu dubla intrare, numite tabele de contingenta, ca in Tabelul 6.3.

Frecventele f_ij arata numarul de unitati statistice pentru care valorile variabilei X apartin modalitatii x_i, iar valorile variabilei Y apartin modalitatii y_j. Distributia marginala n_i. a variabilei X nu tine cont de modalitatile variabilei Y, iar distributia marginala a lui Y, n._j nu tine seama de modalitatile variabilei X. Volumul total n.. reprezinta numarul unitatilor statistice inregistrate: .

XY	y₁	y₂	y_j	y_p	n_i	s_y/x
x₁	f₁₁	f₁₂	f_1j	f_1p	n_1.	s

X_i	f_i1	f_i2	f_ij	f_i.	n_i.	s_i

X_k	f_k1	f_k2	f_kj	f_kp	n_k.	s_k
n_.j	n_.1	n_.2	n_.j	n_.p	n_..	s_y

s_x/y	s	s	s_j	s_p	s_x

Tabelul 6.3. Tabelul de contingenta

Un tabel de contingenta este un tabel cu dubla intrare, cu k linii si p coloane sau k distributii conditionate ale lui X si p distributii conditionate ale lui Y.

Pentru o modalitate fixata a 323g66d caracteristicii Y, y_j, perechile (x_i, f_ij) cu i = 1, k definesc o serie unidimensionala a variabilei X conditionata de valoarea y_j, numita distributia conditionata a variabilei X. Media conditionata a variabilei X de varianta , X/, este : , iar dispersia conditionata a lui X/ este: , i = 1, k ; j = fixat.

In mod similar, pentru o modalitate fixata x_i a variabilei X, se poate stabili distributia conditionata a variabilei Y, seria unidimensionala fiind formata din sirurile (y_j, f_ij), unde j=1,p.

Se calculeaza media conditionata a lui Y de valoarea x_i, Y/ x_i: , iar

dispersia conditionata a lui Y/ x_i: , j = 1, p ; i = fixat.

Considerand numarul de grupe egal cu k, numar de linii, se numeste media de grupa i, iar dispersia grupei i.

In cazul unei serii bivariate cu frecvente, graficul norilor de puncte se construieste astfel: pe axa Ox, se reprezinta valorile lui X, iar pe axa Oy, mediile conditionate ale lui Y, , unde i=1,k .

Indicatorii care masoara intensitatea legaturii dintre variabilele X si Y se calculeaza tinand seama de cele trei situatii ale variabilelor X si Y: distributie fara frecvente, distributie cu frecvente comune si distributie de frecvente, proprie fiecarei variabile.

Metoda regresiei

Ajustarea sau modelarea unei serii consta in calculul valorilor teoretice corespunzatoare valorilor empirice, observate. Tehnicile de ajustare utilizeaza cel mai adesea criteriul 'celor mai mici patrate' pentru determinarea parametrilor modelului retinut.

Metoda regresiei consta in alegerea acelei functii analitice, numita functie de regresie, care satisface cel mai bine criteriul minimizarii patratelor abaterilor valorilor observate de la cele teoretice aflate pe curba de ajustare: min; de aceea metoda se mai numeste metoda "celor mai mici patrate". Curba de ajustare poate fi: liniara sau neliniara: hiperbola, exponentiala, logaritmica, parabola, etc.

Daca se doreste modelarea relatiei Y = f(X), atunci se considera Y ca fiind variabila dependenta, endogena, explicata, iar X, ca fiind variabila independenta, factoriala, exogena, explicativa. In cazul in care exista o singura variabila independenta X, metoda este regresia simpla, iar cand exista mai multe variabile exogene X₁, X₂, ,X_n, se foloseste regresia multipla, avand ca scop modelarea relatiei Y = f(X₁, X₂, ., X_n).

Cel mai simplu caz este ajustarea folosind functia liniara: , unde si , sunt parametri ce trebuie determinati. Ecuatia de regresie reprezinta o constructie teoretica pentru variabila Y, prin care se obtin valori teoretice sau estimate pe baza valorilor observate intr-un esantion de date, cu i=1,n. Diferentele dintre valorile observate si cele teoretice calculate, reprezinta erorile si se datoreaza altor factori neinregistrati, altii decat variabila X.

Ecuatia de regresie pentru esantion este: , unde si sunt estimatorii coeficientilor modelului liniar si , iar e_i reprezinta reziduurile, diferentele dintre valorile observate si cele estimate : , iar suma lor trebuie sa fie minima, . Este evident ca suma patratelor reziduurilor este functie de valorile estimatorilor coeficientilor dreptei de regresie : pentru oricare set de date. Alegand valori diferite pentru si (pentru fiecare esantion, acesti estimatori difera) se vor obtine valori diferite ale reziduurilor si deci si pentru . Dandu-se n perechi de observari ale lui y si x, se va construi functia de regresie a esantionului astfel incat sa minimizeze suma reziduurilor, pe cat posibil. Cum , se alege criteriul minimizarii; realizandu-se derivatele partiale in functie de si se obtine sistemul de ecuatii normale:

Rezolvand acest sistem se obtin solutiile: si .

Estimatorii si sunt numiti estimatori "ai celor mai mici patrate", deoarece sunt obtinuti pe baza acestui principiu si sunt estimatori punctuali, pentru ca fiecare furnizeaza o singura valoare relevanta pentru parametrul respectiv al populatiei. Pentru fiecare estimator se cunosc estimatiile abaterilor lor, din tabela de regresie si se pot stabili intervale de incredere, cu o anumita probabilitate.

Parametrul al modelului liniar simplu, se numeste coeficient de regresie si arata cu cat se modifica in medie (creste sau scade, in functie de semnul "+", respectiv "-"), variabila Y, la cresterea cu o unitate a variabilei X. Parametrul arata nivelul mediu al variabilei Y, cand toti ceilalti factori sunt constanti, mai putin variabila X, inregistrata. Estimatorii si ai coeficientilor modelului liniar simplu se pot obtine prin folosirea functiilor statistice Intercept(y,x) si Slope(y,x).

Tabela de regresie

Multe produse informatice: Quattro Pro, SPSS, Excel, etc. rezolva regresia liniara simpla si regresia liniara multipla. Se declara variabila dependenta, variabila sau variabilele independente si locul pe spreadsheet (celula reprezentand coltul din stanga sus) unde se doreste obtinerea tabelei de regresie. Automat se obtine tabela de regresie care va contine indicatorii validitatii modelului, tabelul de analiza a variantei ANOVA si estimatorii parametrilor modelului liniar.

In Excel, pentru a obtine tabela de regresie se alege comanda Tools din linia meniului principal, apoi Data Analysis (daca nu exista printre comenzile meniului Tools, se poate adauga folosind comanda Add-Ins.), care contine un set de proceduri statistice, printre care si Regression.

Figura 6.2. Boxa-dialog pentru procedura Regression

La apelarea acestei proceduri se deschide o boxa-dialog, ca cea din Figura 6.2, formata din doua parti: prima, numita Input, referitoare la declararea blocurilor de date, pentru variabila dependenta Input Y-Range si pentru variabila sau variabilele independente, Input X Range si a doua, numita Output options, referitoare la rezultatele pe care le va contine tabela de regresie.

Pentru obtinerea tabelei de regresie in sheet-ul de lucru, se va marca Output Range si in caseta din dreapta se va specifica o celula care va reprezenta coltul din stanga sus al tabelei de regresie. Celelalte posibilitati pentru aparitia tabelei de regresie pot fi: un alt sheet sau un alt fisier de lucru workbook. Daca nu se marcheaza altceva in afara declaratiilor de blocuri si locul tabelei, se va obtine o tabela de forma celei din Figura 6.3. In exemplul din Figura 6.3 s-au considerat variabilele y=f(x), care reprezinta cheltuielile saptamanale de consum, exprimate in $/saptamana, y, in functie de x, veniturile / familie in $/saptamana, pentru 10 familii (in partea dreapta a ecranului prezentat).

Figura 6.3. Tabela de regresie pentru variabilele x si y

Interpretarea tabelei de regresie consta in analiza rezultatelor sale astfel:

Multiple R, este coeficientul de corelatie multipla, in acest caz de corelatie simpla intre x si y; valoarea r = 0,98 indica o legatura puternica si directa intre cheltuielile si veniturile saptamanale.

R Square, este coeficientul de determinatie, care arata validitatea modelul ales, pentru explicarea variatiei lui y; Multiple R se obtine din R Square: , iar in acest exemplu este o valoare apropiata de 1, indicand ca modelul este bine ales, veniturile, x, explica variatia cheltuielilor, y, intr-o proportie de 96%.

Adjusted R Square, este un coeficient de determinatie corectat cu grade de libertate si are aceeasi semnificatie ca si .

Standard Error este eroarea standard si arata cu cat se abat in medie valorile observate y_i, de la valorile teoretice aflate pe dreapta de regresie, (in acest caz cu ±6,493). Aceasta valoare ridicata la puterea a 2-a reprezinta dispersia reziduurilor.

Observations este n, numarul de observari, aici n=10.

ANOVA reprezinta tabelul de analiza a variantei. Pentru varianta datorata factorului x, Regression, varianta reziduala, datorata celorlalti factori neinregistrati, Residual, si varianta totala, datorata tuturor factorilor, Total, se specifica:

df (degrees freedom), gradele de libertate: k - numarul de variabile explicative x (fiind regresie simpla k=1, in B74, pentru un singur factor x), n-k-1 pentru reziduuri (10-1-1=8 grade de libertate, in B75) si n-1 pentru total variatie (10-1=9, in B76); Suma df pentru Regression si Residual este egala cu df pe Total: k + (n - k - 1) = n - 1.

SS, prescurtarea de la Sum Square, adica suma patratelor abaterilor, numite variante, astfel:

Regression: , in C74

Residual: , in C75

Total: , in C76.

Intre aceste variante exista relatia: Total=Regression+Residual, adica .

MS, prescurtarea de la Modified Sum, numite sume modificate, de fapt, dispersii modificate:

Regression: , in D74, dispersia datorata modelului de regresie ales,

Residual: , in celula D75, dispersia reziduurilor, care este egala cu continutul celulei B69 ridicat la patrat,

F, testul Fisher de semnificatie globala a regresiei, in celula E74, reprezinta raportul dintre cele doua dispersii corectate cu gradele de libertate, din celulele D74 si D75: .

Significance F, in celula F74, reprezinta pragul de semnificatie α, de la care valoarea testului F devine semnificativa: este o valoare foarte mica, deci α=0, iar probabilitatea 1-α=1, indica probabilitatea de 100%, ca regresia sa fie global semnificativa.

In ultima parte a tabelei apar coeficientii modelului liniar: Intercept, fiind termenul liber, care poate sa fie zero, daca se opteaza pentru Constant is zero in boxa-dialog si coeficientii pentru fiecare variabila explicativa, in acest caz numai unul, X Variable 1.

In celulele B79 si B80 sunt valorile Coefficients, iar in C79 si C80 apar abaterile standard ale coeficientilor, Standard Error, apoi in D79 si D80 sunt calculate valorile t Student, numite t Stat, ca raport intre coeficienti si abaterile lor, iar P-value, reprezinta pragul de semnificatie α, de la care valorile coeficientilor devin semnificativ diferite de 0. In E79 se citeste valoarea α = 0,0051 sau α = 0,51%, deci se poate afirma cu o probabilitate 100 - α de 99,49% ca valoarea intercept-ului este semnificativ diferita de 0. In E80, P-value pentru coeficientul variabilei x conduce la aceeasi concluzie. In plus se observa ca valoarea P-value este aceeasi cu cea din Significance F, pentru ca fiind o regresie simpla, semnificatia globala se reduce la semnificatia coeficientului variabilei explicative.

In coloanele F, G, H si I, in liniile 79 si 80, tabela de regresie contine intervalele de incredere ale estimatorilor coeficientilor modelului, pentru probabilitatile de 95% si 90%. Pentru probabilitatea 95%, intervalele de incredere apar implicit; pentru probabilitatea 90%, s-a solicitat in boxa-dialog a regresiei prin marcarea in casuta Confidence Level, in care s-a declarat 90%, altfel in mod implicit in coloanele H si I, ar fi aparut aceleasi intervale ca cele din coloanele F si G, pentru 95% probabilitate.

Modelul liniar va contine estimatorii obtinuti cu acest esantion de date: .

Tabela de regresie poate fi mai mare, dispunand in plus de tabelele Residual Output si Probability Output, in functie de optiuni, dupa cum se vede in Figura 6.4, pentru exemplul anterior.

Figura 6.4. Optiuni suplimentare ale tabelei de regresie

Daca in zona de Output se marcheaza optiunile pentru Residuals, in Figura 6.4 se obtin valorile teoretice prin modelul liniar estimat, in blocul de celule B87:B96 si reziduurile, ca diferente intre valorile y observate si aceste valori teoretice, estimate, in blocul C87:C96. Daca se alege in boxa-dialog si optiunea Standardized Residuals, atunci in coloana D apar automat reziduurile standardizate, care se pot obtine, altfel, prin impartirea reziduurilor la abaterea lor standard (media reziduurilor este 0). Abaterea standard este furnizata de functia STDEVP(C87:C96).

Optiunile Residual Plots si Line Fit Plots conduc la cele doua grafice, care apar in Figura 6.4: primul conduce la concluzia, dupa forma norului de puncte, ca nu exista corelatie intre variabila x si reziduuri, adica modelul este bine ales, iar al doilea grafic prezinta valorile observate si cele estimate (aflate pe dreapta de regresie) ale variabilei dependente y.

Normal Probability Plots conduce la rezultatele din blocul F84:G96 si un grafic corespunzator.

Pentru regresia multipla in boxa-dialog a regresiei, se declara la Input X-Range, blocul variabilelor explicative, care trebuie sa fie situate in coloane adiacente, pentru a putea forma un bloc compact. Coeficientii variabilelor explicative sunt furnizati de tabela de regresie in ordinea succesiunii variabilelor explicative in blocul declarat.

Ajustarea neliniara

In cazul cand modelul este neliniar, se poate recurge la liniarizarea relatiei pentru a facilita calculul estimatorilor parametrilor modelului. Ajustarea polinomiala este mai delicata, pentru ca intervine un polinom de grad mai mare.

Calculul coeficientilor de ajustare pentru functia putere: y = a x^b, pot fi obtinuti printr-o ajustare liniara, prin aplicarea functiei logaritmice celor doi membri ai relatiei: . Variabila dependenta se considera seria , iar ca variabila dependenta seria . Estimatorul se stabileste dupa ce s-a obtinut , ca fiind , iar estimatorul . Cu valorile obtinute se pot stabili valorile teoretice ale variabilei Y: .

Coeficientii unei ajustari exponentiale: Y = a b^x, pot fi obtinuti prin utilizarea acelorasi variabile transformate: . Variabila dependenta se considera seria , iar ca variabila dependenta seria , observata in esantion. Estimatorul se stabileste dupa ce s-a obtinut , ca fiind , iar estimatorul . Cu valorile obtinute se pot stabili valorile teoretice ale variabilei Y: .

Coeficientii unei ajustari parabolice pot fi obtinuti prin liniarizarea ecuatiei de gradul doi: . Aplicarea metodei regresiei presupune , unde X se considera , iar se considera . Cu ajutorul procedurii Regression, se declara variabila dependenta Y si blocul variabilelor independente, ca fiind format din blocurile-coloane adiacente ale variabilelor si . Se obtine tabela de regresie cu estimatorii , si pentru parametrii a, b si c. Valorile teoretice calculate se vor situa pe o parabola.

Coeficientul de corelatie simpla

Intensitatea legaturii dintre X si Y se masoara utilizand coeficientul de corelatie liniara, r. Coeficientul de corelatie, r, arata gradul de influenta a variabilei X asupra variatiei variabilei Y, si se calculeaza astfel: , unde covarianta este , iar

- abaterea standard a variabilei X si - abaterea standard a variabilei Y.

Formula coeficientului de corelatie devine astfel: .

Inlocuind abaterile standard din formula lui r, se obtine formula de calcul simplificat a lui r:

Coeficientul de corelatie ia valori intre -1 ≤ r ≤ 1. Daca legatura intre X si Y este inversa, semnul lui r este negativ, daca legatura este directa, semnul este pozitiv. O valoare a lui r cat mai apropiata de ±1, arata o legatura puternica intre X si Y; o valoare apropiata de 0 arata lipsa legaturii. Interpretarea coeficientului de corelatie se face astfel:

0 £ r < 0,2 - lipsa unei legaturi;

£ r < 0,5 - legatura de intensitate slaba;

£ r < 0,75 - legatura de intensitate medie;

£ r < 0,95 - legatura de intensitate puternica;

£ r < 1 - legatura foarte puternica, aproape de tip determinist.

Aprecierea intensitatii legaturii dintre doua variabile se face tinand cont de intervalul in care se incadreaza coeficientul de corelatie.

In cazul cand seriile de date au distributii de frecvente comune, coeficientul de corelatie liniara simpla este:

Cand seriile de date pentru variabilele X si Y au distributii proprii de frecvente, coeficientul de corelatie este:

Cand seriile de date ale variabilelor X si Y, provin dintr-un esantion, se poate testa semnificatia coeficientului de corelatie prin calculul unei valori: . Aceasta valoare calculata se compara cu o valoare teoretica din tabelul repartitiei Student, corespunzatoare unui anumit prag de semnificatie fixat, a (riscul de a gresi) si n - 2 grade de libertate. Daca valoarea > t_{n-2 grade libertate} , se apreciaza ca fiind semnificativa valoarea coeficientului de corelatie, r. In caz contrar r este nesemnificativ si nu se pot formula concluzii privind intensitatea legaturii dintre cele doua variabile, pe baza datelor din acel esantion.

Raportul de corelatie. Coeficientul de determinatie.

Un alt indicator care masoara intensitatea legaturii intre X si Y este raportul de corelatie, R, care se calculeaza ca radical din coeficientul de determinatie, R². R² se obtine ca raport intre dispersia lui Y pe seama lui X sau dispersia explicata de model, notata si dispersia totala a lui Y, .

R²arata in ce masura modelul ales explica variatia lui Y, altfel spus, este o masura a validitatii modelului. 0 ≤ R² < 1, cu cat este mai apropiat de 1 cu atat modelul este mai bun. Raportul de corelatie are semnul coeficientului de regresie, , si are aceeasi semnificatie ca si coeficientul de corelatie, r.

Frecventele variabilelor X si Y, apar in formule, langa variabilele pe care le reprezinta.

In cazul legaturii liniare, raportul de corelatie si coeficientul de corelatie sunt egali: R = r. Aceasta egalitate este un test al liniaritatii legaturii. In caz de inegalitate rezulta ca legatura nu este liniara si trebuie cautata o alta functie analitica pentru modelarea legaturii intre X si Y.

Coeficientul de determinatie R pentru datele grupate, este dat de formula:

sau .

Curba regresiei variabilei Y in functie de X, este formata de punctele care au pe abscisa diferite valori ale lui X si pe ordonata mediile conditionate ale variabilei Y/X , permitand studierea influentei lui X asupra lui Y, la nivel de medii conditionate.

In cazul legaturilor neliniare, coeficientul de corelatie, r, se transforma in raport de corelatie. Daca modelul contine mai multe variabile explicative, R se numeste raport de corelatie multipla, iar r, coeficient de corelatie multipla.

Functia de regresie este utila pentru previziunea variabilei Y, cunoscand valorile variabilei X.

Coeficientii de corelatie a rangurilor. Coeficientul de asociere.

Coeficientii de corelatie a rangurilor se utilizeaza, cand una din variabile este nenumerica, sau ambele sunt numerice, dar au un numar relativ redus de variante, cu distributii asimetrice. Variabila x se ordoneaza crescator si i se atribuie rangurile 1,2,..n, iar variabila y, primeste rangurile corespunzatoare, crescator daca legatura este directa si descrescator daca legatura este inversa.

Coeficientul de corelatie a rangurilor al lui Spearman se calculeaza dupa formula: , unde , este diferenta dintre ranguri.

Coeficientul de corelatie a rangurilor al lui Kendall, se calculeaza dupa formula: , unde S este un "scor", obtinut astfel: . Variabila P reprezinta numarul rangurilor aflate in concordanta:, iar Q reprezinta numarul rangurilor aflate in discordanta: , cu i=1,n. La stabilirea variabilelor si , se considera seria de ranguri a variabilei y. Astfel reprezinta numarul rangurilor mai mari urmatoare decat cel considerat , iar , numarul rangurilor mai mici urmatoare decat cel considerat.

Intre cei doi coeficienti exista relatia . Coeficientii de corelatie a rangurilor au valori cuprinse intre 1; cu cat sunt mai apropiati de valorile extreme cu atat legatura intre cele doua variabile x si y, este mai puternica, de sens direct daca semnul este pozitiv si de sens invers, daca este negativ si cu cat este mai apropiat de zero cu atat legatura este mai slaba.

Coeficientul de asociere se calculeaza pe baza frecventelor stabilite intr-un tabel de asociere de forma Tabelului 6.1, iar formula este: . Coeficientul C poate sa ia valorile:

+1, cand arata asociere completa de sens direct,

-1, asociere completa de sens invers si

0, lipsa asocierii.

Exemple de utilizarea a coeficientilor de corelatie a rangurilor si a coeficientului de asociere se regasesc in exercitiile propuse si rezolvate mai jos (nr. 6).

Exercitii

Se cunosc informatiile urmatoare despre evolutia traficului de marfa (tone-km) si a Venitului National (mild. lei).

Incasari din trafic marfa (tone-km)

Venit National

(mld. lei)

a) Sa se traseze graficul corelatiei dintre cele doua variabile si sa se modeleze legatura.

b) Sa se verifice semnificatia coeficientului de corelatie pentru o probabilitate de 95%.

Un cercetator face afirmatia ca exista o legatura liniara intre temperatura atmosferica si vanzarile de gaze pentru incalzirea locuintelor. Pentru verificarea acestei afirmatii, el foloseste doua serii de date de la Institutul de Meteorologie.

Luna	Oct.	Noi.	Dec.	Ian.	Feb.	Mar.	Apr.	Mai
Temp. T (˚)
Gaz V (mil.m³)

a) Sa se studieze corelatia dintre temperatura atmosferica si vanzarile de gaze pentru incalzirea locuintelor.

b) Sa se verifice semnificatia coeficientului de corelatie pentru probabilitatea 90%.

c) Stiind ca in septembrie, anul urmator, temperatura medie va fi 10˚ C, care este valoare previzionata pentru vanzarea de gaz obtinuta prin modelul liniar stabilit inainte.

d) Dar previziunea pentru luna ianuarie anul urmator, cand temperatura medie va fi de 0˚C?

Tabelul urmator arata evolutia a doi indicatori macroeconomici exprimati sub forma de indici de modificare, fata de baza aleasa ca fiind perioada a 2-a:

Perioada	PIB	Importuri

Se propune o ajustare a importurilor (Y) in raport cu PIB (X), prin functia putere: Y = a X^b

Se propune prezentarea evolutiei in raport cu timpul, t, a cantitatii vandute, Q, dintr-un produs, intr-un mediu economic favorabil, printr-o relatie de forma: Q = ab^t. Pentru determinarea valorilor a si b se dispune de urmatoarele date:

Timpul t	3 4 5 6 7 8 9 10 11
Cantitatea Q	35 65 125 260 505 1.035 2.050 4.100

Sa se calculeze valorile teoretice prin modelul ales.

Despre un esantion de 435 de muncitori se cunosc date privind vechimea si timpul mediu nelucrat pe un schimb.

Grupe de muncitori dupa vechime (ani)	Subgrupe muncitori dupa timpul nelucrat (minute)	Total
Grupe de muncitori dupa vechime (ani)
Sub 10

Peste 20
Total

a) Sa se calculeze timpul mediu nelucrat pe grupe de vechime si pe total colectivitate; sa se arate daca aceste marimi sunt reprezentative.

b) Sa se arate daca vechimea reprezinta un factor semnificativ pentru variatia timpului nelucrat, folosind testul Fisher si coeficientul de determinatie.

c) Sa se aplice metoda regresiei pentru alegerea unui model adecvat.

d) Sa se calculeze coeficientul de corelatie si raportul de corelatie intre vechimea in munca si timpul mediu nelucrat pe un schimb.

Pentru 10 familii s-au inregistrat veniturile x_i si cheltuielile de consum, y_i, in mii lei pe saptamana. Veniturile si cheltuielile difera in functie de numarul de membri salariati si nesalariati ai unei familii, de educatie si obiceiuri, etc.: (mii lei)

Venitul/sapt./familie	Cheltuieli consum/sapt.

a) Sa se utilizeze metoda regresiei in analiza legaturii dintre cheltuielile de consum si venituri.

b) Sa se calculeze coeficientul de corelatie, raportul de corelatie si coeficientul de determinatie al legaturii dintre cele doua variabile.

c) Sa se traseze graficul variabilei cheltuieli de consum (y) in functie de venituri (x), si al valorilor teoretice situate pe curba de regresie.

d) Sa se utilizeze tabelul de asociere si sa se calculeze coeficientul de asociere.

e) Sa se masoare intensitatea legaturii dintre x si y, utilizand metodele neparametrice, coeficientii de corelatie a rangurilor: Spearman si Kendall.

Fie r_i, coeficientul de corelatie intre N perechi si r₂, coeficientul de corelatie intre N perechi , unde a, b, c, d sunt constante. Sa se arate ca r₁ = r₂ si sa se stabileasca principiul dupa care: coeficientul de corelatie este invariant fata de schimbarea originii.

Obs: Operatiile ax_i, x_i+ b si ax_i + b sunt cunoscute ca fiind: schimbarea scalei, a originii, respectiv, schimbarea ambelor.

Pe baza a 10 observari s-au obtinut rezultatele: åy_i åx_i

åx_i y_i åx_i² åy_i ²= 132.100 si r = 0,9758.

Care este efectul inlocuirii a doua observari din situatia (1) cu cele din situatia (2) si care este noul coeficient de corelatie ?

Daca r, coeficientul de corelatie intre N perechi de valori (x_i, y_i) este pozitiv, atunci inseamna ca:

a) r intre (-x_i, -y_i) este de asemenea pozitiv;

b) r intre (-x_i, y_i) si cel intre (x_i, - y_i) poate fi fie pozitiv, fie negativ;

c) Atat coeficientul de regresie b_xy, cat si b_yx, sunt pozitivi, unde b_yx este coeficientul de regresie pentru y = f(x) si b_xyeste coeficientul regresiei x = f(y).

Sa se argumenteze raspunsul: fals sau adevarat, pentru afirmatiile de mai sus.

Daca x₁, x₂ si x₃ sunt variabile necorelate, fiecare avand aceeasi abatere standard, s, sa se arate ca valoarea coeficientului de corelatie al variabilelor x₁+ x₂ si x₂+ x₃ este 1/2. De ce coeficientul de corelatie nu este 0?

Sa se realizeze o regresie pe variabile standardizate: si , unde i=1, n. Ce se observa in modelul , (u_i = erori). Sa se foloseasca datele din problema 6.

Rezolvari

1a) Graficul incasarilor din traficul de marfa in functie de Venitul National, in Figura 6.5, are VN pe axa Ox si incasarile pe Oy, arata un nor de puncte avand un aspect liniar. Pentru datele din tabel, panta dreptei de ajustare liniara, este: ; ordonata la origine este . Modelul liniar este: . Coeficientul de corelatie este r = 0,815, indicand o legatura directa si puternica intre incasarile din traficul de marfa si VN. Coeficientul de determinatie R², este 0,66 aratand ca VN explica variatia incasarilor din trafic, intr-o proportie de 66%.

Figura 6.5. Corelatia dintre traficul de marfa si venitul national

Tabelele de regresie prezentate mai jos sunt obtinute cu ajutorul a doua produse informatice: Quattro Pro si Excel, in Tabelele 7.4, respectiv 7.5.

Trafic, y_i	VN, x_i	Regression Output
		Constant
		Std Err of Y Est
		R Squared
		No. of Observations
		Degrees of Freedom

		X Coefficient(s)
		Std Err of Coef.

Tabelul 6.4. Tabela de regresie din Quattro Pro

SUMMARY OUTPUT
Regression Statistics
Multiple R
R Square
Adjusted R Square
Standard Error
Observations

ANOVA	df	SS	MS	F	Significance F
Regression
Residual
Total

	Coefficients	Std.Error	t Stat	P-value	Lower 95%	Upper 95%
Intercept
X Variable 1

Tabelul 6.5. Tabela de regresie din Excel

Valorile teoretice din Tabelul 6.4 sunt prezentate in Figura 6.6, impreuna cu valorile observate ale incasarilor.

Figura 6.6. Corelatia liniara dintre traficul de marfa si venitul national

1b) Coeficientul de corelatie r este valoarea Multiple R din tabela de regresie, r=0,815. Semnificatia coeficientului de corelatie se testeaza cu ratia Student, obtinuta prin formula . Valoarea calculata este t , iar valoarea teoretica este 2,447.

Cum t > t^a_{6 grade de libertate} , se considera r ca fiind semnificativ diferit de zero, pentru a

2a) Graficul seriilor: volumul vanzarilor de gaz pe ordonata si temperatura pe abscisa, arata un nor de puncte avand un aspect liniar. Legatura este liniara si inversa, pe masura ce creste temperatura atmosferica, scade volumul vanzarilor de gaz, dupa cum se vede in Figura 6.7.

Figura 6.7. Corelatia inversa dintre vanzarile de gaz si temperatura atmosferica

Temp. x_t	Gaz, y_t	Regression Output
		Constant
		Std Err of Y Est
		R Squared
		No. of Observations
		Degrees of Freedom

		X Coefficient(s)
		Std Err of Coef.

Tabelul 6.6. Calculul parametrilor modelului de regresie liniara simpla

Ecuatia de regresie este: , unde reprezinta vanzarile estimate de gaz, in luna i, iar x_i, temperatura observata in luna i.

2b) Coeficientul de corelatie indica o legatura puternica, de sens invers, r = -0,9878 Valoarea t = 15,57 > t^a_tabelar, care reprezinta valoarea teoretica a ratiei Student. Pentru a = 10% aceasta valoare este t^a_{6 grade de libertate} = 1,943. Coeficientul de corelatie este semnificativ diferit de zero.

2c) Pentru luna septembrie a anului urmator

2d) Nici unul din raspunsuri nu este convenabil; un model nu este aplicabil decat in intervalul de valori al variabilei explicative, observate in mod real.

Dupa liniarizare: ln(y) = ln(a) + b ln(x), se rezolva ca o regresie liniara simpla: , unde y^*este ln(y), x^* este ln(x), parametrul a este , iar b este coeficientul lui x obtinut cu regresia liniara simpla. Graficul de tip XY (Scatter) in Figura 6.8, al celor doua variabile, determina alegerea functiei putere.

Figura 6.8. Corelatia directa dintre importuri si PIB

Tabela de regresie simplificata (mai restransa) este furnizata de Quattro Pro, in Tabelul 6.7, pe baza datelor din Tabelul 6.8, declarandu-se ca variabila dependenta, ln(y) si ca variabila independenta ln(x). Coeficientul b este aproximativ 1,95.

Regression Output
Constant
Std Err of Y Est
R Squared
No. of Observations
Degrees of Freedom
X Coefficient(s)
Std Err of Coef.

Tabelul 6.7. Tabela de regresie simpla

Tabelul 6.8 cuprinde valorile teoretice calculate si prin modelul liniar si apoi antilogaritmarea valorilor pentru obtinerea si prin utilizarea directa a modelului neliniar, functia putere.

Coeficientul a se obtine din a^*, astfel si b =1,95.

Perioada	PIB, x_t	Import, y_t	ln(y)	Ln(x)

Tabelul 6.8. Datele observate, transformate si ajustate

Figura 6.9. Ajustarea seriei prin functia putere

Valorile se obtin din , folosind a^* si b determinati in tabela de regresie. Valorile se obtin in doua feluri, fie: , fie folosind functia putere. Valorile teoretice sunt aceleasi si sunt reprezentate pe acelasi grafic cu valorile empirice y_i, in Figura 6.9. Se observa pe grafic, ca functia putere este un model foarte bine ales, fapt dovedit si de valoarea apropiata de 1, a coeficientului de determinatie, R²=0,9973, R Squared din tabela de regresie.

Relatia y = ab^x se liniarizeaza prin logaritmare: ln(y) = ln(a) + x ln(b); se realizeaza regresia liniara, declarandu-se ca variabila dependenta ln(y) si ca variabila dependenta x, variabila t, timpul. In Tabelul 6.9 sunt extrase cele mai importante informatii din tabela de regresie furnizata de Excel.

Antilogaritmand ln(a) si ln(b) se obtin estimatorii a = 2,0077 si b = 1,9998, deci relatia se poate scrie sub forma . Estimatorul a se obtine cu functia @EXP(), unde ca argument se utilizeaza celula care contine valoarea Intercept, iar b, prin @EXP(), avand ca argument celula ce contine coeficientul X Variable 1.

SUMMARY OUTPUT		Regression Statistics
Multiple R
R Square
Adjusted R²
Standard Error
Observations

	Coefficients	Std.Err.	t Stat	P-value	Low95%	Up95%
Intercept
X Variable 1
a=
b=

Tabelul 6.9. Calculul parametrilor modelului liniar

Datele observate si cele teoretice sunt prezentate in graficul din Figura 6.10, indicand clar o evolutie neliniara.

Figura 6.10. Evolutia cantitatii vandute

5a) Tabelul cu datele centralizate pe grupe de vechime si timpul nelucrat in minute se afla in blocul de celule A2:E7, in Figura 6.11. In coloana E se afla numarul de muncitori pe grupe de vechime, caracteristica x, numita si distributia marginala a variabilei x, iar pe linia 7, se afla distributia marginala a caracteristicii y, totalul muncitorilor pe variante de timp nelucrat pe un schimb (valorile bold-uite).

In celula F4, se scrie formula =SUMPRODUCT(B$2:D$2;B4:D4)/E4 pentru calculul primei medii de grupa si apoi se copiaza pentru celelalte doua grupe si pentru ansamblul colectivitatii; in celula F7 se obtine media colectivitatii generale, (valoarea marcata bold).

Figura 6.11. Analiza dispersionala

Se observa ca valorile mediilor pe grupe scad pe masura ce creste vechimea in munca; muncitorii mai experimentati pierd mai putine minute in timpul procesului tehnologic. Cei mai tineri se situeaza aproape de varianta maxima a timpului pierdut, cei cu vechimea intre 10 si 20 de ani sunt mai aproape de varianta de mijloc a caracteristicii y, iar cei mai in varsta se situeaza in jurul primei variante, fapt care se poate observa pentru fiecare grupa, privind concentrarea frecventelor mari in jurul variantelor respective.In blocul G4:G7, sunt calculate dispersiile de grupa, respectiv dispersia colectivitatii totale, sau ; pentru aceasta din urma se poate citi formula in caseta Formula Bar din Figura 6.11. Aceasta formula se scrie o singura data in celula G4, =SUMPRODUCT((B$2:D$2-F4)^2;B4:D4)/E4 si apoi prin copierea pe verticala se schimba liniile exact cum trebuie. Se observa ca dispersia cea mai mare este pe total colectivitate, iar dintre grupe, cea mai mare este in interiorul grupei a doua, cu vechimea intre 10 - 20 ani. In coloanele H si I, sunt calculate abaterile medii patratice, respectiv coeficientii de variatie, pentru fiecare grupa si pe ansamblul colectivitatii.

Prima si a treia grupa de vechime prezinta abateri medii si coeficienti de variatie, mai mici, fiind mai omogene, decat grupa a doua. Toate mediile de grupa si media pe colectivitate sunt marimi reprezentative, pentru ca valorile coeficientilor de variatie sunt mai mici decat 35 - 40%. Indicatorii variatiei, la nivelul fiecarei grupe, reflecta actiunea factorilor intamplatori, neinregistrati, altii decat vechimea, care este constanta la nivel de grupa. Se observa ca pe ansamblul colectivitatii, coeficientul de variatie este mai mare decat oricare din coeficientii de variatie ai grupelor; aceasta conduce la concluzia ca factorul de grupare, vechimea in munca, are un rol semnificativ in formarea variatiei pe ansamblul colectivitatii.

5b) Pentru a testa daca variabila x este semnificativa pentru variatia caracteristicii y, se calculeaza testul Fisher, ca raport intre dispersia dintre grupe si media dispersiilor de grupa, ambele corectate cu gradele de libertate corespunzatoare. Valoarea testului Fisher din celula I14 este cu mult mai mare decat valoarea sa teoretica pentru gradele de libertate din celulele E11 si E10, si pragul de semnificatie, α=5%, fapt ce demonstreaza ca intr-adevar factorul de grupare, vechimea in munca este semnificativ pentru variatia timpului nelucrat. Valoarea teoretica a testului Fisher din celula I15 s-a obtinut cu functia =FINV(0,05;2;432).

In celula D10 din Figura 6.11, se afla media dispersiilor de grupa, , calculata dupa formula =SUMPRODUCT(G4:G6;E4:E6)/E7, iar in D11, se afla dispersia dintre grupe, , calculata prin formula =SUMPRODUCT((F4:F6-F7)^2;E4:E6)/E7. Dispersia totala , din D12 se obtine prin =SUM(D10:D11) si se observa ca este egala cu cea calculata deja in celula G7. Deci se verifica regula de adunare a dispersiilor. Se observa ca este mai mare decat . Raportand fiecare din aceste doua tipuri de dispersii la , se obtin: coeficientul de determinatie, , in celula I11, de aproximativ 60% si cel de nedeterminatie, , in I10, de 40%. Deci vechimea in munca influenteaza variatia timpului irosit intr-un schimb, intr-o proportie de 60%. Restul de 40%, reprezinta influenta altor factori neesentiali, neinregistrati, numiti factori reziduali.

5c) Modelul liniar este sugerat de reprezentarea grafica din Figura 6.12, unde norii de culoare gri reprezinta numarul de muncitori (puncte) situati in grupele corespunzatoare dupa vechime si timpul neclucrat intr-un schimb.

60 85 61

50 35 85 15

40 29 125

Figura 6.12. Legatura inversa dintre timpul nelucrat si vechimea in munca

Se observa ca legatura dintre vechime si timpul nelucrat este de natura inversa, adica pe masura ce creste vechimea in munca, scade timpul mediu nelucrat / schimb.

Aflarea parametrilor modelului liniar se poate rezolva matriceal. Pe baza sistemului de ecuatii normale:

se stabilesc urmatoarele masive: vectorul A al parametrilor functiei liniare, matricea X, a termenilor ce reprezinta coeficientii parametrilor si vectorul Y, al valorilor termenilor liberi, din dreapta ecuatiilor.

Sistemul de ecuatii normale se poate scrie matriceal: AX=Y, de unde vectorul A al termenilor liberi se poate calcula astfel: A=X^-1Y.

In Figura 6.13, in celulele A10:B11, se afla matricea X, cu termenii: n din celula G6, din celula N6 si din B6. Vectorul Y are termenii: din celula G7 si din celula I15. Pentru a obtine aceasta suma dubla, in celula F12 se poate folosi formula =$A3*D$1*D3, semnificand , care se copiaza pana la H12, obtinand valorile in G12 si in H12 si blocul selectat F12:H12 se copiaza in jos pana in linia 14, generand astfel toate valorile . In I12, apasand iconita se obtine functia total pentru prima grupa, adica , care se copiaza pe verticala, in celulele I13 si I14, pentru celelalte doua grupe, avand semnificatia realizarii sumelor dupa indicele j, care parcurge coloanele, variantele y_j. Suma acestor valori din I12:I14, obtinuta in celula I15, semnifica suma dupa indicele i care parcurge grupele x_i.

Figura 6.13. Calculul parametrilor modelului liniar, ajustarea si indicatorii de corelatie

In blocul A14:B15 este calculata inversa matricei X, cu functia MINVERSE, apelata cu iconita f*. Se selecteaza intai locul unde se va depune rezultatul, adica matricea inversata, deci 2 linii x 2 coloane = 4 celule. Apoi se apeleaza functia, se declara matricea X; in Formula Bar apare si pentru a obtine rezultatul se apasa simultan pe trei taste <Ctrl/Shift/Enter>. La eliberarea tastelor, in blocul selectat va apare rezultatul. Inmultirea X^-1Y are ca rezultat vectorul A, de doua elemente. Se selecteaza intai blocul D14:D15, care va contine rezultatul, apoi se apeleaza functia MMULT, pentru inmultirea a doua masive, se declara in ordine intai blocul care contine matricea X^-1, apoi blocul care contine vectorul Y, se apasa simultan tastele <Ctrl/Shift/Enter> si se obtin parametrii modelului liniar. In caz de esec se reia boxa-dialog a functiei MMULT, apasand pe semnul "=", din fata casetei Formula Bar, care inseamna Edit Formula, si se apasa din nou simultan tastele <Ctrl/Shift/Enter>. Modelul liniar este . La trecerea unui an de vechime, timpul mediu nelucrat se micsoreaza in medie cu 0,809 minute.

In blocul O3:O5 s-au calculat valorile teoretice ale timpului mediul nelucrat pe grupe de vechime, cu formula =$D$14+$D$15*A3 scrisa in O3 si apoi copiata pentru celelalte doua grupe. Aceste valori teoretice corespund mediilor de grupa calculate in blocul J3:J5. Media generala din J6, , calculata ca medie a acestor medii ponderate cu volumul fiecarei grupe, cu formula =SUMPRODUCT(J3:J5;G3:G5)/G6 sau ca medie a variabilei y, considerata ca variabila independenta, folosind distributia sa marginala din blocul D6:F6, prin formula =SUMPRODUCT(D1:F1;D6:F6)/G6 este aceeasi cu media mediilor teoretice de grupa, obtinuta in =O6, cu formula =SUMPRODUCT(O3:O5;G3:G5)/G6. Pe grafic, valorile teoretice ale mediilor de grupa ale timpului nelucrat pe grupe de vechime, se situeaza pe o dreapta ca cea din Figura 6.12, trasata punctat.

5d) Pentru a calcula coeficientul de determinatie s-au utilizat ambele formule:

; .

Numitorul se afla in celula B22, calculat cu formula =SUMPRODUCT((D1:F1-J6)^2;D6:F6).

Numaratorul de la prima formula se afla in celula G20, unde s-a facut suma celulelor din blocul G17:G19, acestea la randul lor reprezentand sumele pe grupe ale valorilor , calculate dupa formula =(D$1-$O3)^2*D3, in D17 si apoi copiata, pe linie, pana in F17 si in jos pana in F19. In celula L10, prin formula =1-B21/B22, se obtine valoarea coeficientului de determinatie care arata validitatea modelului. Modelul liniar explica variatia timpului nelucrat pe grupe de vechime, intr-o proportie de 56,57%.

Coeficientul de determinatie obtinut dupa formula a doua, in celula M10, utilizeaza acelasi numitor din celula B22, iar numaratorul se obtine in celula D21, cu formula =SUMPRODUCT((O3:O5-J6)^2;G3:G5). In M10 se afla formula =D21/B22, care ofera aceeasi valoare a coeficientului de determinatie.

Pentru a obtine raportul de corelatie se extrage radical din coeficientul de determinatie, si se obtine in L11, valoarea R=0,752, care indica o legatura de intensitate mare intre cele doua variabile, vechimea in munca si timpul nelucrat, dar de sens invers, pentru ca raportul de corelatie are semnul coeficientului de regresie, care este negativ si atunci R= -0,752. Se calculeaza coeficientul de corelatie liniara, prin formula de calcul simplificat a lui r; se cunosc toti termenii, din calculele anterioare efectuate la obtinerea parametrilor modelului liniar:

In celula L15, se scrie formula =(G6*I15-H6*G7)/SQRT((G6*B6-H6^2)*(G6*G8-G7^2)) si se obtine aceeasi valoare ca si cea a raportului de corelatie. Concluzia este ca r=R, deci legatura este liniara.

6 a, b)

y	x

Tabelul 6.10. Valorile teoretice ale variabilei y

Ecuatia de regresie este: y_i = 24,45 + 0,51x_i + e_i . Tabela de regresie este obtinuta cu ajutorul produsului Excel.

SUMMARY OUTPUT

Regression Statistics

Multiple R

R Square

Adjusted R²

Standard Error

Observations

ANOVA

Significance F

Regression

5,75E-07

Residual

Total

Coefficients

Std. Error

t Stat

P-value

Low 95%

Upp 95%

Intercept

X Variable 1

Tabelul 6.11. Tabela de regresie obtinuta in Excel

Coeficientul de determinatie se citeste din tabela de regresie R Square, 96,21%, dovedeste ca modelul liniar este bine ales pentru modelarea variatiei variabilei y. Coeficientul de corelatie este egal cu raportul de corelatie in cazul legaturii liniare si se citeste din tabela de regresie din rubrica Multiple R, 0,9808 este o valoare apropiata de 1, care arata legatura puternica de dependenta intre x si y.

6 c)

Figura 6.14. Corelatia liniara dintre venituri si cheltuielile de consum

6 d) Se stabilesc mediile: si . Tabelul de asociere este:

	Sub	Peste	Total
Sub
Peste
Total

Tabelul 6.12. Tabelul de asociere al variabilelor x si y

Coeficientul de asociere este 1.

6 e) Coeficientul de corelatie a rangurilor al lui Spearman

Rangul rg(x_i)	Rangul rg(y_i)	d_i = rg(x_i) - rg(y_i)	d_i²










		Suma d_i²
Coeficientul Spearman=0,9757

Tabelul 6.13. Calculul coeficientului lui Spearman

Coeficientul de corelatie a rangurilor al lui Kendall

	Rangul rg(x_i)	Rangul rg(y_i)	P_i	Q_i	P_i - Q_i











Coeficientul lui Kendall = 0,91

Tabelul 6.14. Calculul coeficientului lui Kendall

Valorile apropiate de 1, ale ambilor coeficienti de corelatie a rangurilor, caracterizeaza o legatura puternica, intre cele doua variabile x si y. Coeficientul lui Kendall este mai mic decat cel al lui Spearman.

Formula pentru coeficientul de corelatie intre variabilele y si x este:

Una din proprietatile lui r este ca r_xy = r_yx , adica r este simetric.

Daca se modifica variabilele x in x^* si y in y^*, unde x^*_i= ax_i + b si y^*_i = cy_i + d, unde a, c > 0 , iar b si d sunt constante, atunci exista proprietatea .

schimbarea scalei: x^*_i= ax_i ; y^*_i = cy_i .

schimbarea originii: x^*_i= x_i + b si y^*_i = y_i + d ,

schimbarea scalei si a originii x^*_i= ax_i + b si y^*_i = cy_i + d

Observarile (1) se inlocuiesc cu (2):

	y	x	x²	y²	xy

S

	y	x	x²	y²	xy

S

Coeficientul de corelatie scade, pentru ca in situatia (2) fata de (1). La prima observare, x, scade cu 10 unitati, si y scade tot cu 10 unitati. La a doua observare, x scade cu 10 unitati, iar y in loc scada la fel, creste cu 10 unitati, ceea ce afecteaza r, in sensul diminuarii lui.

;;;;

9 a) Adevarat.

9 b) Fals. r_-x,y< 0 , r_x,-y < 0

9 c) Adevarat. r_xy > 0, rezulta ca intre x si y este legatura directa: cov(x, y) > 0.

y = f(x)

x =f(y)

10) s s s s ; r_x1,x2 = 0 ; r_x1,x3 = 0 ; r_x2,x3 = 0 . Coeficientul de corelatie intre x₁ + x₂ si x₂ + x₃ nu poate fi 0, pentru ca r_x2,x2 = 1.

11) O variabila este standardizata, daca se exprima in termeni de abateri fata de media sa (schimbarea originii; centrarea fata de medie) si se imparte la abaterea sa standard (schimbarea scalei). O variabila standardizata are media 0 si dispersia 1. Coeficientul de regresie din modelul, arata cate unitati de abateri standard ale lui y se schimba in medie, la cresterea variabilei explicative cu o abatere standard a lui x. Regresia dintre valorile centrate fata de medie ale variabilelor y si x, are ca efect obtinerea valorii 0 pentru parametrul a, valoarea Intercept si pentru coeficientul de regresie b, se obtine aceeasi valoare cu cel al regresiei dintre y si x, variabilele initiale. Dreapta de regresie este: y_i=0,51x_i+u_i.

SUMMARY OUTPUT
Regression Statistics
Multiple R
R²
Adjusted R²
Standard Error
Observations
ANOVA	Df	SS	MS	F	Significance F
Regression
Residual
Total
	Coefficients	Std. Error	t Stat	P-value	Low 95%	Up95%
Intercept
X Variable 1

Tabelul 6.15. Tabela de regresie a variabilelor centrate

Regresia dintre variabilele standardizate (implica atat schimbarea originii, cat si a scalei) are ca rezultat obtinerea coeficientului de regresie egal cu coeficientul de corelatie dintre variabilele x si y. Coeficientul de corelatie dintre variabilele standardizate si este acelasi cu r_xy=0,9808.