De la clasic la SEM. Despre corelații și regresii (II/III)

În articolul trecut spuneam că bazele SEM rezidă în corelații și regresii. Cu certitudine, acestea nu mai au secrete. Și totuși… haideți să ne reamintim…

Corelațiile bivariate

Asupra corelațiilor bivariate nu insistăm foarte mult, ele reprezentând o măsură standardizată a legăturii dintre două variabile. În cazul în care ambele variabile sunt scalare și îndeplinesc asumpțiile, atunci vom utiliza cunoscutul coeficient de corelație r Bravais-Pearson, acela confundat de către Karl Pearson cu indicatorul regresiei. Dacă ne referim la aplicațiile coeficientului de corelație r Bravais-Pearson în modelele de ecuații structurale, știm deja că atunci când variabilele sunt scalare iar asumpțiile sunt îndeplinite, acesta va intra în calculul matricii de covarianțe.

Coeficientul de corelație r Bravais-Pearson nu se folosește însă doar în cazul în care cele două variabile sunt scalare, având și câteva forme speciale. Dacă cel puțin una dintre cele două variabile este ordinală sau nu respectă asumpțiile, atunci se va utiliza coeficientul de corelație a rangurilor ρ (rho) Spearman iar dacă una dintre variabile este dihotomică (sau are doar două categorii) iar cealaltă scalară, atunci vom utiliza coeficientul de corelație punct-biserial (rpb) sau biserial, în funcție de natura dihotomiei. În fine, dacă ambele variabile sunt dihotomice sau au doar două categorii, atunci, tot din coeficientul de corelație r Bravais-Pearson, derivă coeficientul ϕ (phi) ce va putea fi utilizat ca măsură a corelației.

Dacă o variabilă este dihotomică iar dihotomia este naturală, discretă, atunci, așa cum am menționat, utilizăm coeficientul de corelație punct-biserial iar în cazul dihotomiei continui se va folosi coeficientul de corelație biserial, acesta din urmă stând la baza coeficientului de corelație poliserial, utilizabil atunci când una dintre variabile are mai mult de două categorii iar cealaltă este scalară sau a coeficientului de corelație tetracoric, folosind când ambele variabile sunt dihotomice, dihotomia fiind una continuă. Mergând mai departe, putem ajunge la coeficientul de corelație policoric, o generalizare a coeficientului tetracoric pentru situația în care cele două variabile sunt categoriale iar una dintre ele are mai mult de două categorii.

Corelațiile parțiale

Acestea sunt formele de corelație pe care le vom putea utiliza în SEM atunci când construim matricile de covarianță, însă ne vom confrunta cu faptul că avem de a face nu doar cu două variabile, ci cu mai multe, situație în care simplele corelații bivariate nu ne sunt de prea mare ajutor, deoarece apare un fenomen interesant, acela de falsă legătură sau falsă corelație (spurious correlation). Spre exemplu, am putea concepe un studiu în care să investigăm legătură dintre emotivitate și notele la examen, constatând existența unei corelații statistic semnificative (rEmEx = -0,63), negativă și cu o mărime medie a efectului. Înainte de a trage concluzia că notele mici sunt legate de emoțiile din timpul examenului, am putea investiga și legătura dintre notele la examen și timpul alocat studiului, găsind o altă corelație statistic semnificativă, (rTmEx=0,79), pozitivă și având un efect puternic.

Iată că, acel efect mediu între emoții și notele de la examen indică o falsă legătură, deoarece nu am luat în considerare timpul alocat învățării. Dacă vom afla coeficientul de corelație dintre timpul alocat studiului și emoțiile la examen (rTmEm=-0,45) și vom elimina (izola) influența timpului de învățare asupra legăturii dintre emotivitate și notele la examene, vom ajunge la așa-numitele corelații parțiale.

Vom constata că, într-adevăr, dacă eliminăm influența timpului de studiu, corelația dintre emoțiile la examene și nota obținută rămâne statistic semnificativă (rExEm.Tm=-0,50), însă nu este atât de puternică. Ne putem pune întrebarea de ce anume se întâmplă acest lucru? Ce face ca efectul să se reducă atunci când mai adăugăm încă o variabilă? Pentru a înțelege mai ușor procesul, vom utiliza o reprezentare grafică specială, anume diagramele Venn. Acum devine clar faptul că, asociind doar nota la examen și emotivitatea, varianța comună este mai mare, deoarece include și partea de varianță explicată de timpul de studiu. Dacă eliminăm partea de varianță explicată în comun de timpul de studiu și de emotivitate, izolând efectul timpului de studiu, atunci și varianța explicată doar de emotivitate se va reduce, acesta fiind efectul determinat de corelația parțială (rExEm.Tm=-0,50).

Corelațiile parțiale pot fi generalizate prin controlul nu doar a unei singure variabile, ajungându-se la corelațiile de ordin supraunitar, numite și corelații semi-parțiale (part correlation). Fără a mai detalia, să presupunem că dorim să estimăm legătură dintre nota la examen și emotivitate, însă controlând efectul atât a timpului alocat studiului, cât și a impresiei profesorului despre student. Dacă am găsi o măsură a impresiei profesorului despre student, atunci corelația semi-parțială ar putea fi exprimată sub forma „rExEm.TmIm”.

Regresiile liniare multiple

Iată că, plecând de la corelații bivariate și trecând prin cele parțiale, ajungem la regresiile liniare multiple, tehnici clasice foarte apropiate de specificul SEM, de aceea vom insista puțin mai mult asupra lor, asigurând o recapitulare completă a principiilor de bază.

În lumea reală, fenomenele nu pot fi explicate prin simpla relație dintre două variabile. Am văzut deja că în încercarea de a explica nota la examen, nu ne putem baza doar pe emotivitate și nici nu putem introduce separat timpul alocat studiului, deoarece acesta corelează atât cu emotivitatea, cât și cu nota la examen, cele trei variabile împărțind o varianță comună.

Corelațiile parțiale și semi-parțiale rezolvă această problemă, însă tratează la fel toate variabilele, izolând efectul uneia sau mai multora. Următorul pas ar fi să încercăm să direcționăm cumva aceste legături, adică să postulăm o variabilă pe care dorim să o estimăm (să o prezicem), denumită variabilă dependentă (Y) sau criteriu și una sau mai multe variabile pe baza cărora să realizăm predicția, numite variabile independente (X) sau predictori, ajungând la modelul statistic al regresiei simple (când avem un singur predictor) sau multiple (când există mai mulți predictori), iar dacă variabila criteriu este continuă, atunci vorbim despre o regresie liniară, dată de ecuația:

Coeficienții de regresie

Observăm „căciulița” pusă pe variabila criteriu, acest lucru arătând că este o variabilă estimată, adică o combinație liniară determinată de structura de covarianțe a predictorilor, prin intermediul coeficienților nestandardizați de regresie „B”, motiv pentru care spunem că variabila dependentă este o variabilă compozit. Iată un prim termen familiar, anume structura de covarianțe determinată de valorile coeficienților nestandardizați, ce ne informează asupra modului în care va evolua scorul criteriului atunci când scorul predictorului crește sau scade cu o unitate, în condițiile în care se controlează efectul tuturor celorlalți predictori.

Spre exemplu, să presupunem că nota la examen poate fi estimată pe baza următoarei ecuații de regresie:

Coeficientul nestandardizat al emotivității ne spune doar că la creșterea emotivității cu un punct pe scala de emotivitate, nota la examen va scădea cu 1,54 puncte în condițiile în care izolăm efectul determinat de orele de studiu. Similar, creșterea timpului de studiu cu o oră va determina și creșterea notei la examen cu 1,82 puncte, controlând efectul determinat de emotivitate.

După cum putem constata, suntem în fața unor corelații parțiale de ordinul 1, deoarece avem doar doi predictori, coeficienții lor formând o structură de covarianțe și exprimându-se în scoruri brute proprii scalelor de măsură (timpul de lucru în ore, emotivitatea în notele brute pe scala utilizată pentru măsurarea emotivității). În acest moment, nu putem spune care predictor este mai relevant și influențează mai puternic criteriul, deoarece scalele sunt diferite. Comparația coeficienților de regresie nestandardizați are sens doar în cazul în care aceștia sunt obținuți pe eșantioane diferite. Astfel, dacă nota la examen este estimată folosind două loturi de cercetare, unul format din studenți la medicină, celălalt din studenți la informatică, în primul caz coeficientul emotivității fiind 1,54 iar în cel de-al doilea caz 0,87, atunci da, putem spune că emotivitatea influențează mai puternic nota la examen a studenților de la medicină în comparație cu cei de la informatică.

Modelul regresiei are însă și o structură de medii, determinată de punctul de intersecție a dreptei de regresie cu axa valorilor variabilei dependente, numit și constantă de interceptare (B0), nefiind altceva decât scorul estimat al criteriului atunci când valoarea scorurilor predictorilor este zero. Dacă un student ar obține zero puncte la emotivitate și nu ar studia nicio clipă pentru examen, atunci ar putea obține nota 4,83, conform constantei de regresie. Explicația faptului că această constantă este o structură de medii este dată de relația sa cu predictorii și coeficienții nestandardizați ai acestora:

Imposibilitatea comparării coeficienților nestandardizați de regresie creează o problemă destul de mare, deoarece nu ne permite să ierarhizăm predictorii și să vedem care dintre aceștia sunt mai importanți. Pentru a se rezolva această chestiune, dar și pentru a se elimina dependența de scala de măsură, o ecuație de regresie poate fi scrisă și utilizându-se coeficienții standardizați, obținuți prin transformarea scorurilor brute în scoruri „z”, aceștia fiind numiți și coeficienți beta:

Primul lucru pe care îl putem observa este dispariția constantei de interceptare, fenomen perfect normal, deoarece coeficienții beta sunt exprimați în unități de abatere standard iar dacă scorurile z ale fiecărui predictor ar fi zero, atunci și valoarea estimată a criteriului ar fi tot zero. Așadar, fiecare coeficient beta arată evoluția abaterilor standard ale criteriului (a scorurilor z) atunci când scorul z al predictorului crește sau scade cu o abatere standard. Să presupunem că ecuația de regresie anterioară ar fi exprimată în coeficienți standardizați, astfel:

Dacă emotivitatea crește cu o abatere standard, atunci nota la examen va scădea cu 0,54 abateri standard iar dacă timpul de studiu crește cu o abatere standard, și nota va crește cu 0,95 abateri standard. Fiind exprimați în note z, de data aceasta putem compara direct predictorii și putem afirma că timpul alocat studiului are o relevanță mai mare în explicarea notei de la examen în comparație cu emotivitatea, ba chiar putem spune și de câte ori este mai relevant: 0,95/0,54=1,75, adică de aproape două ori.

Această comparație se poate realiza doar în cazul aceleași ecuații de regresie, nu și atunci când comparăm același predictor din ecuații diferite. Nu este recomandată utilizarea coeficienților standardizați de regresie pentru compararea relevanței emotivității studenților de la medicină și a celor de la informatică, deoarece varianțele celor două loturi nu sunt identice, într-o astfel de situație revenindu-se la coeficienții nestandardizați.

Metoda de estimare

Există mai multe metode prin care se poate ajunge la acești coeficienți, însă una dintre cele mai utilizate este metoda celor mai mici pătrate, propusă încă din 1794 de către matematicianul german Johann Carl Friedrich Gauss (1777-1855), cunoscut mai curând datorită postulării distribuției care-i poartă numele.

Nu vom intra în detaliile metodei, acestea fiind prezentate la studiul sistematic al regresiei liniare. Menționăm doar că în cazul regresiei, toate variabilele sunt manifeste, inclusiv criteriul, și există o diferență între scorurile colectate la variabila criteriu (Y) și scorurile variabilei criteriu, prezise pe baza variabilelor predictor (Y ̂), iar pe această diferență se bazează întreaga filosofie a metodei celor mai mici pătrate. Dacă diferența dintre scorurile observate și cele prezise ar fi ridicată la pătrat, eliminându-se influența diferențelor negative, atunci pentru un bun model de regresie suma acestor diferențe ridicate la pătrat (reziduurile) trebuie să fie cât mai mică posibil. Altfel spus, diferența dintre varianța unică a criteriului și varianța criteriului explicată de predictori trebuie să fie cât mai mică.

Această metodă este preponderent utilizată pentru regresiile liniare, numindu-se și OLS (Ordinary Least Squares), sau metoda liniară a celor mai mici pătrate, deoarece există și o variantă neliniară a acesteia. Practic, coeficienții nestandardizați de regresie nu formează altceva decât ecuația unei drepte, iar rolul OLS este de a determina ecuația celei mai bune drepte ce poate fi construită de către predictori, aceea de la care abaterile scorurilor criteriului să fie cât mai mici cu putință, știind că printr-un punct în plan pot trece o infinitate de drepte. Dreapta de regresie furnizează, de fapt, scorul estimat al criteriului (Y ̂) iar norul de puncte corespunde scorurilor sale reale (Y).

Dacă am vorbit despre regresia liniară, iată și o primă asumpție ce rezultă chiar din această liniaritate:

Asumpția 1: Predictorii trebuie să fie liniar relaționați cu criteriul, corelațiile dintre fiecare predictor și criteriu trebuie să fie liniare. Dacă nu avem corelații liniare, atunci valorile coeficienților subestimează puterea de predicție a modelului.

Revenind la metodă, reziduurile, adică diferențele dintre valorile observate la criteriu și cele estimate pe baza predictorilor, trebuie să nu coreleze cu niciun predictor, ajungând la o a doua asumpție foarte importantă:

Asumpția 2: Nu există niciun fel de relație între reziduuri și predictori, reziduurile și predictorii sunt variabile independente.

Dacă luăm în considerare cele două asumpții, atunci putem constata că puterea unui model de regresie este dată de mărimea efectului corelației dintre fiecare predictor și criteriu, în condițiile în care se controlează efectele celorlalți predictori. Aceste corelații semi-parțiale multiple dintre predictori și criteriu nu reprezintă altceva decât coeficientul de corelație Bravais-Pearson dintre valorile observate ale criteriului și valorile estimate de predictori, iar prin ridicare la pătrat se obține proporția din varianța criteriului explicată de predictori (R2), indicatorul puterii predictive a modelului de regresie.

Atunci când lotul de cercetare este de mari dimensiuni, coeficientul de corelație multiplă este un indicator foarte bun al puterii de predicție a modelului, însă apar probleme la loturi de cercetare mici, atunci când se supraestimează puterea modelului. Din acest motiv, se efectuează diferite corecții, în funcție de dimensiunea lotului de cercetare și de numărul predictorilor, una dintre cele mai întâlnite fiind corecția lui Wherry, numită și R2 ajustat sau R2 corectat.

Regresiile au, desigur, mult mai multe asumpții, unele dintre ele întâlnindu-se și la modelele SEM, dar nu vom mai insista asupra lor pentru a nu lungi în mod inutil expunerea. Dacă ne-am reamintit principalele noțiuni privind corelațiile și regresiile, este momentul să discutăm și câteva lucruri legate de testele statistice.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *