De la teste t Student la MANCOVA. Prima parte – Precondiții ale testelor t Student

Recent am petrecut o după-amiază cu cineva și, din vorbă în vorbă, am ajuns la ce altceva decât la planuri de cercetare și la analiza datelor în funcție de planul de cercetare. Un pic surprins de confuzii, ne-am lansat în dezbateri și, cu ocazia asta, am făcut o trecere în revistă a tehnicilor, de la testele t Student la MANOVA și MANCOVA. Entuziasmat de acest lucru, m-am gândit să împart cu voi aceste discuții. De la început vă spun că nu discutăm aici despre formule, statistică sau SPSS, ci doar voi „povesti”, pur și simplu, principiile și utilizarea, pentru a clarifica foarte bine limitele. Este, dacă vreți, un mod narativ de abordare a analizei de date, care sper să vă placă.

Precondiții ale utilizării testelor t Student

Testele t Student se mai numesc și teste pentru diferențele dintre mediile a două populații din care provin eșantioanele și nu, așa cum greșit se crede, pentru mediile a două eșantioane. De ce spun asta? Ei bine, pentru că testele t Student sunt tehnici inferențiale, adică pornind de la rezultatele obținute în urma studiului unui eșantion, dorim să extindem cunoștințele la nivelul populației. Testele t nu urmăresc să ne spună dacă există diferențe între mediile a două eșantioane – asta putem observa foarte ușor dacă scădem mediile una din alta – ci ne informează ce șanse avem să regăsim aceste diferențe la orice alte eșantioane extrase din populații sau, în abstract, dacă am putea compara chiar populațiile. Așadar, atenție la utilizarea termenilor.

Deja, de la testele t Student, intrăm în domeniul tehnicilor inferențiale, ce presupun utilizarea unor planuri experimentale sau cvasi-experimentale de cercetare. O confuzie pe care o fac și în care persistă mulți este aceea că, gata, dacă folosim testele t Student, putem generaliza, putem induce cunoștința la nivelul populației. Nimic mai fals. Într-adevăr, cu testele t Student putem face inferențe statistice, însă utilizarea lor este o condiție necesară, nu și suficientă. Mai avem nevoie și de alte lucruri, în special de un design adecvat de cercetare și de o reprezentativitate a eșantionului în raport cu populația.

Planuri experimentale de cercetare

Orice plan experimental sau cvasi-experimental presupune existența cel puțin a unei variabile pe care cercetătorul o poate manipula, variabilă utilizată pentru a împărți subiecții în grupuri de cercetare și care poartă numele de variabilă independentă (VI). Cercetătorul manipulează aceste variabile independente pentru a observa ce efect exercită manipulările asupra unei alte categorii de variabile, numite variabile dependente (VD) și cam asta este, în mare, întreaga filozofie a planurilor experimentale de cercetare. Dar să luăm un exemplu concret:

„Un profesor de matematică dorește să afle ce putere de motivare a elevilor o au lauda și critica. Cu alte cuvinte, întrebarea sa de cercetare este cum ar putea obține performanțe mai bune de la elevi, lăudându-i sau criticându-i? Pentru aceasta, își va alege două clase cu un nivel apropiat, elevii din cele două clase formând două grupuri de cercetare. În primul grup (lauda), elevii vor fi încurajați permanent chiar dacă greșesc, vor fi lăudați, li se va spune că rezolvarea a fost bună, doar că au încurcat unele noțiuni, eliminându-se complet critica. În al doilea grup (critica), elevii vor fi criticați, li se va spune că se așteaptă mai mult de la ei, că performanțele nu mulțumesc, că fac erori elementare și, chiar dacă rezolvă bine, li se spune că există variante mai eficiente și că au ales variante greoaie de rezolvare, eliminându-se complet lauda.”

Iată un plan experimental foarte simplu, în care variabila independentă este „tipul de motivare” și are două niveluri: critica și lauda. Cercetătorul manipulează variabila independentă (critică sau laudă elevii) pentru a vedea ce efecte pot exercita aceste tipuri de motivări asupra unei variabile dependente, să spunem asupra „notei la teză”. Planul este unul experimental, deoarece profesorul poate manipula după cum dorește variabila independentă, poate alege elevii pe care să-i laude sau să-i critice (poate include aleatoriu elevii în grupurile de cercetare). Dacă, însă, ar fi vrut să vadă diferența dintre cunoștințele de matematică ale băieților și fetelor, atunci nu ar mai fi putut include, după dorință, elevii în grupurile băieților sau fetelor (nu poate include aleatoriu elevii în grupurile de cercetare). Un elev este ori băiat, ori fată și nu poate profesorul modifica genul biologic după propria sa dorință, de aceea spunem că nu avem chiar un plan experimental, ci unul cvasi-experimental.

Ce mai observăm la acest plan de cercetare? În termeni de performanță la matematică, profesorul dorește să vadă dacă există diferențe între notele la teză obținute de elevii din grupul lăudat și notele la teză obținute de elevii din grupul criticat. Elementul cheie aici este „între”, deoarece în fiecare grup se află alți elevi, iar acest lucru oferă caracteristicile unui design cu grupuri independente (numit și between-grup sau between-subjects). În acest caz, observațiile se colectează o singură dată, în momentul în care elevii dau teza și se compară mediile celor două grupuri.

Dar dacă profesorul nu predă decât la o singură clasă, cum ar putea proceda? Că nu poate lăuda doar un rând de elevi și critica doar alt rând, mai ales că elevii s-ar mai putea și muta dintr-un rând în altul. Atunci ar putea gândi altfel, plecând de la ideea că lauda reprezintă un bun stimulent pentru performanță. Le-ar da elevilor, la începutul semestrului, un test la matematică și ar înregistra nota inițială. Apoi, i-ar lăuda și încuraja întregul semestru, iar la sfârșit, înainte de vacanță, le-ar da un test echivalent, înregistrând nota finală. De data acesta avem două momente de colectare a informațiilor, la început și la sfârșit. Mai mult decât atât, notele se colectează de la aceiași elevi, nu de la elevi diferiți, profesorul fiind interesat de modificările ce apar „în” interiorul elevilor și care ar putea explica diferența dintre cele două rezultate. Acum elementul cheie este „în”, deoarece avem aceiași elevi, datele fiind colectate la momente diferite de timp, rezultând un design cu măsurări repetate (numit și within-subjects).

Iată, așadar, cele două mari categorii de planuri de cercetare, în funcție de cum se colectează datele. Putem colecta datele o singură dată, dar pe grupuri de subiecți diferiți (between-group) sau putem colecta datele la momente de tip diferite (două sau mai multe colectări), pe aceiași subiecți (within-subjects). Încercând însă să convingă directorul școlii că lauda este mai bună decât atitudinea neutră, acesta îi spune:

– S-o crezi dumneata! De fapt, performanțele pe care zici că le-ai obținut cu lauda se datorează campaniei inițiată de Inspectoratul Școlar în școli, prin care li s-a arătat elevilor ce importantă este matematica și ce șanse fantastice de câștig financiar și de poziție socială o au cei care sunt buni la această disciplină. Asta i-a motivat, domnule, nu lauda dumitale.

Evident, directorul fiind absolvent de litere, își amintește în ce hal a fost chinuit la matematică în liceu și, de atunci, pur și simplu urăște matematica și pe cei care o predau. Chiar dacă a făcut psihoterapie, se pare că nu l-a ajutat prea mult. Profesorul de matematică a anticipat însă acest lucru și nu a aplicat stereotip planul de cercetare, ci l-a rugat pe colegul său, care preda la o clasă paralelă, să administreze elevilor aceleași teste, la începutul și la sfârșitul semestrului. O idee foarte inteligentă, cu ajutorul căreia profesorul de matematică a neutralizat argumentul directorului. Cum? Foarte simplu. Colegul din clasa paralelă are o atitudine neutră față de elevi, nici nu-i laudă și nici nu-i critică, acei elevi formând un așa-numit grup de control.

– Într-adevăr, ai avea dreptate, îi spune profesorul de matematică directorului, doar că efectul campaniei acționează și la nivelul clasei „A”, în care i-am lăudat, și la nivelul clasei „B”, la care predă colegul Popescu, și care nici nu i-a lăudat, nici nu i-a criticat. Uite, vezi? La testarea inițială, elevii din ambele clase au obținut rezultate cam la fel. Sigur, pe parcursul semestrului a intervenit campania, nicio problemă, doar că ea a afectat în mod egal atât elevii din clasa „A”, cât și pe cei din clasa „B”. Într-adevăr, la testarea finală, toți obțin rezultate mai bune. O fi avut și campania un efect, nu știu, dar uite că cei din clasa „A”, pe care i-am lăudat, obțin rezultate mult mai bune decât cei din clasa „B”, care nu au fost nici lăudați, nici criticați.

Desigur, directorul nu a avut ce să mai spună și a acceptat faptul. Iată că un design cu grup de control este un design mixt, conținând atât grupuri independente (elevii din clasa „A” și elevii din clasa „B”), cât și măsurări repetate (within-subjects).

Surse de variație

Haideți să ne punem acum în poziția elevilor care rezolvă testele. Ne-am aștepta ca elevii slabi la matematică, cei care obțin rezultate scăzute la primul test, să obțină tot rezultate mai mici la al doilea test în comparație cu elevii buni. Chiar dacă performanța lor crește în urma laudei, ea va rămâne totuși mai slabă în comparație cu performanța elevilor buni. Cu alte cuvinte, ierarhia se va păstra; cei buni la matematică vor rămâne buni, indiferent de laudă, critică sau atitudine neutră, iar cei slabi vor rămâne mai slabi, tot indiferent de atitudinea neutră, laudă sau critică.

Asta în teorie, pentru că, în practică, profesorul observă în clasa „B” câțiva elevi slabi la început, dar care, probabil, au îndrăgit pe parcurs matematica și i-au depășit chiar și pe cei foarte buni, dar și elevi buni, care au obținut note finale mai mici chiar decât cele inițiale.

– Cum mama naibii, spuse cu năduf profesorul, Viorel și Ionel, de la care aveam așteptări și pe care voiam să-i duc la Olimpiadă, au dat-o în fasole, în timp ce Măriuca, de unde că nu era chip să priceapă disjuncția, a spart avioanele. Fir-ar ei să fie, cine i-or mai înțelege!?

Ce s-a întâmplat în realitate? De ce au apărut astfel de situații? Habar nu avem. Poate că Măriucăi i-a picat cu tronc profesorul (așa cum mie îmi picase cu tronc profesoara de chimie dintr-a IX-a și de la bâtă la chimie am ajuns la Olimpiadă), poate că lui Viorel i-a picat ceva greu la stomac iar lui Ionel i-a picat ceva în cap, cine știe? În mod clar, testele de matematică făcute de profesor sunt foarte fidele și echivalente, iar performanța la matematică nu poate fluctua în felul acesta într-un interval de timp atât de mic. Ceva nu a funcționat cum trebuie, dar oare ce?

Ei bine, astfel de fluctuații în performanță, care nu se pot explica prin variabilele manipulate, ci prin factorii externi, oricare ar fi aceștia (iubirea de profesor, cărămida picată în cap sau stricatul la burtă), poartă numele de variații aleatorii sau variații nesistematice. Sigur că variațiile aleatorii nu pot fi explicate de cercetători prin intermediul manipulărilor experimentale și, din acest motiv, produc dureri de cap, urmând ca influența lor să fie redusă la minimum.

Aceiași factori aleatorii acționează și în clasa „A”; și acolo vom găsi Viorei, Ionei și Măriuci care să plece de la rezultate bune și să ajungă la rezultate slabe sau invers, însă acolo, peste tot, putem remarca o tendință, anume că elevii slabi obțin în final rezultate mai bune, iar elevii buni obțin în mod sistematic rezultate și mai bune. Desigur, la nivel general, cei buni vor avea rezultate mai bune decât cei slabi, însă, peste tot, performanța crește. Avem în acest caz și explicația, anume lauda. Așadar, diferența dintre performanța inițială la matematică și cea finală este determinată de variabila independentă manipulată, această variație fiind cunoscută sub numele de variație sistematică.

Înțelegem acum și rolul grupului de control. În ambele grupuri se manifestă aceleași surse aleatorii de variație. Dacă am folosi doar un singur grup, atunci efectul manipulării experimentale nu s-ar putea stabili în mod corespunzător, fiind absolut pertinentă observația directorului. De unde știm că această creștere a performanțelor se datorează laudei și nu faptului că profesorul este mai agreabil, campaniei efectuate de Inspectorat sau poziționării clasei cu ferestrele la soare? În cazul în care alături de grupul experimental, vom include și grupul de control, variațiile aleatorii vor fi menținute constante, iar creșterea de performanță în grupul experimental față de cel de control și între cele două momente de timp va fi determinată strict de condiția experimentală.

Pe de altă parte, dacă vom folosi doar un design cu grupuri independente, atunci toate variațiile aleatorii scapă de sub control. De unde știm că diferența nu este determinată de faptul că unii elevi sunt mai buni, că unele clase sunt mai luminate, că au profesori mai drăguți sau că, înainte de test, o clasă a avut sportul iar alta fizica? Nu avem cum să controlăm astfel de lucruri, din acest motiv putem spune că designul cu grupuri independente este mai vulnerabil la variațiile aleatorii decât cel cu măsurări repetate.

Rolul randomizării

Acum cred că putem spune că avem o imagine foarte clară a situației în care ne aflăm. În orice cercetare, de orice tip, suntem interesați să creștem ponderea variației sistematice și să o reducem pe cea aleatorie, pentru că, oricât ne-am chinui, nu o vom putea elimina niciodată. Trăim, totuși, într-o lume reală și nu în una imaginară, iar bătălia dintre ceea ce poate și ceea ce nu poate fi explicat de omul de știință se dă de secole.

Dacă folosim un design cu grupuri independente, ce se poate întâmpla? Nu este greu să ne imaginăm faptul că rareori într-o școală clasele sunt echivalente, așadar probabilitatea ca clasa „A” să fie, în general, mai bună la matematică (sau mai slabă) decât clasa „B” este foarte mare. La fel, fiind alți subiecți, ei ar putea diferi foarte mult din punct de vedere al inteligenței, al atenției, al memoriei și așa mai departe. Desigur, nu putem controla toate aceste variabile, însă, cu certitudine, ele exercită un efect asupra performanței, alături de variabila independentă studiată (critica sau lauda). Din acest motiv, se numesc variabile confundate, iar cercetătorul va trebui să se asigură că ele contribuie doar la variația aleatorie, nu și la cea sistematică.

Din fericire, soluția nu este greu de găsit. Pur și simplu, pe perioada experimentului, amestecăm elevii din cele două clase și îi distribuim, aleatoriu, în grupele „A” și „B”. Prin urmare, fiecare grupă va conține atât elevi din clasa „A”, cât și elevi din clasa „B”, acesta fiind principiul randomizării (alocarea la întâmplare a participanților în condițiile determinate de manipularea experimentală), una dintre cele mai eficiente metode de a forța variabilele confundate să exercite doar un efect aleatoriu.

La designul cu măsurări repetate, lucrurile se complică puțin. De data aceasta avem aceleași persoane, evaluate repetat, la diferite intervale de timp, aceste intervale de timp fiind determinate chiar de condiția experimentală. Cu alte cuvinte, sunt aceleași persoane alocate în condițiile determinate de manipularea experimentală și, absolut evident, nu mai putem folosi principiul randomizării. Vestea bună este că variația aleatorie se controlează mult mai bine, tocmai datorită existenței acelorași persoane, însă apar și mai multe vești proaste.

Să presupunem că profesorul vrea să studieze atât efectul laudei, cât și cel al criticii, folosind aceiași subiecți. Pentru aceasta, el va împărți anul școlar în trei părți egale. În prima parte, el va testa inițial și final elevii, fără să-i laude sau sau-i critice. În a doua parte, el va lăuda elevii și-i va testa la final, iar în a treia parte îi va critica și, de asemenea, îi va testa la final.

Suntem în situația unui design cu măsurări repetate și vom folosi aceiași elevi, puși, la diferite momente de timp, în 3 situații diferite: neutralitate, laudă și critică. Chiar dacă această soluție arată promițător, în realitate efectul manipulării experimentale se combină cu efectul de învățare. Dacă la început elevii sunt nefamiliarizați cu materia, în a doua și a treia situație deprinderile lor de lucru se perfecționează în mod natural, prin urmare nu putem decela foarte bine dacă creșterea performanței e determinată de laudă, de critică sau de faptul că ei au devenit mai buni în mod natural. Iată că efectul de învățare (sau, în anumite experimente, efectul de plictiseală) determină, alături de manipularea experimentală, o variație sistematică, lucru care ne încurcă teribil.

Ce este de făcut, deoarece se pare că nu putem folosi randomizarea pentru a ieși din încurcătură? Sau… poate da? Profesorul de matematică, fiind un tip isteț, se gândește să împartă și elevii în 3 grupe, numite „A”, „B” și „C”. În prima fază, pe elevii din grupa „A” îi va lăsa în pace, pe cei din grupa „B” îi va critica, iar pe cei din grupa „C” îi va lăuda. În a doua fază, va schimba ordinea. Pe cei din grupa „A” îi va lăuda”, pe cei din grupa „B” îi va lăsa în pace, iar pe cei din grupa „C” îi va critica, modificând similar ordinea în ultima fază. Iată cât de elegant a rezolvat problema, eliminând influența învățării prin randomizarea ordinii în care vor fi expuși subiecții condițiilor experimentale, modalitate de lucru numită contrabalansarea ordinii participării.

Ce face testul t Student?

Compară, folosind eșantioanele, mediile a două populații din care provin acele eșantioane. Știm deja că există trei variante ale testului t Student:

  • Testul t Student pentru un sigur eșantion (One-Sample t test) în care se compară direct media unei populații cu media altei populații, dar din care provine eșantionul;
  • Testul t Student pentru două eșantioane independente (Independent-Sample t test) în care se compară mediile a două populații din care provin eșantioanele;
  • Testul t Student pentru două eșantioane dependente (Paired-Sample t test) în care se compară mediile aceleiași populații din care provine eșantionul în cazul a două măsurări repetate.

Este clar că testul t Student se folosește doar într-un singur caz – când variabila independentă are doar două niveluri, acestea determinând cele două condiții experimentale. Dacă există mai mult de două grupe sau mai mult de două măsurări repetate, testul t Student NU SE POATE UTILIZA, indiferent de ce spun sau cred unii și vom afla din ce motiv, într-un alt articol.

Mai mult decât atât, testul t Student se bazează pe distribuția cu același nume (distribuția t Student), o distribuție parametrică, un fel de „distribuție normală pentru eșantioane”, nu pentru populații. Dacă distribuția este parametrică, atunci, în mod evident, variabila dependentă trebuie să fie una continuă (de interval sau de raport). Nu putem folosi testul t Student cu variabile ordinale sau nominale. Chiar și mai mult, variabila dependentă trebuie să aibă o distribuție asimilată celei normale pentru fiecare dintre cele două grupuri, fapt absolut logic dacă ne gândim că ar urma să facem o inferență la nivelul întregii populații. Dacă tot am vorbit despre inferență, nu trebuie să uităm un lucru esențial: lotul de cercetare trebuie să aibă caracteristici de reprezentativitate în raport cu populația (să fie un eșantion). Desigur, testul t Student va funcționa perfect și va conduce la interpretări valide și în absența asigurării reprezentativității, însă concluziile nu vor putea fi generalizate. Este de bun simț faptul că dacă am făcut o cercetare pe studenți, nu putem extinde cunoștințele la populația de bancheri. Studiul va avea doar un caracter descriptiv, chiar dacă se folosește o tehnică inferențială sau se va putea generaliza, cu limitele de rigoare, doar la o subpopulație reprezentată aproximativ de lotul de cercetare.

În cazul în care se folosesc grupuri independente, atunci trebuie să avem grijă să nu includem unii subiecți în ambele grupuri, deoarece am încălca asumpția independenței observațiilor. De asemenea, trebuie să avem grijă la varianțele celor două grupuri, mai precis la omogenitatea lor (asumpția omogenității varianțelor). Dacă într-un grup rezultatele sunt foarte împrăștiate, iar în altul sunt foarte înghesuite, atunci avem o problemă mare cât casa, din fericire rezolvabilă cu ajutorul unor ajustări, dar care scade drastic puterea cercetării.

Sper că povestea mea v-a plăcut. Dacă da, atunci data viitoare vă voi continua povestea profesorului de matematică și vom vedea cum a procedat, efectiv, pentru a demonstra avantajul laudei sau al criticii. De asemenea, vom vedea că profesorul totuși nu e mulțumit. Simte că nu a lucrat cum trebuie, că-i scapă ceva. Sunteți deja curioși ce anume? Atunci, un pic de răbdare!

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *