De la clasic la SEM. Teste statistice si bootstrapping (III/III)

Teste statistice și testarea ipotezelor

Datele sunt colectate și apoi analizate fie pentru a face o „radiografie” a unui fenomen, pentru a-l descrie (analizele descriptive), fie pentru a estima un parametru necunoscut la nivelul populației, pe baza studiului unui lot de cercetare sau unui eșantion extras din acea populație (analize inferențiale). Desigur, în cel de-al doilea caz valoarea parametrului nu va putea fi niciodată cunoscută cu exactitate, însă indicatorul poate reprezenta, în anumite condiții, un estimator adecvat pentru parametru. Spre exemplu, dacă administrăm unui număr de 400 de studenți un chestionar de anxietate, acesta reprezentând un eșantion din populația studenților din România, atunci, pornind de la media scorurilor obținute la anxietate de către studenții din eșantion, care ar putea fi media scorurilor la aceeași variabilă dacă, prin absurd, am putea testa întreaga populație a studenților? Sunt însă slabe șanse să reușim vreodată să facem acest lucru, din acest motiv nu vom putea găsi valoarea exactă a parametrului, ci vom putea doar spune că parametrul, cu o certitudine de 95%, ar fi situat între anumite limite, abordare numită estimare pe baza intervalelor de încredere.

Dacă am repeta cercetarea folosind alte câteva eșantioane de 400 de studenți, am obține medii diferite, însă, folosind metoda estimării pe baza intervalelor de încredere, tot am putea găsi limitele între care s-ar situa parametrul, ajungând la un alt concept statistic, anume la acela de abatere standard a distribuției variabilei la nivelul eșantionului față de distribuția sa la nivelul populației, cunoscut sub numele de eroare standard și care indică eroarea de eșantionare, exact această diferență dintre indicator (valoarea obținută la nivelul eșantionului) și parametru (valoarea obținută la nivelul populației).

Din teoria probabilităților, cunoaștem deja că dacă dintr-o populație extragem aleatoriu un eșantion (nu un lot de cercetare sau un lot de conveniență), atunci probabilitatea de apariție a unui eveniment la nivelul observațiilor ce formează eșantionul respectiv are o distribuție normală, ca și la nivelul populației. În cazul în care standardizăm distribuția normală, atunci știm că între o abatere standard în jurul mediei, probabilitatea de apariție a evenimentului este de aproximativ 0,68, între două abateri standard este de aproximativ 0,95 iar între 3 abateri standard este de aproximativ 0,998. Cu cât acest interval (numit interval de încredere) este mai mare, cu atât crește și probabilitatea de apariție a evenimentului, intervalul de încredere uzual în domeniul socio-uman fiind de 95%, corespunzător probabilității cuprinse între două abateri standard în jurul tendinței centrale.

În statistică, acest interval este notat cu 1-α, însă ce se întâmplă cu celelalte probabilități de apariție a evenimentului, situate la stânga și la dreapta acestui interval? Ne putem da seama ușor că acestea sunt evenimente extreme, cu o probabilitate de apariție foarte mică. Dacă intervalul de încredere este de 95%, atunci evenimentele extreme au o probabilitate de apariție de sub 5%, (α=0,05), mai precis 2,5% pentru zona din dreapta (α/2=0,025) și 2,5% pentru zona din stânga α/2=0,025.

O primă aplicație a erorii standard este, așa cum am amintit, estimarea parametrului. Dacă media anxietății unui eșantion de 400 de studenți ar fi manx=84,56 iar eroarea standard a mediei esanx=2,34, atunci, la un interval de încredere de 95%, valoarea parametrului ar fi situată între manx±2seanx, adică între 79,09 și 90,03.

Este evident faptul că pe măsură ce crește volumul eșantionului, eroarea standard a indicatorului se reduce, astfel încât aceasta devine zero atunci când volumul eșantionului este egal cu volumul populației.

La estimarea parametrilor prin metoda intervalelor de încredere pornim de la date, calculăm indicatorii și ne interesează să aflăm cam între ce valori am putea regăsi, la nivelul întregii populații, parametrul. Metoda testării semnificației statistice a ipotezei nule este asemănătoare, doar că abordează problema invers: facem o prezumție privind valoarea parametrului și apoi verificăm cât de probabil este ca această prezumție să fie adevărată într-un eșantion extras din populație. De exemplu, la estimarea parametrilor, am calculat media anxietății persoanelor dintr-un eșantion extras din populație și ne interesa să aflăm cam între ce limite s-ar regăsi valoarea anxietății dacă am reuși să testăm întreaga populație. La testarea semnificației statistice a ipotezei nule, putem presupune că nu există nicio diferență statistic semnificativă între anxietatea persoanelor din eșantionul extras din populație și anxietatea populației în general (m=µ). Aceasta este ipoteza pe care o vom testa din punct de vedere statistic, numită și ipoteză nulă sau ipoteză de nul (H0). În cazul în care cele două medii ar fi semnificativ statistic diferite, atunci fie anxietatea populației ar fi mai mică în comparație cu anxietatea persoanelor cuprinse în eșantion (m>µ), fie ar fi mai mare (m<µ), situație în care spunem că testăm ipoteza nulă la ambele capete ale distribuției, rezultând două ipoteze alternative (H1 și H2) – varianta „two sided”. Dacă vom postula ca ipoteză alternativă (H1), faptul că media anxietății persoanelor din eșantion este statistic semnificativ mai mică în comparație cu media populației, atunci nu ne interesează celălalt capăt al distribuției, doar zona scorurilor extreme mici, variantă numită „one side less”, cealaltă situație fiind „one side greater”.

Contrar opiniei multora, atunci când utilizăm metoda testării semnificației statistice a ipotezei nule (NHST – Null Hypothesis Significance Testing) nu testăm și nu confirmăm ipotezele de cercetare. Singurul lucru pe care îl putem face este să verificăm dacă respingem sau nu ipoteza nulă, iar în cazul în care aceasta este respinsă pot deveni plauzibile (nu confirmate) unele ipoteze alternative. Confirmarea se poate realiza doar în urma unor multiple studii replicate și nu prin această metodă.

O a doua aplicație a erorii standard a indicatorului vizează chiar testarea ipotezelor prin intermediul metodei numită raportul critic, împărțind valoarea indicatorului la eroarea sa standard, interpretarea făcându-se pe baza distribuției z, sub ipoteza nulă conform căreia valoarea parametrului este zero, testându-se la ambele capete ale distribuției.

În exemplul anterior, dacă testăm ipoteza nulă conform căreia media anxietății populației de studenți din România este zero (H0: µ=0) și efectuăm o cercetare pe un eșantion de 1500 de studenți, obținând manx=10,21 și esanx=1,34, atunci raportul critic va fi 10,21/1,34 = 7,61, o valoare suficient de mare pentru ca ipoteza nulă să fie respinsă la un nivel de semnificație statistică p < 0,01 și să se accepte faptul că media anxietății studenților din România este statistic semnificativ diferită de zero (H1: µ≠0).

Raportul critic îl putem utiliza pentru orice indicator, dacă avem valoarea indicatorului și valoarea erorii sale standard, reprezentând cea mai simplă formă de test statistic, însă doar atunci când vorbim despre un eșantion extras dintr-o populație și când volumul acestuia este suficient de mare pentru a se aplica principiile distribuției normale (cel puțin 300-400 de observații). Dacă vorbim de loturi de conveniență sau de loturi de cercetare sau dacă volumul observațiilor este redus, atunci interpretarea raportului critic nu se mai face după reperele distribuției z (peste 2,58 pentru p < 0,01 și peste 1,96 pentru p < 0,05), ci după reperele distribuției t-Student, ajungând la cunoscutele teste statistice t-Student pentru diferențele dintre mediile populațiilor.

În cazul în care ipoteza nulă se respinge, devine probabilă existența unui efect la nivelul populației, efect postulat în una dintre ipotezele alternative, apărând alte două noi provocări, anume mărimea efectului și, mai ales, puterea cercetării. Aceasta ține de mai mulți factori, și este important de reținut că se referă, de fapt, la puterea metodei de cercetare pe care o utilizăm și nu la cercetarea în sine. Din acest motiv, cercetările bazate pe ipoteze unilaterale (one-tailed) și cu un prag de respingere a ipotezei nule mai permisiv (p < 0,05) sunt mai puternice în comparație cu cele ce folosesc ipoteze bilaterale (two-tailed) și praguri de respingere a ipotezei nule mai restrictive (p < 0,01). Chiar dacă este evident, cercetările în care se utilizează procedee parametrice și care se efectuează pe eșantioane de volum mare sunt mai puternice în comparație cu cercetările bazate pe procedee neparametrice și eșantioane mici, puterea cercetării fiind mai mare dacă se utilizează eșantioane dependente (design de tip within-subjects) față de situația în care am folosi eșantioane independente (design de tip between-subjects). Mulți se plâng de puterea redusă a cercetărilor, chiar dacă toate recomandările de mai sus sunt îndeplinite. Într-o asemenea situație, cel mai probabil ar trebui revăzute proprietățile instrumentului de măsură, mai ales fidelitatea, deoarece un instrument cu o fidelitate redusă conduce la cercetări cu o putere redusă.

După cum știm, puterea cercetării se estimează a priori, în momentul proiectării cercetării, referindu-se întotdeauna la populație și nu la eșantionul extras din populație, vizând în mod direct răspunsul la întrebarea dacă mărimea efectului descoperit în urma studiului eșantionului se va regăsi la orice alt eșantion extras din populație. Mulți consideră că o cercetare este cu atât mai bună cu cât puterea sa este mai mare. În realitate, studiile care depășesc o putere de 80% sunt criticate pentru risipa resurselor, deoarece o putere de 75%-80% este suficientă pentru a garanta, practic, prezența efectului la nivelul populației. Deoarece creșterea puterii se face cu o creștere importantă a volumului eșantionului, depășirea acestui procent este considerată o risipă.

Mai gravă este însă situația inversă, deoarece într-o cercetare cu o putere de 50%, probabilitatea de a respinge ipoteza nulă la oricare alt eșantion extras din populație și de a identifica prezența unui efect este egală cu probabilitatea de a se obține stema la aruncarea banului, studiul neavând nicio valoare practică.

Chiar dacă ar fi multe de spus privind testele statistice, ne vom opri aici. În analizele SEM, testele statistice nu au un rol atât de important ca în cele clasice, însă acest lucru nu înseamnă că le putem ignora. În plus, unele aspecte particulare ale analizelor de acest tip (cum ar fi accentul pus pe procedurile nestandardizate) le conferă o serie de caracteristici ce induc frecvente confuzii în rândul cercetătorilor și generează erori de raportare a rezultatelor (cum ar fi, spre exemplu, raportarea erorilor standard rezultate în urma unor procedee nestandardizate ca erori standard ale coeficienților standardizați). Din acest motiv, testele statistice specifice analizelor SEM vor fi tratate în detaliu atunci când situația o va impune.

Bootstrapping

Tehnicile de bootstrapping (reeșantionare) nu sunt altceva decât procedee de creare a unor noi eșantioane simulate, pornind fie de la datele existente, fie de la anumite distribuții teoretice, acesta fiind și principalul criteriu de diferențiere între reeșantionarea neparametrică și reeșantionarea parametrică.

În cazul reeșantionării neparametrice, eșantionul sau lotul de cercetare folosit este tratat ca o populație, din care se vor extrage, aleatoriu, eșantioane de aceeași dimensiune, folosindu-se metoda cu înlocuire, adică aceeași observație putând să apară de mai multe ori. Spre exemplu, dacă lotul de cercetare conține un număr de 400 de subiecți, atunci într-un eșantion generat prin reeșantionarea neparametrică se vor extrage, aleatoriu, tot 400 de observații (sau mai puține), cu precizarea că unul și același subiect va putea fi extras se mai multe ori, acest lucru conducând la diferențe între lotul de cercetare original (denumit și pseudo-populație) și noul lot de cercetare generat, astfel putându-se simula extragerea mai multor eșantioane din aceeași populație, reeșantionarea neparametrică numindu-se și pseudo-replicare, singura asumpție fiind aceea conform căreia distribuția din eșantionul generat să aibă aceleași caracteristici ca și distribuția din pseudo-populație.

Termenul de pseudo-replicare a fost utilizat spre a tempera entuziasmul celor care susțin că nu am mai avea nevoie de studii replicate, deoarece putem oricând folosi reeșantionarea pentru a le simula, cu atât mai mult cu cât avem la dispoziție și reeșantionările parametrice, tehnici care nu mai pornesc de la datele reale atunci când generează eșantioane, ci de la distribuții de probabilități teoretice pe care cercetătorul le poate specifica, fiind foarte asemănătoare cu cele implicate în studiile simulate.

Reeșantionarea se utilizează în multe feluri, mai ales pentru a studia comportamentul unui efect identificat în condițiile unor variații determinate de eșantion, dar și pentru creșterea preciziei estimării erorilor standard și a intervalelor de încredere. Prin reeșantionare putem doar mări stabilitatea unor estimări, nu creăm nici studii replicate, nici nu mărim volumul sau reprezentativitatea eșantionului și nici nu normalizăm distribuții, așa cum în mod eronat consideră unii.

Reamintindu-ne cele mai importante noțiuni de analiză clasică a datelor implicate în SEM, avem acum întregul bagaj informațional necesar pentru a trece, efectiv, la studiul modelelor de ecuații structurale.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *