Semnificație statistică, mărimea efectului și puterea cercetării (Partea a II-a – Efectele și mărimea lor)

Analiza și interpretarea datelor

​În primul articol din această mini-serie am arătat despre ce este vorba în testarea semnificației ipotezei nule, am văzut la ce se referă de fapt „p” și am discutat câteva dintre problemele acestei strategii de cercetare. Concluzia, din punctul meu de vedere, este aceea că renunțarea la NHST ar face mai mult rău decât bine, deoarece, așa cum știm, ea permite identificarea existenței unui efect la nivelul unei populații. Atât și nimic mai mult. Din acest motiv, alături de testarea semnificației ipotezei nule, este importantă și găsirea unui mod în care să putem stabili cât de mare este acest efect, adică să aflăm o modalitate de calcul a mărimii efectului.

Cum se poate stabili mărimea unui efect?

Mai simplu decât vă imaginați, dar să nu anticipăm. Cum am procedat în cercetarea fictivă din articolul anterior? Am avut un grup de bărbați și un grup de femei cărora le-am administrat un instrument de evaluare a depresiei. Apoi am calculat media rezultatelor obținute de către bărbați și media rezultatelor obținute de către femei, am aplicat un test statistic, mai exact testul t-Student pentru diferența mediilor a două populații din care provin eșantioanele și am constatat că semnificația statistică a valorii acestui test este mai mică de valoarea prag 0,05, postulată, arbitrar, de către Fisher. Pe scurt, am constatat că această diferență nu este una întâmplătoare, ea pare a fi un efect al variabilei „gen biologic”. Dacă media rezultatelor obținute de femei este probabilistic semnificativ mai mare decât media rezultatelor bărbaților, spunem că efectul se manifestă în sensul că femeile tind să fie mai depresive în comparație cu bărbații, însă habar nu avem cu cât. Nu este nimic complicat aici. Dacă ați fost atenți, ați constatat că, folosind strict „p”, am observat doar existența unui efect și gata. Pe baza lui „p” nu știm nici măcar dacă media scorurilor obținute de către bărbați este mai mare decât cea a scorurilor obținute de către femei sau invers. Doar dacă ne uităm la medii ne dăm seama de acest lucru. Știți ce ați făcut? Fără să vă dați seama, ați intrat deja pe domeniul mărimii efectului, dar să facem un pas mai departe. Presupunem că media scorurilor obținute de bărbați la scala depresie este mB=20,10 puncte iar media scorurilor obținute de femei la aceeași scală este mF=21,57 puncte, această diferență fiind, așa cum am stabilit deja, probabilistic semnificativă. Ce-ar fi dacă am face diferența dintre aceste medii? Am obține mF-mB=21,57-20,10=1,47 puncte pe scala de depresie, o primă valoare a mărimii acestui efect, cunoscută și ca mărimea absolută a efectului. Iată că este foarte ușor de calculat mărimea absolută a efectului, însă aceasta are sens doar pentru variabile cu semnificație intrinsecă, exprimate prin unități de măsură, așa cum sunt lungimea, greutatea, durata etc. Dacă am fi cercetat diferențele dintre bărbați și femei sub aspectul duratei zilnice alocate studiului la analiză de date, am fi spus că mărimea absolută a efectului este de 1,47 ore, adică fetele sunt mai „studioase” cu 1,47 ore la această disciplină în comparație cu băieții, această diferență fiind probabilistic semnificativă.

Totuși, această formă a mărimii efectului suferă de o limitare importantă, anume că se bazează doar pe medii, adică pe un indicator al tendinței centrale și nu ia în considerare variabilitatea. Mai mult, depresia, ca și celelalte constructe cu care operează domeniul socio-uman, nu are o semnificație intrinsecă și nici o unitate de măsură. 1,47 puncte pe scala de depresie nu înseamnă, de fapt, nimic. Prin urmare, ar fi grozav dacă am găsi o modalitate prin care să standardizăm mărimea efectului, incluzând și variabilitatea. Problema a fost rezolvată (și soluția promovată, în opinia mea, destul de agresiv) de către Jacob Cohen, care a avut simpla idee de raportare a mărimii absolute a efectului la abaterea standard, rezultând mărimea standardizată a efectului sau, simplu, mărimea efectului, exprimată sub forma coeficientului d al lui Cohen.

Chiar dacă există mai mulți indicatori ai mărimii efectului, pe care îi voi aminti imediat, iată că prin acest concept nu înțelegem altceva decât diferența dintre indicatorii tendinței centrale ai celor două grupe, raportată la abaterea standard. Simplu și elegant, doar că avem o problemă cu acea abatere standard, deoarece sunt două distribuții, nu doar una. În cazul în care avem un grup de control, abaterea standard folosită este abaterea standard a scorurilor grupului de control. Dacă nu avem grup de control, atunci se folosește abaterea standard comună grupelor de cercetare, așa-numita „pooled standard deviation“. Nu vă speriați, această abatere standard nu este altceva decât un fel de medie a abaterilor standard ale grupurilor. Chiar dacă se poate folosi simpla medie aritmetică, eu nu vă recomand, deoarece induce erori destul de mari, pe care le vom discuta în cel de-al treilea articol. În schimb, puteți folosi o formulă foarte simplă:

Interpretarea mărimii efectului

Algoritmul descris mai sus este exact cel utilizat de Jacob Cohen pentru al său coeficient „d”, una dintre cele mai folosite statistici pentru estimarea mărimii efectului. Înainte de a discuta despre alte lucruri, să vedem câteva semnificații interpretative privind mărimea efectului. Fiind un coeficient standardizat, rezultat din împărțirea diferenței dintre medii la abaterea standard, „d” se exprimă în unități de abateri standard, ca și notele „z”, având doar valori pozitive (se ia în modul). Pentru a înțelege foarte bine semnificația practică a mărimii efectului, dincolo de simpla diferență standardizată dintre medii, să considerăm un exemplu al unei cercetări oarecare în care avem două grupe: un grup de control (GC) și un grup experimental (GE). Nu detaliez, presupun că știți deja ce este acela grup de control. Vom lua acum trei situații: situația în care d=0, situația în care d=1,5 și situația în care d=4.

Mărimea efectului este nulă

Ce-ar fi de spus în această situație? Practic, distribuția scorurilor la cele două variabile este identică. Evident că nu există niciun efect al variabilei independente, este ca și cum am copia scorurile dintr-o variabilă în alta. În termeni mai tehnici, am putea spune că 50% dintre scorurile obținute de subiecții din grupul experimental (GE) sunt mai mari decât media scorurilor subiecților din grupul de control (GC). Această afirmație conduce către un alt indicator al mărimii efectului, propus tot de Cohen, anume indicatorul U3, ca măsură a non-suprapunerii. El se exprimă procentual și poate lua valori între 50% (indicând o suprapunere perfectă a celor două distribuții) și 100% (indicând o separare totală a celor două distribuții). Evident, pe măsură ce indicatorul U3 se apropie de 100%, efectul este mai mare. Dacă acest indicator vi se pare contra-intuitiv, putem folosi opusul său, coeficientul de suprapunere, notat cu OVL. În cazul nostru, U3=50% iar OVL=100%, fapt care arată că scorurile obținute de subiecții din cele două grupe se suprapun 100%. Teoretic, acest coeficient ia valori între 100% (suprapunere perfectă) și 0% (separare totală), interpretarea fiind similară cu cea a indicatorului U3.

În același mod, putem spune: există 50% șanse dacă alegem la întâmplare un subiect din grupul experimental (GE), acesta va avea un scor mai mare decât un alt subiect ales, tot la întâmplare, din grupul de control (GC). Iată un alt indicator, numit probabilitate de superioritate și notat cu CL (după denumirea „common language effect size”, adică un fel de mărime a efectului pe înțelesul tuturor). Așa mi se pare și mie, coeficientul „CL” fiind cea mai intuitivă statistică a mărimii efectului. Așadar, mărimea efectului nu este nimic altceva decât probabilitatea ca o persoană extrasă aleatoriu dintr-un grup (de obicei din grupul experimental) să obțină un scor mai mare decât o altă persoană extrasă, tot aleatoriu, dintr-un alt grup (de obicei din grupul de control). Iată că am găsit și o definiție, în opinia mea excelentă, a mărimii efectului.

Cercetările științifice sunt conduse nu pentru a ajunge în această situație, nu pentru a obține o mărime zero a efectului. Pe noi ne interesează să obținem, în grupul experimental (GE), rezultate diferite în comparație cu grupul de control (GC). Lipsa unui efect ne arată fie că variabila independentă nu influențează deloc variabila dependentă, cum ar fi, de exemplu, efectul duratei de revoluție a planetei Jupiter asupra numărului de fire de păr de pe pielea broaștelor, fie că avem probleme în conducerea cercetării. Aceste probleme țin, de multe ori, de volumul lotului de cercetare utilizat. Din acest motiv, pe baza mărimii efectului se poate stabili numărul probabil de observații ce vor mai trebui incluse în grupul experimental pentru a creștere probabilitatea de apariție a unui efect statistic semnificativ. Iată și relația dintre mărimea efectului, volumul lotului de cercetare și puterea cercetării, relație pe care o vom aprofunda însă în următorul articol. Acest indicator se numește NNT, de la Number Needed to Treat, în cazul nostru având o valoare infinită, deoarece în cazul unui efect de mărime zero este imposibil de determinat dacă variabila independentă nu exercită un efect sau dacă este o problemă cu volumul lotului de cercetare. Din fericire, nu vom obține o astfel de mărime a efectului, deoarece în Univers lucrurile sunt legate, chiar dacă infinitezimal ca magnitudine.

Efecte puternice

Iată situația cu care ne confruntăm în mod real, un efect identificat folosindu-se NHST și estimat prin coeficientul „d” al lui Cohen. Chiar dacă în exemplul nostru d=1,5, nu uităm că se exprimă în unități de abateri standard, așadar diferența standardizată dintre medii este de peste 1,5 abateri standard, fapt care arată existența unui efect foarte puternic. Conform funcției cumulative a distribuției normale, pe care se bazează toți indicatorii descriși mai sus, la d=1,5, coeficientul U3=93,32%, adică peste 93% dintre rezultatele subiecților din grupul experimental (GE) sunt mai mari decât media rezultatelor subiecților din grupul de control (GC). OVL=45,33%, adică distribuția scorurilor subiecților din grupul de cercetare se suprapune circa 45% peste distribuția scorurilor subiecților din grupul de control, în care variabila independentă nu exercită niciun efect iar dacă alegem aleatoriu un subiect din grupul experimental sunt circa 86% șanse să aibă un scor mai mare în comparație cu un subiect ales aleatoriu din grupul de control, deoarece CL=85,56%, aceasta fiind interpretarea mărimii efectului. Acum putem clarifica și ultimul indicator, NNT=2, pe care, cel mai probabil, nu l-ați înțeles foarte bine. Ce ne spune această valoare? Ei bine, pentru a obține un rezultat mai evident privind scorurile persoanelor din grupul experimental în comparație cu cele din grupul de control, ar trebui să mai adăugăm, în grupul experimental, doi subiecți. Acest lucru înseamnă că dacă mai includem 100 de persoane în grupul experimental, 54,5% dintre aceștia vor răspunde statistic semnificativ la variabila independentă în comparație cu situația în care ar fi incluși în grupul de control.

Efecte extreme

Iată o altă situație pe care probabil nu o veți întâlni, aceea a unui efect extrem de puternic, diferența dintre medii fiind de 4 abateri standard (d=4). Ei bine, aici U3=100%, adică toți subiecții din grupul experimental obțin rezultate mai mari decât media rezultatelor subiecților din grupul de control, suprapunerea distribuțiilor fiind de doar 5% (OVL=5%) iar probabilitatea de superioritate este CL=97,77%. Cu alte cuvinte, orice subiect am alege, aleatoriu, din grupul experimental, există aproape 98% șanse ca rezultatul obținut de către acesta să fie mare decât rezultatul obținut de un subiect extras aleatoriu din grupul de control. Este ca și cum am compara numărul problemelor de matematică de nivel de olimpiadă pe care le rezolvă un grup de medaliați internațional la olimpiadele de matematică cu numărul problemelor rezolvate de un grup de elevi cu retard psihic de la o școală ajutătoare. Realizați deja că nu avem nevoie de un număr prea mare de subiecți pentru a obține o îmbunătățire. La un astfel de efect lucrurile sunt clare. Ați observat, de altfel, că pe măsură ce efectul crește, necesitatea de suplimentare a volumului eșantionului scade, după cum este și firesc.

O ultimă chestiune pe care doresc să o mai lămuresc aici este cea a reperelor pentru mărimea efectelor. Pornind chiar de la specificațiile lui Cohen, în termenii coeficientului „d”, lucrurile stau cam așa:

Mărimi ale efectului sub 0,2 indică efecte inexistente sau foarte slabe. Pentru acestea, la pragul d=0,2, U3=57,93%, suprapunerea este de 92% iar CL=55,62%. Mai mult, ar trebui să suplimentăm numărul de subiecți în grupul experimental cam cu 17 observații;

Mărimi ale efectului de peste 0,2, dar sub 0,5 arată existența unor efecte medii. La pragul maximal d=0,5, U3=69,15%, suprapunerea este de 80,26% iar CL=63,82%. Am mai putea include circa 6 observații pentru a trece la un efect mai puternic;

În cazul unei mărimi a efectului de peste 0,5, dar sub 0,8, vorbim despre efecte puternice. Aici, la d=0,8, U3=78,81%, procent al subiecților din grupul experimental care obțin rezultate mai mari decât media rezultatelor subiecților din grupul de control, suprapunerea este de 68,95% iar probabilitatea de superioritate exprimată procentual devine 71,42%. Nici de observații nu prea mai avem nevoie;

Peste 0,8 deja vorbim despre efecte extrem de puternice, de genul celor discutate mai sus.

Mă veți întreba, poate, de unde am scos graficele astea frumoase și cum puteți obține și dumneavoastră acești coeficienți derivați din „d”. Ei bine, de aici. Acesta este blogul lui Kristoffer Magnusson, un suedez pasionat de analiză de date și de programare, care știe de minune să exploateze puterea limbajelor Python și R. Blogul se numește R Psychologist și vi-l recomand cu toată căldura. Omul știe foarte bine ce face și veți găsi multe informații utile acolo.

Aplicații și considerațiuni privind mărimea efectului

Coeficientul „d” Cohen este cel mai cunoscut și cel mai utilizat. În prezent cercetările în care se raportează doar „p” au cam dispărut, nu mai acceptă nimeni rapoarte de acest tip. În mod obligatoriu, se raportează semnificația statistică („p”), dar și semnificația practică, sub forma mărimii efectului (de cele mai multe ori „d”), atât în rezumatul articolului, cât și la secțiunea de rezultate. Aceasta nu este însă singura utilizare a mărimii efectului. Putem folosi indicatorii și în faza de proiectare a cercetării, calculând numărul de subiecți necesari în vederea obținerii unei anumite puteri a studiului. Despre această aplicație, în următorul articol.

În cazul în care ați crede că mărimea efectului este o găselniță recentă, v-ați înșela. Metoda este disponibilă, într-o formă sau alta, de peste 60 de ani, însă în ciuda sugestiilor pe care le-au făcut diferite organizații profesionale, inclusiv APA, ea a fost rar aplicată în practică, cercetătorii rezumându-se la NHST. Doar studiile meta-analitice au luat în serios rolul mărimii efectelor. De ce s-a procedat astfel? Habar nu am. Zău așa, zici că este o conspirație împotriva mărimii efectului, nu alta. După cum ați văzut, nu este cine știe ce să analizezi mărimea efectului, mai ales că valoarea informațiilor ce rezultă este impresionantă. Cred că oamenii de știință sunt, și ei, tot oameni. Până nu impui, până nu obligi, nu obții nimic. Și asta ar putea fi o explicație a deciziei unor jurnale de a refuza cercetările bazate doar pe „p”.

Deoarece articolul a ieșit cam lung, chiar dacă aș mai fi avut unele lucruri de spus, le voi lăsă pentru al treilea articol, sper ultimul, în care vom vedea ce probleme are mărimea efectului și cum pot fi folosiți acești indicatori în mod responsabil. De asemenea, vom detalia puterea cercetării și vom vedea ce relații există între mărimea efectului, puterea cercetării și numărul de observații (mărimea lotului de cercetare).

2 thoughts on “Semnificație statistică, mărimea efectului și puterea cercetării (Partea a II-a – Efectele și mărimea lor)”

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *