Scurt ghid al etapelor de construcție a probelor psihologice

Foarte mulți pleacă de la ideea că ce mare lucru este să faci o probă psihologică? Scrii acolo niște întrebări, le administrezi unor persoane, faci o consistență internă să te asiguri că-i „validă” scala, faci un etalon că și așa ai mulți clienți la cabinet și iaca testul. După care, desigur, ți-l acreditezi, că altfel nu are nicio valoare. Mare lucru! Orice psiholog poate să o facă, nu-i așa? Ei bine, nu!

Adaptarea unei probe psihologice astfel încât aceasta să aibă o valoare diagnostică nu poate fi făcută de către o singură persoană, indiferent cât de pregătită este aceasta, ca să nu mai vorbim despre conceperea și dezvoltarea unui instrument nou. Acest demers este unul lung, costisitor, implică specialiști din mai multe domenii iar la final nu există garanția obținerii rezultatului scontat, ca de altfel în orice proces ce implică cercetare. Din acest motiv voi trece în revistă principalele etape ale construcției unui astfel de instrument, cu mențiunea că acestea se regăsesc și atunci când preluăm o probă deja construită într-o altă cultură și încercăm să o adaptăm. Desigur, mă voi rezuma doar să punctez lucrurile esențiale, fără pretenția de a vă oferi un instrument de lucru, deoarece acest domeniu este vast și am putea scrie, fără exagerare, mai multe volume.

Ideea și constructul

Orice instrument dorește să măsoare ceva. Înainte de a începe, trebuie să ne asigurăm de două lucruri: (a) acel „ceva” poate fi măsurat și (b) dacă da, cum poate fi măsurat astfel încât precizia să fie cât mai mare. Un construct precum „integritatea”, „dragostea” sau „patriotismul” pur și simplu nu poate fi măsurat, așa că nu are sens să ne mai chinuim, chiar dacă, între noi fie vorba, au apărut pe aici tot felul de metodologii de evaluare a integrității. Să fim serioși! Între integritate și opinia față de integritate există diferențe uriașe.

Este normal ca în această etapă să se desfășoare o intensă cercetare bibliografică pentru a vedea cum au tratat alții această problemă, dacă există soluții, dacă există idei și teorii pe care le-am putea folosi. Un instrument nu apare din neant, el trebuie să se bazeze pe ceva. Pe o teorie, pe anumite tipuri de comportamente observate și explicate, pe o nosologie etc. Toate acestea susțin constructul măsurat și se constituie în surse de validitate teoretică.

Operaționalizarea și harta constructului

Orice construct este prea general pentru a putea fi măsurat direct. Cum am putea oare măsura anxietatea, depresia, sociabilitatea, extraversiunea, ba chiar și inteligența? Ce înseamnă toate aceste cuvinte? Iată cum orice construct trebuie definit, trebuie să posede o definiție generală. Doar astfel vom afla ce este anxietatea, ce este depresia și așa mai departe pentru a avea o idee legată de ce anume vrem să măsurăm.

După ce ne-am lămurit în legătură cu ce măsurăm, trebuie să aflăm cum măsurăm, adică să furnizăm definițiile operaționale ale constructelor. Ce înseamnă anxietate ridicată, medie și scăzută? Care sunt comportamentele caracteristice acestor niveluri? Cum se comportă persoanele cu diferite niveluri de anxietate? În câte zone va trebui să împărțim continuum-ul constructului pentru a-l măsura optim? Dacă sunt 20 de niveluri ale măsurii anxietății, există 20 de definiții operaționale utile? Adică între nivelul 17 și nivelul 18 ar exista o diferențiere reală între subiecți? Nu ar fi mai bine să folosim doar 5 sau 7 niveluri deoarece o astfel de precizie nu se justifică?

Astfel de întrebări se pun în etapa de operaționalizare a constructului și au ca rezultat alcătuirea hărții constructului, o reprezentare a definițiilor și a nivelurilor optime de definire a continuum-ului, făcând parte tot din asigurarea validității teoretice. Chiar dacă instrumentul este preluat dintr-o altă cultură, regândirea definițiilor constructului este obligatorie, deoarece, spre exemplu, într-un fel este percepută sociabilitatea la ruși și în alt fel la nord coreeni sau la germani. De multe ori definițiile constructelor dintr-o cultură nu se potrivesc cu definițiile dintr-o altă cultură.

Destul de puțini dezvoltatori de probe iau în calcul astfel de analize, chiar dacă problema s-ar putea rezolva destul de ușor prin apelul la un panel de experți și prin utilizarea unor metode adecvate acestui scop (Delphi, RAND etc.), contaminând proba încă de la început, printr-o tratare superficială chiar a lucrului pe care-l măsurăm.

Construcția itemilor și a spațiul de răspunsuri

Fiecare definiție operațională a constructului, fiecare nivel al său, se constituie într-o zonă (indicator) ce trebuie acoperită cu itemi. Vom crea itemi care să se refere atât la comportamente ce presupun multă anxietate, cât și itemi specifici unei anxietăți foarte reduse sau itemi pentru anxietate medie. În această etapă vor fi generați mult mai mulți itemi (cam de 3 ori mai mulți) față de numărul final estimat, deoarece nu toți vor trece de exigențele analizelor viitoare. Într-o primă fază se vor crea (sau adapta) doar itemii, nu și spațiul de răspunsuri, urmând ca aceștia să fie supuși analizei unui panel de experți pentru asigurarea validității conținutului și a validității ecologice.

Experții vor putea ajunge la un acord privind faptul că: (a) itemul pare să măsoare constructul în general, (b) itemul pară să măsoare constructul la nivelul la care urmează să-l măsoare și (c) comportamentul descris de item este valabil pentru cultura și subculturile țintă. Este o etapă laborioasă, costisitoare și care presupune mai multe sesiuni. O parte dintre itemi vor fi rescriși, o altă parte se vor înlocui iar la final se va decide asupra spațiului de răspuns adecvat (dihotomic, nominal, ordinal).

Analiza validității constructului

Abia în acest moment putem vorbi despre elaborarea primei forme a instrumentului și colectarea datelor prin intermediul unui studiu pilot. Pe lângă faptul că lotul de cercetare va trebui să conțină categoriile din populația țintă, chiar dacă nu are caracteristicile unui eșantion, va avea și un număr suficient de mare de cazuri astfel încât să se poată îndeplini criteriile utilizării anumitor tehnici statistice. Numărul cazurilor este de ordinul sutelor și în niciun caz nu se vor folosi loturi de conveniență (doar studenți, doar pacienți, doar angajați ai unei firme sau dintr-un singur domeniu, cum ar fi cel militar).

Primul aspect investigat, după analizele univariate și după purificare, ține de consistență, pentru unii îmbrăcând doar forma coeficientului alpha al lui Cronbach. Este în regulă, dar nu este suficient. De obicei în urma acestei investigații se analizează corelațiile itemilor cu scorul total, se tratează varianțele negative și se elimină itemii cu probleme, însă o consistență bună nu indică o validitate a constructului.

Continuarea vizează analiza validității factoriale, fie prin analiza exploratorie, fie utilizând tehnici confirmatorii sau mixte (spre exemplu ESEM). De multe ori se apelează și la proceduri de scalare optimală, cum ar fi spre exemplu CATPCA, prin care se poate ajusta fin structura internă a scalei sau la analizele de cluster ori analizele HIC (Homogenity Index Composite), dar și altele ce vizează studiul dimensionalității.

În final ajungem (sau nu) la demonstrarea statistică faptului că itemii măsoară constructul postulat, însă acest lucru nu este suficient. Din teorie ar trebui să știm că acel construct corelează, la un anumit nivel, cu unele dimensiuni și nu corelează cu altele. Este momentul conducerii unui alt studiu, distinct de primul, prin care să asigurăm validitatea convergentă și discriminantă, arătând aceste relații. Dacă, spre exemplu, constructul nostru nu corelează cu depresia, atunci avem dubii că măsoară anxietatea. La fel, dacă depresia ar corela puternic cu exuberanța sau foarte puternic cu anxietatea, am avea o problemă, deoarece în primul caz un depresiv nu este exuberant iar în al doilea caz ar măsura același lucru. Dacă există deja o probă consacrată ce măsoară același construct, cu atât mai bine. Corelațiile cu cea probă sunt o altă sursă de validare a constructului, numită validitate inter-probe.

Validitatea consecințelor utilizării probei

Iată o altă formă de validitate despre care mulți dintre dumneavoastră aflați abia acum, dar foarte importantă în asigurarea echității, adică a lipsei defavorizării sau discriminării unui grup sub aspectul consecințelor pe care le pot avea rezultatele. Un item de genul „Când eram copil jucam fotbal în curtea școlii” este cert că favorizează băieții în detrimentul fetelor, indiferent ce măsoară acesta, genul biologic contaminând răspunsurile. La fel, un item de genul „Atunci când merg cu motocicleta îmi place să mă strecor printre mașinile oprite la semafor” ar fi contaminat de apartenența la grupul motocicliștilor și așa mai departe, consecințele existenței unor astfel de itemi conducând la rezultate eronate. Există o serie de tehnici statistice și non-statistice de identificare a acestor contaminări, una dintre cele mai importante fiind analiza funcționării diferențiale a itemilor (analizele DIF), dar care, pentru a fi eficiente, necesită de obicei volume mari de date.

Validitatea la criteriu

O probă care nu poate prezice un criteriu extern este inutilă. La ce am mai testa dacă nu pentru a putea face o serie de estimări asupra comportamentelor sau performanțelor viitoare? Testăm inteligența pentru a prezice că persoana respectivă nu va eșua lamentabil într-un domeniu profesional. Testăm depresia sau anxietatea pentru a garanta că individul este suficient de stabil pentru a primi o armă cu care nu se va împușca în secunda următoare. Iată cum, după ce s-a asigurat validitatea constructului, trebuie găsite o serie de criterii externe, din domeniul de aplicabilitate a probei, apoi concepute și conduse studii care vor demonstra puterea predictivă a instrumentului, practic utilitatea sa. Aici, în funcție de cum se colectează datele privind criteriul, vorbim despre validitate concurentă și validitate predictivă, iar ca metode de analiză avem regresiile (liniară, logistică, multinomială etc.) sau, mai nou, analizele SEM.

Asigurarea fidelității

Dacă am demonstrat că instrumentul măsoară ceea ce presupunem că măsoară, este timpul să vedem cât de precis măsoară, adică să vorbim despre fidelitate. Dacă am lua itemii instrumentului și i-am împărți, la întâmplare, în două, atunci cele două jumătăți ar trebui să coreleze, vorbind despre fidelitatea împărțirii la jumătate (split half). Dacă această împărțire s-ar duce la extrem, adică fiecare item ar fi un test, atunci ajungem la consistența internă, prima verificată atunci când am analizat validitatea factorială a constructului,  asta pentru că e un nonsens să includem itemi lipsiți de consistență în analiza factorială. Iată și motivul pentru care mulți confundă consistența internă cu o formă de analiză a validității constructului, în timp ce ea se referă la fidelitate.

În mod normal, pe timp relativ mediu (6 luni sau 1 an), constructele măsurate văzute drept trăsături ar trebui să fie relativ stabile. Dacă administrăm instrumentul unor persoane acum și îl administrăm din nou după 6-8 luni, rezultatele ar trebui să coreleze. Iată și fidelitatea test-retest, numită și stabilitate.

De multe ori, pentru a evita efectele memorării itemilor, același construct este măsurat cu ajutorul a două instrumente construite după același principii, numite forme echivalente sau forme paralele, cele două formulări nefiind sinonime. Iată că apare problema asigurării fidelității formelor paralele și, mergând mai departe, aceea a asigurării echivalenței rezultatelor, lucru care ține atât de fidelitate, cât și de echitate.

Normele și profilurile

Iată, dragilor, cum am ajuns, la final, la etaloane. Știu că cea mai mare problemă a unora e dacă proba este etalonată. Ba nu, asta e pe locul al doilea. Cea mai mare problemă e dacă-i acreditată, nu etalonată (sic!), însă etalonarea vine abia a sfârșit, după ce proba e validă și fidelă. De cele mai multe ori un instrument este folosit în vederea unei evaluări normative, prin intermediul etaloanelor, doar că acestea nu se fac oricum. Un eșantion normativ pentru populația generală are mii de persoane și trebuie să respecte caracteristicile unui eșantion, neputându-ne mulțumi doar cu loturi de cercetare, costurile sunt foarte mari și, pentru a tufli de tot pălăria, mai e și perisabil, etaloanele actualizându-se la un interval cuprins între 5 și 10 ani, în funcție de dinamica pe care o are constructul măsurat. Ca să fiu sincer, întregul instrument e destul de perisabil, după circa 10 ani recomandându-se ca munca să se reia.

În cazul unei evaluări criteriale, lucrurile nu sunt mai simple. Construcția unor profiluri tip sau a unor ecuații de predicție necesită loturi selectate, condiții controlate și încercări multiple pentru a izola cât mai bine variabilele confundate și a obține modele predictive cât mai puternice. Mai mult, trebuie asigurată replicabilitatea și reproductibilitatea, cerințe fără de care orice astfel de sistem este inutil.

Concluzie

Desigur, nu am discutat despre multe alte forme de validitate, cum ar fi cea de aspect, cea interculturală, despre sensibilitate, despre utilitate, nu am detaliat standardizarea și așa mai departe, însă am reușit, cred, să vă ofer o imagine de ansamblu în legătură cu demersul de construcție a unui instrument serios. Oricine s-ar apuca de așa ceva, nu va reuși singur. În echipe de specialiști serioase și numeroase, poate să dureze ani până când o astfel de probă are valoare diagnostică. Doar cine nu a analizat în viața lui o scală poate crede că-i simplu. Ca un astfel de demers să reușească, pe lângă experți în domeniul constructului măsurat avem nevoie de specialiști în psihometrie, în proiectarea și conducerea cercetărilor științifice, în statistică avansată și, desigur, un volum enorm de date de calitate, colectate în condiții controlate. Asta înseamnă operatori de teren, eșantionare, proceduri preliminare.

Iată de ce o probă costă pentru a o dezvolta și pentru a avea, cu adevărat, valoare diagnostică și nu costă deloc puțin. Ideea unui heirupism pompieristic gen Bumbești-Livezeni este cel puțin fantezistă și naivă. Faptul că un psiholog practician, oricât de pregătit ar fi, să-și construiască propriile probe psihologice este complet nerealist, cu atât mai mult cu cât utilizarea acestora ar putea avea consecințe serioase asupra vieții personale și profesionale a persoanelor testate.

Nu poți face o probă care să testeze depresia dacă nu ai cunoștințe solide privind această afecțiune. Degeaba ai cunoștințe solide dacă nu știi să conduci o cercetare pe baza unui panel de experți, nu știi să scrii itemi și să-i analizezi, nu ai cunoștințe foarte serioase de analiză de date și de psihometrie. Din nefericire, astfel de aptitudini nu se pot regăsi la un sigur om, oricâtă erudiție ar avea. Apoi va trebui să cheltui mulți bani pentru a colecta date de calitate și asta nu o sigură dată, ci de mai multe ori. Mai mult, durează și nu există garanția obținerii unui rezultat cert.

Vorbind în nume propriu, în domeniul construcției de probe psihologice am peste 20 de ani de experiență, mă pasionează și dedic mult timp acestor activități, însă nu m-aș putea apuca niciodată să dezvolt de unul singur nici măcar o scală pentru că probabilitatea de a eșua ar fi foarte mare.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *