Ce este funcționarea diferențială a itemului?

Sună foarte complicat, dar nu e chiar așa și are în vedere exact situația în care răspunsurile la un item pot fi influențate de una sau mai multe variabile de grup, cum ar fi genul biologic, categoria de vârstă, profesia, ocupația etc. În mod cert, un item care se adresează doar unei anumite categorii de subiecți, cum ar fi, spre exemplu, „Atunci când eram mic îmi plăcea să joc fotbal în curtea școlii”, cu adresabilitate predominant băieților, contaminează scorul final, deoarece exclude sau are o relevanță nesemnificativă pentru celălalt gen biologic, fapt care pune probleme serioase sub aspectul validității consecințelor măsurării. Asemenea tipuri de erori se numesc contaminări ale itemilor sau contaminări la nivel de itemi iar studiul acestora face parte dintr-un ramură relativ recentă care privește analiza validității și anume analiza contaminărilor testului (test bias analysis). Una dintre cele mai relevante tehnici prin care se pot studia asemenea contaminări, poartă numele de analiza funcționării diferențiale a itemului, sau DIF (Differential Item Functioning).

În cadrul acestei prezentări vom aborda, pe scurt, unele elemente esențiale privind locul pe care îl ocupă analiza contaminărilor testului, vom expune fundamentul teoretic al analizei funcționării diferențiale a itemului și vom exemplifica o serie de tehnici cu ajutorul cărora asemenea analize pot fi realizate în mod eficient.

Ce înseamnă o măsurare validă folosind un instrument?

Prin validitate înțelegem multe lucruri, fiind un concept intens studiat în cadrul școlilor de psihologie, dar puțin înțeles în practică. La modul cel mai simplu, validitatea reprezintă, tradițional, proprietatea unui instrument de a măsura constructul pe care se presupune că-l măsoară, iar orice studiu asupra validității presupune, ca o condiție preliminară, asigurarea fidelității, a consistenței scorurilor, chiar dacă o bună consistență nu înseamnă și o bună validitate a instrumentului. Astfel, validitatea este văzută ca o proprietate a măsurării cu acel instrument, cuprinzând mai multe forme:

  • Validitatea de conținut – modalitate prin care se verifică dacă eșantionul de comportamente selectat (conținutul itemilor) se potrivește constructului măsurat. Este o investigație predominant calitativă, bazată de obicei pe analiza în panel de experți, chiar dacă poate implica și proceduri cantitative (de exemplu indicatori ai acordului);
  • Validitatea de construct – modalitate cantitativă prin care se demonstrează că itemii selectați (eșantionul de comportamente) converg înspre constructul măsurat. Ca metode, se utilizează analiza factorială (validitatea factorială), corelațiile cu alte instrumente deja valide care măsoară același construct (validitatea inter-probe), corelații cu alte constructe despre care se știe că sunt asociate constructului măsurat (validitate convergentă), corelații cu alte constructe despre care se știe că nu sunt asociate constructului măsurat (validitate discriminantă);
  • Validitatea la criteriu – modalitate cantitativă prin care se demonstrează că eșantionul de comportamente selectat corelează cu un criteriu extern (de obicei cu un criteriu de performanță). Datele privind criteriul pot fi colectate în același moment în care se colectează datele legate de măsurarea constructului (validitate concurentă) sau pot fi colectate ulterior colectării datelor privind măsurarea constructului (validitate predictivă), aceasta fiind una dintre cele mai importante forme de validitate a măsurării cu proba respectivă.

În mod cert, asigurarea validității constructului măsurat reprezintă cel mai important lucru, deoarece în condițiile în care nu avem siguranța unor măsuri valide, toate celelalte demersuri devin inutile. La o analiză mai atentă putem însă constata că prin validitate nu înțelegem validitatea unui instrument, aceasta nu este o proprietate a instrumentului, ci o proprietate a inferențelor pe care le facem pornind de la acel instrument, adică o proprietate a măsurării cu acel instrument (Zumbo, A Handbook on the Theory and Methods of Differential Item Functioning (DIF): Logistic Regression Modeling as a Unitary Framework for Binary and Likert-Type (Ordinal) Item Scores, 1999). Trecem astfel din sfera procedeelor statistice care permit analiza validității, în cea a consecințelor unor decizii pe care le luăm folosind instrumentul, fapt care generează provocări noi.

Este bine cunoscut scandalul din Statele Unite ale Americii de la mijlocul secolului trecut, atunci când în urma testării inteligenței s-a postulat că inteligența albilor ar fi superioară inteligenței negrilor, ignorându-se o variabilă confundată importantă, anume educația. Instrumentele administrate nu aveau probleme privind validitatea și fidelitatea, însă conținând itemi dependenți de nivelul educației, nu erau echitabili în contextul respectivei cercetări. Iată de ce în ciuda unor instrumente bine construite, este foarte importantă și demonstrarea validității interpretării și utilizării scorurilor obținute (Bachman, 1990). Pe lângă procedurile tradiționale, absolut obligatorii în vederea asigurării cel puțin a celor trei forme de validitate, în prezent este aproape obligatorie conducerea unor cercetări prin care să se verifice existența contaminărilor (biasărilor) în cadrul măsurătorilor determinate de posibilele variabile confundate.

Prin urmare, conceptul de validitate se extinde de la instrument la consecințele utilizării instrumentului, debutând cu demersul de definire a constructului măsurat, continuând cu analiza itemilor cu care presupunem că se măsoară constructul și finalizând prin verificarea impactului măsurării, adică a consecințelor determinate de utilizarea instrumentului în scop diagnostic sau de cercetare. În cadrul acestei analize a contaminării măsurării, un loc aparte îl are, la nivel de item, funcționarea diferențială.

Ce este funcționarea diferențială a itemului. Efecte DIF

Orice item al unui instrument de testare reprezintă un comportament dintr-un univers teoretic infinit de comportamente potențial relaționate constructului latent măsurat. În condițiile unui item valid, acesta este saturat într-o anumită măsură cu factorul latent măsurat, saturație presupusă a fi constantă, fapt care poziționează acel item într-o anumită zonă de pe continuumul dimensiunii latente măsurate. Logic ar fi ca administrând acel item mai multor persoane cu același nivel al factorului latent, răspunsurile să coincidă.

Un item ca cel prezentat anterior („Atunci când eram mic îmi plăcea să joc fotbal în curtea școlii”) ar putea măsura preferința către o viață activă, sportivă. Putem pleca de la presupunerea că persoanele cu același nivel al preferinței către o viață sportivă vor răspunde activ la un astfel de item. Dacă nu se întâmplă acest lucru, care ar putea fi explicația? Remarcăm cu ușurință referirea la fotbal, un sport preferat mai mult de băieți decât de fete. Iată că un subiect de gen feminin ar putea răspunde non-activ la acest item, chiar dacă are același nivel al preferinței către o viață sportivă. În definitiv ar putea să-i placă baschet, volei sau aikido și nu fotbal.

În cazul unor astfel de itemi spunem că apare o funcționare diferențială, adică există probabilitatea ca subiecții cu același nivel al factorului latent, dar care fac parte din grupuri diferite, să elaboreze răspunsuri diferite (Clauser & Mazor, 1998). Așadar, pentru a vorbi despre funcționarea diferențială a unui item, trebuie avute în vedere trei elemente: (a) persoanele testate să aibă același nivel real al factorului latent, (b) să existe o variabilă de grup care să poată împărți subiecții în grupuri independente și (c) factorul latent care determină apariția unui efect DIF să nu facă parte din constructul măsurat. Dacă aceste trei condiții sunt cumulativ îndeplinite, putem vorbi despre existența unui bias determinat de variabila DIF (Karami, 2012). Iată că prezența funcției diferențiale la nivelul unui item, ca efect al unei variabile externe, nu este în mod obligatoriu semnul unui bias, variabila respectivă constituindu-se într-o sursă de eroare doar dacă nu este relaționată cu factorul latent măsurat.

Analiza funcției diferențiale a itemului debutează prin identificarea variabilelor, de preferință categoriale, care ar putea afecta răspunsurile la aceleași niveluri ale factorului latent, denumite și variabile DIF. Acestea pot avea două, rar mai multe categorii, cele dezavantajate de efectul DIF numindu-se grupuri focale iar cele presupuse ca fiind avantajate de efectul DIF recunoscându-se drept grupuri de referință, însă de cele mai multe ori nu există criterii foarte clare de stabilire a avantajelor/dezavantajelor, denumirea de grup focal sau grup de referință atribuindu-se arbitrar.

O variabilă DIF poate afecta răspunsurile la un item în două moduri: uniform și neuniform.

Vorbim despre un efect DIF uniform arunci când unul dintre grupuri obține niveluri mai ridicate ale factorului latent în comparație cu celălalt grup pe întregul continuum al factorului latent.

În exemplul dat anterior, un efect DIF uniform este reprezentat de o probabilitate mult mai mare a răspunsurilor active ale băieților în comparație cu probabilitatea răspunsurilor active ale fetelor, indiferent de nivelul preferinței către viața sportivă. De la persoanele fără preferințe spre viața sportivă, până la cele cu o viață sportivă cvasi-permanentă, probabilitatea ca un băiat să răspundă activ la acel item este cert mai mare față de probabilitatea de răspuns activ a unei fete.

Efectul DIF neuniform arată că până la un anumit nivel al factorului latent, unul dintre grupuri obține valori mai ridicate, apoi această tendință dispare, urmând a se inversa sau a reveni. În cazul de față, am putea spune că probabilitatea de răspuns activ la item este mai mare pentru fete decât pentru băieți la niveluri mici ale preferinței către viața sportivă, efectul devenind neglijabil în cazul nivelurilor medii, situația inversându-se pentru nivelurile mari ale preferinței către viața sportivă, când se remarcă o probabilitate de răspuns activ mai mare a băieților în comparație cu cea a fetelor.

Așa cum s-a menționat, prezența unui efect DIF nu este în mod obligatoriu semnul unui item biasat. Dacă factorul ce determină efectul DIF este relaționat, relevant pentru constructul evaluat, atunci nu vorbim despre bias, ci despre impact. Avem în vedere un bias doar dacă nu există nicio legătură între factorul ce determină efectul DIF și constructul măsurat. În exemplul de față, genul biologic, variabila DIF, nu este în niciun fel relaționat cu nivelul preferinței către o viață sportivă, prin urmare am putea presupune că acesta biasează itemul. Dacă în loc de genul biologic am fi avut ca variabilă DIF calitatea de membru al unui club de arte marțiale, atunci am putea presupune că acest factor este relaționat cu preferința către o viață sportivă, vorbind nu despre un bias, ci despre impactul apartenenței la un club sportiv asupra preferinței către o viață sportivă. Nu există însă vreun criteriu pentru a decide existența relației dintre variabila DIF și constructul măsurat, acest lucru apreciindu-se subiectiv sau prin apelul la un panel de experți.

O ultimă remarcă va fi realizată în legătură cu dimensiunea măsurată. De cele mai multe ori, itemul studiat face parte dintr-un instrument de măsură, fie acesta un test sau o scală. Pentru a putea fi analizat sub aspectul impactului sau al biasului determinat de o variabilă DIF, itemul va trebui raportat la măsura constructului, de obicei aceasta fiind reprezentată de scorul total, concept denumit criteriu intern. Este însă posibilă și analiza unui item izolat dacă se găsește o măsură externă a constructului (criteriu extern), dar această metodă presupune demonstrarea atât a fidelității măsurii constructului, cât și a faptului că itemul măsoară acest construct (McNamara, Roever, & Young, 2007).

Echitatea ca proprietate psihometrică a testului. Analizele DIF

Variabilele confundate nerelaționate constructului măsurat, cum ar fi genul biologic, rasa, nivelul educației, statusul socio-economic nu ar trebui să influențeze răspunsul la itemi și, indirect, scorul total, rolul unor astfel de analize fiind acela de a identifica itemii posibil biasați și de a explica motivele acestor influențe, deoarece astfel de biasuri pot avea consecințe serioase asupra utilizării scorurilor, dificil de corectat prin mijloace clasice. Metodele psihometrice utilizate în astfel de analize poartă numele de metode de analiză a echității (corectitudinii), DIF acoperind doar o parte a acestui domeniu, mai exact studiul felului în care apartenența subiecților la un grup poate influența răspunsurile la o probă.

Proiectarea unui studiu de analiză a echității pe baza funcționării diferențiale a itemului, deși simplu la prima vedere, comportă identificarea soluțiilor la o serie de probleme (Clauser & Mazor, 1998):

  • Ce variabile DIF se pot lua în calcul? Există o mulțime de variabile externe care pot forma grupuri pe baza cărora să se studieze funcționarea diferențială, dar care vor fi cele selectate? Răspunsul este mult mai complex decât pare, necesitând de multe ori o analiză folosind panelurile succesive de experți. Ca repere în literatura de specialitate (Zumbo, A Handbook on the Theory and Methods of Differential Item Functioning (DIF): Logistic Regression Modeling as a Unitary Framework for Binary and Likert-Type (Ordinal) Item Scores, 1999), se folosesc genul biologic, subcultura și rasa, însă o limitare doar la acestea este departe de a fi suficientă;
  • Cum se dihotomizează variabilele DIF? Deși posibile, analizele DIF ce implică mai multe grupuri sunt destul de pretențioase, preferându-se, de departe, variabile DIF cu doar două categorii, în general dihotomice;
  • Cât de mare trebuie să fie efectul pentru ca itemul să fie considerat bias? Nu este suficientă doar o simplă semnificație statistică pentru a decide dacă itemul este sau nu este biasat. Chiar dacă testul este statistic semnificativ, asta nu indică în mod obligatoriu prezența unui bias, deoarece metodologiile DIF sunt foarte sensibile la puterea cercetării (Zumbo & Hubley, A note on misconceptions concerning prospective and retrospective power, 1998);
  • Cum este tratat biasul? După stabilirea celor două grupuri, atenția este concentrată mai ales pe grupul focal. Sunt însă situații în care și afectarea grupului de referință poate reprezenta un bias, din acest motiv este importantă stabilirea reperelor de raportare a unui item biasat;
  • Ce se întâmplă cu itemii biasați? Cea mai rapidă abordare ar fi eliminarea lor din instrument, însă acest lucru poate fi făcut atunci când factorul este măsurat cu ajutorul unui număr mare de itemi, altfel renunțarea la itemi poate duce rapid la scăderea consistenței și punerea în discuție a validității constructului. O tehnică mai laborioasă ar consta în repunerea itemilor biasați în analiza conținutului, folosindu-se panelul de experți, pentru identificarea motivelor care determină apariția efectului, apoi reformularea și retestarea acestora. Chiar dacă este o procedură mai lungă și mai dificilă, avem garanția rafinării instrumentului.
  • Când se efectuează analiza DIF? Unii autori (Zumbo, A Handbook on the Theory and Methods of Differential Item Functioning (DIF): Logistic Regression Modeling as a Unitary Framework for Binary and Likert-Type (Ordinal) Item Scores, 1999) recomandă astfel de cercetări în cadrul studiului pilot, atunci când există un număr suficient de mare de cazuri pentru a se asigura puterea necesară. Dacă nu s-a proiectat un studiu pilot, atunci aceste analize se vor realiza pe eșantionul normativ, cel folosit la realizarea etaloanelor.

Dincolo de aceste considerațiuni de ordin general, studiile având la bază metodologia DIF pot fi grupate în funcție de patru criterii (Magis, Beland, Tuerlinckx, & De Boeck, 2010): (a) numărul de grupuri focale, (b) metodologia utilizată, (c) tipul de efect (c) necesitatea purificării itemilor. Deoarece aceste criterii formează, de fapt, întregul algoritm metodologic, le vom trata în cele ce urmează:

Numărul de grupuri focale

Unul dintre răspunsurile ce trebuiau anterior găsite se referea la modalitatea de dihotomizare, deoarece este mai avantajos ca variabila DIF să fie una cu două categorii, acest lucru conducând la existența unui grup focal și a unui grup de referință. Să considerăm însă vârsta ca variabilă DIF. Fiind natural continuă, pentru a putea forma grupuri aceasta trebuie transformată într-o variabilă categorială, spre exemplu în grupul de vârstă, format din tineri și vârstnici. În acest caz lucrurile sunt simple, grupul de referință putând fi considerat cel al tinerilor iar grupul focal, cel al vârstnicilor. Dacă avem însă trei categorii – tineri, medii și vârstnici – atunci lucrurile se complică. În primul rând, am avea dificultăți în stabilirea grupului de referință iar dacă, arbitrar, l-am alege pe cel al tinerilor, atunci am avea două grupuri focale: cei de vârstă medie și vârstnicii.

Iată că într-un astfel de scenariu metodele DIF uzuale nu sunt de prea mare folos, putând însă opta pentru trei analize DIF distincte: tineri cu medii, tineri cu vârstnici și medii cu vârstnici, însă o astfel de abordare, ca și în cazul testelor t Student, conduce la o reducere drastică a puterii cercetării, implicând, suplimentar, controlul pragului de semnificație prin intermediul unor proceduri de corecție (cum ar fi, spre exemplu, corecția Bonferroni). Ca variante mai eficiente se poate utiliza varianta generalizată a testului Lord sau cea a procedurii Mantel-Haenszel, ca și alte tehnici mai sofisticate bazate pe analize bayesiene.

Metodologia utilizată

Din acest punct de vedere putem remarca existența unui număr de patru clase de metode (McNamara, Roever, & Young, 2007):

  • Metode bazate pe analiza clasică a dificultății itemului (nivelul de acoperire în factor latent), cunoscute sub numele de metode „delta plot”;
  • Metode neparametrice bazate pe tabelele de contingență, numite și metode „chi pătrat”;
  • Metode bazate pe teoria răspunsului la item, numite și metode IRT;
  • Metode indirecte, neconcepute special pentru DIF, dar care se pot utiliza și în acest scop.

Reducând și mai mult clasificarea, unii autori (Magis, Beland, Tuerlinckx, & De Boeck, 2010) vorbesc chiar despre două mari abordări metodologice atunci când avem în vedere analiza funcționării diferențiale a itemului:

  • Metode non-IRT – nu implică estimarea parametrilor unui model de răspuns la item și care utilizează drept criteriu scorul total. Astfel de metode folosesc în general procedee neparametrice, din acest motiv numindu-se și metode neparametrice de analiză DIF.
  • Metode IRT – se bazează pe un model de răspuns la item, folosesc drept criteriu nivelul de acoperire în factor latent și presupun estimarea parametrilor itemilor. Sunt foarte puternice, parametrice, însă destul de pretențioase sub aspectul asumpțiilor și necesită un model de măsură perfect adecvat.

Toate aceste metode, inclusiv exemple concrete de lucru și explicațiile de rigoare pot fi studiate, pentru doar 11,89 euro (pot fi plătiți folosind PayPal) pe portalul de elearning New Skills Learning, în cadrul cursului online „Metode de analiză a funcționării diferențiale a itemului”. Aveți acolo manualul, videotutoriale, fișiere de cod R, baze de date de exercițiu, teme de verificare, teste, monitorizarea progresului și multe, multe altele, totul pe parcursul unui număr de 10 lecții. Sper să vă placă și să susțineți informația de calitate.

One thought on “Ce este funcționarea diferențială a itemului?”

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

Acest sit folosește Akismet pentru a reduce spamul. Află cum sunt procesate datele comentariilor tale.