Fundamentos de Psicometría: Puntuaciones, Fiabilidad y Validez en la Evaluación Psicológica

05 Feb

Por profesor
En Diseño e Ingeniería
Comentarios Ninguno

Sistemas de Baremación y Puntuaciones en Evaluación Psicológica

Baremos Cronológicos y Desarrollo

Baremos cronológicos: Se utilizan para rasgos psicológicos que evolucionan con la edad. Comparan la puntuación de un sujeto con las que obtienen los de su misma edad frente a los de edades diferentes (común en población infantil o tests de inteligencia).
Edad Mental (EM): Representa la puntuación media que obtiene en una prueba el conjunto de la población de una determinada edad cronológica.
Cociente Intelectual (CI): Se calcula mediante la fórmula EM / EC x 100. Es necesaria la Edad Cronológica (EC) para que el CI resulte verdaderamente significativo y permita realizar comparaciones válidas.
CI de Desviación: Es un nuevo concepto de CI que no compara la Edad Mental y la Edad Cronológica del mismo sujeto, sino el rendimiento del individuo con el rendimiento promedio de un grupo de referencia (basado en la edad). Es una puntuación estándar (Z) transformada de modo que el promedio es 100 y la desviación típica es 15. Indica la medida y dirección en que el resultado del sujeto se desvía del promedio de su grupo. No es un cociente o coeficiente en sentido estricto, sino una transformación de una puntuación estándar.
Puntuación Estándar (Z): Es la diferencia (resultado de una resta) entre la puntuación directa obtenida por el sujeto en el test y la media del grupo de referencia, dividida por la desviación típica de dicho grupo.
Edad Equivalente: Es fundamental conocer qué se espera que el niño haga en las diferentes etapas de su desarrollo mental. Esto se obtiene comparando sus Puntuaciones Directas (PD) y evaluando sus aptitudes a partir de sus resultados en cada prueba. Se define como la edad en la que la puntuación del niño es igual a la mediana (percentil 50) de la distribución de la muestra normativa.
Puntuaciones de Desarrollo: Son proporcionadas, por ejemplo, por las Escalas Bayley de Desarrollo Infantil. Para cada prueba, las PD se pueden transformar siguiendo la Teoría de Respuesta al Ítem (TRI): se calculan las puntuaciones de capacidad de acuerdo con el modelo logístico de un parámetro. Luego, se reescalan para constituir las Puntuaciones de Desarrollo con una media de 500 y una desviación típica de 100. Proporcionan una estimación de la capacidad independientemente de los niños de su misma edad y permiten seguir su desarrollo a lo largo del tiempo.
Baremos Centiles o Percentiles: Son medidas de posición en una distribución de frecuencias. Ordenan a los sujetos e indican el porcentaje del grupo que queda por debajo de una puntuación determinada. Se asigna a cada PD un valor en una escala de 1 a 100 (centil o percentil), indicando el porcentaje de sujetos del grupo normativo que obtienen puntuaciones iguales o inferiores. Es una de las puntuaciones más utilizadas en la práctica clínica y educativa.

Escalas Típicas Derivadas Normalizadas

Existen diversas transformaciones de las puntuaciones para facilitar su interpretación:

Puntuaciones T: Escala con media 50 y desviación típica 10.
Puntuaciones S: Escala con media 50 y desviación típica 20.
Decaetipos (DE): Escala con media 5.5 y desviación típica 2.
Eneatipos (EN): Escala con media 5 y desviación típica 2.
Escalas de CI: Escala con media 100 y desviación típica 15.
Puntuaciones Escalares (Pe): Escala con media 10 y desviación típica 3.

Teoría Clásica del Test (TCT)

La Teoría Clásica del Test establece que la puntuación que obtiene un sujeto en un test o puntuación observada (X) es igual a la puntuación verdadera o real (V) más algún error no sistemático de medida (E). La calificación real del sujeto sería el promedio de las clasificaciones que se obtendrían si una persona realizara la prueba una cantidad infinita de veces.

Fiabilidad

La fiabilidad se refiere a la exactitud (consistencia y estabilidad) de la medición de un test; es decir, la precisión con la que mide la prueba.

Dimensiones de la Fiabilidad

Consistencia interna: Grado en que los ítems miden de manera consistente el mismo constructo subyacente. El Coeficiente Alfa de Cronbach expresa la fiabilidad del test en función del número de ítems y de la proporción de la varianza total del test debida a la covariación.
Estabilidad temporal o coeficiente test-retest: Las puntuaciones del test deben ser similares en diferentes momentos o aplicaciones de la prueba en los que no haya habido cambios subyacentes en las variables. Se aplica la misma prueba a un mismo grupo de personas con un intervalo temporal suficiente para evitar el efecto del recuerdo, obteniendo el Coeficiente de Estabilidad.
Fiabilidad inter-jueces: Determina si dos o más resultados obtenidos por evaluadores distintos, o por el mismo evaluador en momentos diferentes, son coincidentes. Se calcula mediante un índice de concordancia, como el Índice Kappa.

Criterios de Interpretación de la Fiabilidad

0.5 – 0.6: Puede ser suficiente en primeras fases de investigación.
> 0.8: Requerido en investigación básica.
0.9 – 0.95: Necesario en investigación aplicada.
> 0.9: Imprescindible cuando se han de tomar decisiones que afectan a los individuos.
0.75 – 0.85: Fiabilidad moderada, apta para pruebas preliminares o de cribado (screening).
< 0.67: Fiabilidad baja; las pruebas deben ser rechazadas por incluir un exceso de error.

Validez

La validez es el grado en que un instrumento mide aquello que pretende medir. Es la cualidad más importante que debe poseer cualquier instrumento de evaluación. Una prueba puede ser fiable sin ser válida, pero no puede ser válida sin ser fiable (no puede ser solo válida).

Validación de Contenido

Grado en que los elementos que componen un instrumento constituyen una muestra relevante y representativa del posible universo de ítems que se podrían haber utilizado para medir el constructo. Se obtiene a través de juicios de expertos, revisión bibliográfica u observación de incidentes críticos.

a) Validez aparente: Grado en que un test da la impresión a los evaluados de que mide lo que se pretende.
b) Validez ecológica: Grado en que los comportamientos observados y registrados en una investigación reflejan lo que acontece en los escenarios naturales, permitiendo su generalización al mundo real.
c) Validez curricular: Grado en que el test refleja los objetivos, cultura y filosofía de la institución que realiza la medición.
d) Validez instruccional: Grado en que el test refleja la dinámica instruccional seguida para la enseñanza del contenido.

Validación Referida al Criterio

Establece relaciones empíricas entre las puntuaciones del test y un criterio o variable externa de interés.

a) Validación predictiva: Correlación entre las puntuaciones del test con las de algún criterio recogidas en el futuro. Determina la adecuación del test para predecir el rendimiento futuro (ej. selección de personal).
b) Validez concurrente: La administración del test y la medida del criterio son simultáneas. Se usa para validar un test nuevo por comparación con otro ya validado.
c) Validez retrospectiva: El criterio se mide antes que el test. Útil para dilucidar aspectos del pasado que ya no son accesibles directamente.

Validación del Constructo

Medida en que un test refleja la teoría psicológica a partir de la cual se ha construido y permite interpretar las puntuaciones dándoles un significado teórico.

a) Validez factorial: Utiliza el análisis factorial exploratorio (inductivo) y confirmatorio (deductivo).
b) Validez convergente-discriminante: Se evalúa mediante matrices multirrasgo-multimétodo (MRMM).
c) Validez consecuencial: Analiza los efectos colaterales no anticipados de los usos legítimos de los tests, especialmente efectos adversos relacionados con la baja representación del constructo.
d) Validez social: Vincula la evaluación e intervención en sujetos con retraso, considerando la repercusión social para el paciente y su entorno.

Otros Conceptos Relevantes

Utilidad: Se refiere a la sensibilidad, eficacia y grado en que la utilización de la técnica contribuye a la mejora de los resultados del tratamiento.
Validez incremental: Grado en que la inclusión de nuevas medidas e informantes a lo largo de la evaluación mejora consistentemente la predicción (considerando que «más» no siempre es mejor).
Exactitud: Grado en que una medida representa fielmente las características topográficas objetivas de la conducta de estudio.
Sensibilidad: Proporción de sujetos que realmente SÍ tienen el trastorno y han sido correctamente identificados por el test.
Especificidad: Proporción de sujetos que NO tienen el trastorno y han sido identificados correctamente por el test.
Puntuaciones Directas (PA): Indican el nivel puro de rendimiento en el test y se basan en la dificultad de los ítems (según el modelo de Rasch).

Preferencias por Corriente Teórica

Humanistas o Constructivistas: Prefieren técnicas subjetivas.
Psicodinámica: Utiliza preferentemente técnicas proyectivas.
Conductistas y Cognitivo-Conductuales (CC): Se decantan por técnicas psicométricas y objetivas.

Fuentes de Error en los Instrumentos

Pueden provenir de los autores y/o adaptadores, del propio contenido del test, de la inestabilidad de las puntuaciones a lo largo del tiempo, o de diferencias en la aplicación o corrección por parte de los evaluadores.

Clasificación de Tests y Manuales

Test nivel B: Ejemplo: BAT-7.
Test nivel C: Ejemplo: BAS-11. Estos requieren una formación específica, entrenamiento, ensayos y supervisión de expertos.
Tipos de manuales: Existen manuales técnicos y manuales de correcciones.

Etiquetas: Cociente Intelectual, evaluación psicológica, fiabilidad, Psicometría, Validez