Files

310 lines
46 KiB
Plaintext
Executable File
Raw Blame History

This file contains invisible Unicode characters

This file contains invisible Unicode characters that are indistinguishable to humans but may be processed differently by a computer. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

{\rtf1\ansi\ansicpg1252\uc1 \deff2\deflang1033\deflangfe3082{\fonttbl{\f0\froman\fcharset0\fprq2{\*\panose 02020603050405020304}Times New Roman;}{\f2\fmodern\fcharset0\fprq1{\*\panose 02070309020205020404}Courier New;}{\f23\froman\fcharset238\fprq2 Times New Roman CE;}{\f24\froman\fcharset204\fprq2 Times New Roman Cyr;}{\f26\froman\fcharset161\fprq2 Times New Roman Greek;}{\f27\froman\fcharset162\fprq2 Times New Roman Tur;}{\f28\froman\fcharset186\fprq2 Times New Roman Baltic;}{\f35\fmodern\fcharset238\fprq1 Courier New CE;}{\f36\fmodern\fcharset204\fprq1 Courier New Cyr;}{\f38\fmodern\fcharset161\fprq1 Courier New Greek;}{\f39\fmodern\fcharset162\fprq1 Courier New Tur;}{\f40\fmodern\fcharset186\fprq1 Courier New Baltic;}}{\colortbl;\red0\green0\blue0;\red0\green0\blue255;\red0\green255\blue255;\red0\green255\blue0;\red255\green0\blue255;\red255\green0\blue0;\red255\green255\blue0;\red255\green255\blue255;\red0\green0\blue128;\red0\green128\blue128;\red0\green128\blue0;\red128\green0\blue128;\red128\green0\blue0;\red128\green128\blue0;\red128\green128\blue128;\red192\green192\blue192;}{\stylesheet{\nowidctlpar\adjustright \f2\lang3082 \snext0 Normal;}{\*\cs10 \additive Default Paragraph Font;}{\s15\nowidctlpar\adjustright \f2\lang3082 \sbasedon0 \snext15 Texto de nota al final;}{\*\cs16 \additive \super \sbasedon10 endnote reference;}{\s17\nowidctlpar\adjustright \f2\lang3082 \sbasedon0 \snext17 Texto de nota al pie;}{\*\cs18 \additive \super \sbasedon10 footnote reference;}{\s19\fi-720\li720\ri720\sb480\nowidctlpar\tqr\tldot\tx9360\hyphpar0\adjustright \f2 \sbasedon0 \snext19 Tdc 1;}{\s20\fi-720\li1440\ri720\nowidctlpar\tqr\tldot\tx9360\hyphpar0\adjustright \f2 \sbasedon0 \snext20 Tdc 2;}{\s21\fi-720\li2160\ri720\nowidctlpar\tqr\tldot\tx9360\hyphpar0\adjustright \f2 \sbasedon0 \snext21 Tdc 3;}{\s22\fi-720\li2880\ri720\nowidctlpar\tqr\tldot\tx9360\hyphpar0\adjustright \f2 \sbasedon0 \snext22 Tdc 4;}{\s23\fi-720\li3600\ri720\nowidctlpar\tqr\tldot\tx9360\hyphpar0\adjustright \f2 \sbasedon0 \snext23 Tdc 5;}{\s24\fi-720\li720\nowidctlpar\tqr\tx9360\hyphpar0\adjustright \f2 \sbasedon0 \snext24 Tdc 6;}{\s25\fi-720\li720\nowidctlpar\hyphpar0\adjustright \f2 \sbasedon0 \snext25 Tdc 7;}{\s26\fi-720\li720\nowidctlpar\tqr\tx9360\hyphpar0\adjustright \f2 \sbasedon0 \snext26 Tdc 8;}{\s27\fi-720\li720\nowidctlpar\tqr\tldot\tx9360\hyphpar0\adjustright \f2 \sbasedon0 \snext27 Tdc 9;}{\s28\fi-1440\li1440\ri720\nowidctlpar\tqr\tldot\tx9360\hyphpar0\adjustright \f2 \sbasedon0 \snext0 \sautoupd index 1;}{\s29\fi-720\li1440\ri720\nowidctlpar\tqr\tldot\tx9360\hyphpar0\adjustright \f2 \sbasedon0 \snext0 \sautoupd index 2;}{\s30\nowidctlpar\tqr\tx9360\hyphpar0\adjustright \f2 \sbasedon0 \snext30 Encabezado de tda;}{\s31\nowidctlpar\adjustright \f2\lang3082 \sbasedon0 \snext31 Title;}{\*\cs32 \additive _Equation Caption;}}{\info{\title NOCIONES ELEMENTALES EN LA VALIDACION DE TESTS}{\author VRIPRI}{\operator VRIPRI}{\creatim\yr2001\mo5\dy24\hr11\min16}{\revtim\yr2001\mo5\dy24\hr11\min16}{\version2}{\edmins0}{\nofpages8}{\nofwords3978}{\nofchars22678}{\*\company ISP Pinar del Rio}{\nofcharsws27850}{\vern73}}\paperw12188\paperh15590\margl1440\margr1440 \widowctrl\ftnbj\aenddoc\pgnstart90\hyphhotz945\aftnnar\notabind\wraptrsp\nocolbal\sprslnsp\lytprtmet\hyphcaps0\viewkind1\viewscale100 \fet0{\*\ftnsep \pard\plain \nowidctlpar\adjustright \f2\lang3082 {\chftnsep
\par }}{\*\aftnsep \pard\plain \sl-20\slmult0\nowidctlpar\widctlpar\adjustright \f2\lang3082 {
\par }}{\*\aftnsepc \pard\plain \nowidctlpar\adjustright \f2\lang3082 {
\par }}{\*\aftncn \pard\plain \nowidctlpar\adjustright \f2\lang3082 {
\par }}\sectd \pgnrestart\pgnstarts90\linex0\headery1440\footery1440\colsx709\titlepg\sectdefaultcl {\header \pard\plain \qc\nowidctlpar\hyphpar0\adjustright \f2\lang3082 {\lang1024\cgrid {\shp{\*\shpinst\shpleft1440\shptop0\shpright10748\shpbottom240\shpfhdr1\shpbxpage\shpbypara\shpwr3\shpwrk0\shpfblwtxt0\shpz0\shplid2049{\sp{\sn shapeType}{\sv 1}}{\sp{\sn fFlipH}{\sv 0}}{\sp{\sn fFlipV}{\sv 0}}{\sp{\sn lTxid}{\sv 65536}}{\sp{\sn dxTextLeft}{\sv 0}}{\sp{\sn dyTextTop}{\sv 0}}{\sp{\sn dxTextRight}{\sv 0}}{\sp{\sn dyTextBottom}{\sv 0}}{\sp{\sn fFilled}{\sv 0}}{\sp{\sn lineWidth}{\sv 0}}{\sp{\sn fLine}{\sv 0}}{\sp{\sn fShadow}{\sv 0}}{\shptxt \pard\plain \nowidctlpar\tqc\tx4654\tqr\tx9308\adjustright \f2\lang3082 {\tab \tab }{\expnd0\expndtw-3\lang1033 P<>g No. }{\field{\*\fldinst ref {\expnd0\expndtw-3\lang1033 p<>gina \\* ARABIC}}{\fldrslt {\b\expnd0\expndtw-3\lang1033 <20>Error!Marcador no definido.}}}{\expnd0\expndtw-3\lang1033
\par }}}{\shprslt{\*\do\dobxpage\dobypara\dodhgt8192\dptxbx{\dptxbxtext\pard\plain \nowidctlpar\tqc\tx4654\tqr\tx9308\adjustright \f2\lang3082 {\tab \tab }{\expnd0\expndtw-3\lang1033 P<>g No. }{\field{\*\fldinst ref {\expnd0\expndtw-3\lang1033 p<>gina \\* ARABIC}}{\fldrslt {\b\expnd0\expndtw-3\lang1033 <20>Error!Marcador no definido.}}}{\expnd0\expndtw-3\lang1033
\par }}\dpx1440\dpy0\dpxsize9308\dpysize240\dpfillfgcr255\dpfillfgcg255\dpfillfgcb255\dpfillbgcr255\dpfillbgcg255\dpfillbgcb255\dpfillpat0\dplinehollow}}}}{
\par }\pard \qc\sa140\sl-100\slmult0\nowidctlpar\hyphpar0\adjustright {\fs10
\par }}{\*\pnseclvl1\pnucrm\pnstart1 {\pntxta .}}{\*\pnseclvl2\pnucltr\pnstart1 {\pntxta .}}{\*\pnseclvl3\pndec\pnstart1 {\pntxta .}}{\*\pnseclvl4\pnlcltr\pnstart1 {\pntxta .}}{\*\pnseclvl5\pndec\pnstart1 {\pntxtb (}{\pntxta )}}{\*\pnseclvl6\pnlcltr\pnstart1 {\pntxtb (}{\pntxta )}}{\*\pnseclvl7\pnlcrm\pnstart1 {\pntxta )}}{\*\pnseclvl8\pnlcltr\pnstart1 {\pntxta )}}{\*\pnseclvl9\pnlcrm\pnstart1\pnindent720\pnhang{\pntxtb (}{\pntxta )}}\pard\plain \qc\nowidctlpar\hyphpar0\adjustright \f2\lang3082 {\b\lang1033 NOCIONES ELEMENTALES EN LA VALIDACION DE TESTS.}{\field{\*\fldinst {\b\lang1033 PRIVATE }{\b\fs20\lang1033 {\*\datafield \bin16 phoenix}}}{\fldrslt }}{\b\lang1033
\par (I) TEORIA CLASICA DE LA CONFIABILIDAD}{\lang1033
\par }\pard \qj\nowidctlpar\hyphpar0\adjustright {\expnd0\expndtw-3\lang1033
\par \tab El objetivo principal de la }{\b\expnd0\expndtw-3\lang1033 teor<6F>a cl<63>sica de la confiabilidad}{\expnd0\expndtw-3\lang1033 es estimar la confiabilidad de los resultados observados en una prueba de rendimiento. El t<>rmino confiabilidad alude a la magnitud de la asociaci<63>n entre los puntajes o resultados observados y los resultados reales.
\par
\par \tab A la teor<6F>a cl<63>sica suele llam<61>rsele tambi<62>n }{\b\expnd0\expndtw-3\lang1033 teor<6F>a de los puntajes reales}{\expnd0\expndtw-3\lang1033 porque su fundamento te<74>rico se basa en una expresi<73>n o modelo matem<65>tico conocido como }{\b\expnd0\expndtw-3\lang1033 modelo de los puntajes reales.}{\expnd0\expndtw-3\lang1033
\par
\par
\par }{\b\expnd0\expndtw-3\lang1033 MODELO DE LOS PUNTAJES REALES}{\expnd0\expndtw-3\lang1033
\par
\par \tab Cuando un individuo se somete a una prueba de rendimiento, su puntaje observado representa su habilidad para la muestra de preguntas que contiene la prueba, en esa ocasi<73>n particular y bajo un conjunto dado de condiciones. Hay muchos factores que pueden afectar el rendimiento del individuo, que podr<64>a ser diferente para otro conjunto de preguntas de la prueba (sobre el mismo contenido, por supuesto) y para una prueba administrada en otro momento o bajo un conjunto de condiciones personales y circunstancias diferentes.
\par
\par \tab Si fuese posible administrar la prueba al mismo sujeto, bajo todo el conjunto de condiciones posibles, para el universo virtual de todas las preguntas posibles sobre el mismo contenido y en diferentes momentos, tendr<64>amos un conjunto infinito de puntajes observados cuyo promedio se define como el }{\b\expnd0\expndtw-3\lang1033 puntaje verdadero.}{\expnd0\expndtw-3\lang1033 En t<>rminos estad<61>sticos dir<69>amos que el puntaje verdadero es el valor esperado del puntaje observado. El puntaje verdadero es un par<61>metro desconocido y el puntaje observado una variable aleatoria (que cambia de una muestra a otra).
\par
\par \tab En t<>rminos formales, la relaci<63>n anterior entre puntaje observado y puntaje verdadero puede expresarse mediante el siguiente modelo aditivo:
\par
\par o = v + e (I)
\par
\par ...en donde o designa el puntaje observado, v el puntaje verdadero y e, el puntaje de error aleatorio, o simplemente el error.
\par
\par \tab Dado que v es un valor fijo, podemos escribir que E(v) = v, y dado que, adem<65>s, E(o) = v, tendremos que
\par
\par E(o) = E(v) + E(e) = v + E(e) = v
\par
\par \tab Por tanto E(e) = 0, lo cual quiere decir, que aunque un puntaje observado en particular puede diferir mucho del puntaje real, el promedio de muchos puntajes observados contiene muy poco error, y por tanto, est<73> cerca del puntaje observado.
\par
\par
\par
\par }{\b\expnd0\expndtw-3\lang1033 La estimaci<63>n de la confiabilidad}{\expnd0\expndtw-3\lang1033 }{\b\expnd0\expndtw-3\lang1033 y de los puntajes verdaderos}{\expnd0\expndtw-3\lang1033
\par
\par \tab La confiabilidad es la magnitud de la asociaci<63>n entre el puntaje real y el observado. Esta asociaci<63>n puede expresarse a trav<61>s del coeficiente de correlaci<63>n de Pearson entre o y v (v}{\expnd0\expndtw-3\lang1033\sub ov}{\expnd0\expndtw-3\lang1033 ), y se conoce como }{\b\expnd0\expndtw-3\lang1033 <20>ndice de confiabilidad}{\expnd0\expndtw-3\lang1033 [1]. Cuanto mayor sea v}{\expnd0\expndtw-3\lang1033\sub ov}{\expnd0\expndtw-3\lang1033 , mejor es o como estimador de v. Desafortunadamente no es posible estimar v}{\expnd0\expndtw-3\lang1033\sub ov}{\expnd0\expndtw-3\lang1033 porque los valores de o son desconocidos. Sin embargo, s<> es posible estimar el cuadrado de v}{\expnd0\expndtw-3\lang1033\sub ov}{\expnd0\expndtw-3\lang1033 , bajo ciertos supuestos.
\par
\par \tab Uno de estos supuestos es que el error (e) es independiente del puntaje verdadero (v), es decir, que la diferencia entre el puntaje observado y el puntaje verdadero no depende de <20>ste <20>ltimo. En este caso, el cuadrado de v}{\expnd0\expndtw-3\lang1033\sub ov}{\expnd0\expndtw-3\lang1033 , se convierte en el cociente entre la varianza de los puntajes observados y la varianza de los puntajes verdaderos, y se conoce como }{\b\expnd0\expndtw-3\lang1033 coeficiente de confiabilidad.}{\expnd0\expndtw-3\lang1033 Aunque no es posible estimar a v}{\expnd0\expndtw-3\lang1033\sub ov}{\expnd0\expndtw-3\lang1033 directamente a partir de puntajes observados, s<> es posible estimar a v}{\expnd0\expndtw-3\lang1033\super 2}{\expnd0\expndtw-3\lang1033\sub ov}{\expnd0\expndtw-3\lang1033 , cuando se satisfacen una serie de requerimientos que se conocen como los }{\b\expnd0\expndtw-3\lang1033 supuestos de los tests paralelos}{\expnd0\expndtw-3\lang1033 .
\par
\par \tab Supongamos que tenemos dos tests o ex<65>menes y que: (a) los puntajes en los ex<65>menes A y B tienen la misma varianza y (b) los errores en los ex<65>menes A y B son mutuamente independientes.}{\cs18\expnd0\expndtw-3\lang1033\super \chftn {\footnote \pard\plain \s17\qj\sa240\nowidctlpar\tx-720\hyphpar0\adjustright \f2\lang3082 {\cs18\expnd0\expndtw-3\lang1033 \~\~\~\~}{\cs18\expnd0\expndtw-3\lang1033\super \chftn }{\expnd0\expndtw-3\lang1033 El t<>rmino `error' en este contexto se utiliza en su acepci<63>n t<>cnica, o sea, como diferencia entre el puntaje verdadero y el observado y no como sin<69>nimo de equivocaci<63>n en la respuesta.}}}{\expnd0\expndtw-3\lang1033 Entonces
\par
\par r}{\expnd0\expndtw-3\lang1033\sub AB}{\expnd0\expndtw-3\lang1033 = v}{\expnd0\expndtw-3\lang1033\super 2}{\expnd0\expndtw-3\lang1033\sub ov}{\expnd0\expndtw-3\lang1033 = }{\b\expnd0\expndtw-3\lang1033 coeficiente de confiabilidad}{\expnd0\expndtw-3\lang1033
\par
\par \tab En otros t<>rminos, si logramos identificar dos ex<65>menes que satisfagan los supuestos de los tests paralelos, el coeficiente de correlaci<63>n de Pearson entre los puntajes observados en los dos ex<65>menes es igual al coeficiente de confiabilidad.
\par
\par \tab El coeficiente de confiabilidad es siempre positivo; sin embargo, el coeficiente de correlaci<63>n de Pearson puede tomar valores negativos (entre -1 y +1). Un valor negativo de r}{\expnd0\expndtw-3\lang1033\sub AB}{\expnd0\expndtw-3\lang1033 no tiene sentido y se interpretar<61>a como expresi<73>n de que los supuestos de los tests paralelos se han violado.
\par
\par \tab A partir del modelo (I) se puede obtener la siguiente relaci<63>n:
\par
\par Varianza observada = varianza verdadera + varianza del error (II)
\par
\par \tab Si en la expresi<73>n se divide entre la varianza observada, se tendr<64>a entonces que:
\par
\par Varianza verdadera varianza del error
\par \u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d = 1 - \u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d
\par Varianza observada varianza observada
\par ... es decir
\par
\par s}{\expnd0\expndtw-3\lang1033\super 2}{\expnd0\expndtw-3\lang1033\sub e}{\expnd0\expndtw-3\lang1033
\par v}{\expnd0\expndtw-3\lang1033\super 2}{\expnd0\expndtw-3\lang1033\sub ov}{\expnd0\expndtw-3\lang1033 = 1 - \u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d o
\par s}{\expnd0\expndtw-3\lang1033\super 2}{\expnd0\expndtw-3\lang1033\sub o}{\expnd0\expndtw-3\lang1033
\par
\par
\par s}{\expnd0\expndtw-3\lang1033\super 2}{\expnd0\expndtw-3\lang1033\sub e}{\expnd0\expndtw-3\lang1033
\par \u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d = 1 - v}{\expnd0\expndtw-3\lang1033\super 2}{\expnd0\expndtw-3\lang1033\sub ov}{\expnd0\expndtw-3\lang1033 , de donde
\par s}{\expnd0\expndtw-3\lang1033\super 2}{\expnd0\expndtw-3\lang1033\sub o}{\expnd0\expndtw-3\lang1033
\par
\par varianza del error = varianza observada*(1- coef. de confiab)
\par
\par \tab Esta expresi<73>n permite estimar la varianza del error (y su ra<72>z cuadrada que se conoce como }{\b\expnd0\expndtw-3\lang1033 error est<73>ndar de la estimaci<63>n}{\expnd0\expndtw-3\lang1033 ), a partir de la varianza observada y del coeficiente de confiabilidad. Una vez que se dispone del error est<73>ndar de la estimaci<63>n, podemos construir intervalos de confianza para estimar un puntaje verdadero. Para ello, un intervalo de confianza al 95% de confiabilidad ser<65>a,
\par
\par [o - 1.96* s}{\expnd0\expndtw-3\lang1033\sub e}{\expnd0\expndtw-3\lang1033 ; o + 1.96* s}{\expnd0\expndtw-3\lang1033\sub e}{\expnd0\expndtw-3\lang1033 ]
\par
\par
\par }{\b\expnd0\expndtw-3\lang1033 C<>mo construir ex<65>menes paralelos}{\expnd0\expndtw-3\lang1033
\par
\par \tab La posibilidad de estimar la confiabilidad y el error est<73>ndar de la estimaci<63>n depende de nuestra habilidad para identificar tests que satisfagan el supuesto de los tests paralelos.
\par
\par \tab Un m<>todo simple para intentar conseguir tests paralelos es el dise<73>o en observaciones repetidas, es decir, el dise<73>o de test-retest. Sin embargo, debido, entre otros, al efecto del aprendizaje de una administraci<63>n del test a la siguiente, puede ocurrir que los puntajes verdaderos cambien, con lo cual se establece una circunstancia violatoria del paralelismo. La correlaci<63>n entre dos ex<65>menes id<69>nticos a partir del dise<73>o test-retest, es s<>lo una aproximaci<63>n del coeficiente de confiabilidad y se denomina, por razones obvias, }{\b\expnd0\expndtw-3\lang1033 coeficiente de estabilidad.}{\expnd0\expndtw-3\lang1033
\par
\par \tab Otra estrategia consiste en intentar construir dos versiones equivalentes (A y B) del mismo examen. Si ambas versiones se administran al mismo grupo de sujetos, se puede calcular el coeficiente de correlaci<63>n de Pearson entre ellas, y se obtiene as<61> un nuevo estimado del coeficiente de confiabilidad, denominado }{\b\expnd0\expndtw-3\lang1033 coeficiente de equivalencia,}{\expnd0\expndtw-3\lang1033 porque es una medida de la equivalencia real entre ambas versiones.
\par
\par \tab Una alternativa m<>s eficiente consiste en construir un solo examen pero dividirlo en dos mitades a cada una de las cuales, se le considera como una versi<73>n de dos ex<65>menes equivalentes. El coeficiente de correlaci<63>n entre ambas mitades se conoce como }{\b\expnd0\expndtw-3\lang1033 coeficiente de consistencia interna}{\expnd0\expndtw-3\lang1033 y es tambi<62>n una estimaci<63>n aproximada del coeficiente de confiabilidad. Sin embargo, este coeficiente refleja s<>lo la confiabilidad de los puntajes de una mitad del test. Puede demostrarse que cuanto m<>s largo sea un examen, mayor es el coeficiente de confiabilidad [2], por lo cual el coeficiente de correlaci<63>n de Pearson en un dise<73>o en dos mitades, produce una subestimaci<63>n de la confiabilidad. Dicha subestimaci<63>n puede corregirse a trav<61>s de la f<>rmula de Spearman-Brown, que tiene en cuenta el efecto sobre v}{\expnd0\expndtw-3\lang1033\super 2}{\expnd0\expndtw-3\lang1033\sub ov}{\expnd0\expndtw-3\lang1033 , de un factor K de acortamiento o alargamiento en el tama<6D>o del test.
\par
\par \tab Si la longitud de un test var<61>a en un factor K, la confiabilidad del puntaje total del test v}{\expnd0\expndtw-3\lang1033\super 2}{\expnd0\expndtw-3\lang1033\sub ov}{\expnd0\expndtw-3\lang1033\super *}{\expnd0\expndtw-3\lang1033 es:
\par \tab
\par Kv}{\expnd0\expndtw-3\lang1033\super 2}{\expnd0\expndtw-3\lang1033\sub ov}{\expnd0\expndtw-3\lang1033
\par v}{\expnd0\expndtw-3\lang1033\super 2}{\expnd0\expndtw-3\lang1033\sub ov}{\expnd0\expndtw-3\lang1033\super *}{\expnd0\expndtw-3\lang1033 = \u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d (III)
\par 1 + (K - 1) v}{\expnd0\expndtw-3\lang1033\super 2}{\expnd0\expndtw-3\lang1033\sub ov}{\expnd0\expndtw-3\lang1033
\par
\par ...en donde v}{\expnd0\expndtw-3\lang1033\super 2}{\expnd0\expndtw-3\lang1033\sub ov}{\expnd0\expndtw-3\lang1033 es la confiabilidad del examen original.
\par
\par \tab En el caso particular de que el test se haya dividido en dos partes, la expresi<73>n (III) se convierte en:
\par
\par
\par 2v}{\expnd0\expndtw-3\lang1033\super 2}{\expnd0\expndtw-3\lang1033\sub ov}{\expnd0\expndtw-3\lang1033
\par v}{\expnd0\expndtw-3\lang1033\super 2}{\expnd0\expndtw-3\lang1033\sub ov}{\expnd0\expndtw-3\lang1033\super *}{\expnd0\expndtw-3\lang1033 = \u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d (IV)
\par 1 + v}{\expnd0\expndtw-3\lang1033\super 2}{\expnd0\expndtw-3\lang1033\sub ov}{\expnd0\expndtw-3\lang1033
\par
\par ... en donde v}{\expnd0\expndtw-3\lang1033\super 2}{\expnd0\expndtw-3\lang1033\sub ov}{\expnd0\expndtw-3\lang1033 es el coeficiente de correlaci<63>n de Pearson entre las dos mitades del examen.
\par
\par \tab Otra dificultad que se asocia al dise<73>o en dos mitades con el prop<6F>sito de conseguir paralelismo, es la arbitrariedad en la elecci<63>n de la partici<63>n, que conduce a estimaciones diferentes de la confiabilidad. En tal caso cabe preguntarse cu<63>l es el mejor estimado de v}{\expnd0\expndtw-3\lang1033\super 2}{\expnd0\expndtw-3\lang1033\sub ov}{\expnd0\expndtw-3\lang1033 .
\par
\par \tab La soluci<63>n pr<70>ctica a esta dificultad consiste en llevar la partici<63>n del test, no a la mitad, sino hasta el nivel m<>s fino posible, que es el nivel de pregunta o item. As<41> pues, para un examen con K preguntas tendr<64>amos K tests paralelos con una pregunta cada uno. A partir de datos observados, podr<64>amos calcular la correlaci<63>n de Pearson entre todos los pares posibles de preguntas, y el promedio de todos estos coeficientes nos dar<61>a el mejor estimador de la confiabilidad de una pregunta cualquiera. Este promedio ser<65>a entonces corregido mediante la f<>rmula de Spearman-Brown para as<61> estimar el v}{\expnd0\expndtw-3\lang1033\super 2}{\expnd0\expndtw-3\lang1033\sub ov}{\expnd0\expndtw-3\lang1033\super *}{\expnd0\expndtw-3\lang1033 del puntaje total para todas las preguntas. Es decir, para un examen con K preguntas:
\par _
\par Kv}{\expnd0\expndtw-3\lang1033\super 2}{\expnd0\expndtw-3\lang1033\sub ov}{\expnd0\expndtw-3\lang1033
\par v}{\expnd0\expndtw-3\lang1033\super 2}{\expnd0\expndtw-3\lang1033\sub ov}{\expnd0\expndtw-3\lang1033\super *}{\expnd0\expndtw-3\lang1033 = \uc1\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d (V)
\par _
\par 1 + (K - 1) v}{\expnd0\expndtw-3\lang1033\super 2}{\expnd0\expndtw-3\lang1033\sub ov}{\expnd0\expndtw-3\lang1033
\par _
\par ... en donde v}{\expnd0\expndtw-3\lang1033\super 2}{\expnd0\expndtw-3\lang1033\sub ov}{\expnd0\expndtw-3\lang1033 designa el promedio de las correlaciones entre todos los pares posibles de preguntas.
\par
\par \tab A este resultado se le conoce como }{\b\expnd0\expndtw-3\lang1033 el <20>ndice Alpha de las preguntas estandarizadas}{\expnd0\expndtw-3\lang1033 , y constituye el enfoque m<>s completo para conseguir paralelismo dentro del esquema o dise<73>o de la consistencia interna. No obstante, para un examen grande, el c<>lculo del indice Alpha entra<72>a el c<>lculo de K(K-1)/2 correlaciones, que puede llegar a ser un n<>mero prohibitivamente grande a medida que se incrementa K.
\par
\par \tab Una cota inferior del <20>ndice Alpha, puede estimarse de modo eficiente a trav<61>s de la conocida \uc1\u945\'61 de Cronbach que se calcula como sigue:
\par
\par }{\f38\expnd0\expndtw-3\lang1033 \'d3 \'f3}{\expnd0\expndtw-3\lang1033\sub i}{\expnd0\expndtw-3\lang1033\super 2}{\expnd0\expndtw-3\lang1033
\par }{\f38\expnd0\expndtw-3\lang1033 \'e1 = (K/(K-1)) ( 1 - \uc1\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d)
\par \tab \'f3}{\expnd0\expndtw-3\lang1033\sub o}{\expnd0\expndtw-3\lang1033\super 2}{\expnd0\expndtw-3\lang1033
\par
\par }{\b\expnd0\expndtw-3\lang1033 Implicaciones conceptuales y pr<70>cticas}{\expnd0\expndtw-3\lang1033
\par
\par \tab La posibilidad real de estimar la confiabilidad de los puntajes depende de que se satisfagan los supuestos de independencia y paralelismo, y hasta el momento no existe ning<6E>n m<>todo para verificar el cumplimiento de estos supuestos. La teor<6F>a cl<63>sica conduce al hecho contradictorio de tener, eventualmente, varios estimadores de la confiabilidad que pueden diferir considerablemente entre s<>.
\par
\par \tab Conceptualmente es inaceptable, por ejemplo, concluir que un examen tiene alta consistencia interna pero poca estabilidad, porque tanto un criterio como el otro son estimadores del mismo coeficiente de confiabilidad v}{\expnd0\expndtw-3\lang1033\super 2}{\expnd0\expndtw-3\lang1033\sub ov}{\expnd0\expndtw-3\lang1033 . Esta incongruencia se hace mucho m<>s evidente al considerar el error est<73>ndar de la estimaci<63>n, puesto que cada una de las estimaciones de la confiabilidad da lugar a una estimaci<63>n correspondiente del error est<73>ndar de la estimaci<63>n, y por tanto a varias estimaciones diferentes de los puntajes reales, lo cual carece de toda interpretaci<63>n posible.
\par
\par \tab La existencia de un solo coeficiente de confiabilidad, implica que hay una sola varianza del error y por tanto un solo error est<73>ndar de la estimaci<63>n, aplicable al puntaje observado, independientemente de su magnitud. Este hecho obliga a interpretar con cautela las estimaciones de los puntajes verdaderos que corresponden a puntajes observados muy extremos (muy altos o muy bajos).
\par
\par }\pard \qc\nowidctlpar\hyphpar0\adjustright {\expnd0\expndtw-3\lang1033 \page }{\b\lang1033 NOCIONES ELEMENTALES EN LA VALIDACION DE TESTS.
\par (II) RUDIMENTOS DE TEORIA DE LA GENERALIZABILIDAD.}{\lang1033
\par }\pard \qj\nowidctlpar\hyphpar0\adjustright {\expnd0\expndtw-3\lang1033
\par \tab La teor<6F>a de la generalizabilidad se diferencia de la teor<6F>a cl<63>sica en dos aspectos fundamentales: (a) se basa en un supuesto m<>s d<>bil, a saber, el supuesto de que las preguntas de dos ex<65>menes son muestras aleatorias extra<72>das del mismo inventario de preguntas y (b) admite, no uno, sino varios coeficientes de confiabilidad, tantos como fuentes de variaci<63>n puedan identificarse.
\par
\par \tab El elemento clave en la teor<6F>a de la generalizabilidad es precisamente el de las fuentes de variaci<63>n. Supongamos que un mismo examinador eval<61>a el mismo examen en varios d<>as diferentes. Si asignase siempre el mismo puntaje, dir<69>amos que hay un alto grado de confiabilidad intra-examinador. Si, por el contrario, asignase diferentes puntajes, dir<69>amos que hay cierta falta de confiabilidad intra-examinador. Una buena medida de la confiabilidad intra-examinador es la varianza de los puntajes del examinador en cuesti<74>n a lo largo de los d<>as. Cuanto mayor sea esa varianza, menor es la confiabilidad y mayor el error intra-examinador.
\par
\par \tab Si elegimos varios examinadores, todos con perfecta confiabilidad intra-examinador, y los hacemos evaluar el examen cada uno una vez, la varianza que se obtenga es expresi<73>n de un error inter-examinadores. Cuanto menor sea este error, mayor ser<65> la confiabilidad inter-examinadores.
\par
\par \tab Si un solo examinador, con absoluta confiabilidad interna, eval<61>a el examen de un solo sujeto y obtiene puntajes diferentes en las preguntas, la variaci<63>n no es intra-examinador, ni inter-examinador, sino inter-preguntas, y dicha variaci<63>n es expresi<73>n de la falta de consistencia interna de las preguntas dentro del mismo examen.
\par
\par \tab Por <20>ltimo, si un examen con varias preguntas con absoluta consistencia interna, se administra a varios sujetos y se usan varios revisores con perfecta confiabilidad intra e inter-revisor, la varianza sobre los puntajes es simplemente varianza entre sujetos. El conocimiento de las magnitudes de todas estas varianzas contribuye a determinar la confiabilidad de los puntajes.
\par
\par }{\b\expnd0\expndtw-3\lang1033 Varianzas verdaderas y varianzas de error}{\expnd0\expndtw-3\lang1033
\par
\par \tab De todas las fuentes de variaci<63>n descritas, varias son indeseables y revelan falta de confiabilidad. Son ellas las variaciones intra-revisor, inter-revisores e inter-preguntas. Sin embargo, la variaci<63>n entre sujetos es deseable, porque precisamente el prop<6F>sito del examen es determinar y diferenciar los niveles de habilidad entre los sujetos. La variaci<63>n entre sujetos no es falta de confiabilidad. La varianza entre sujetos es }{\b\expnd0\expndtw-3\lang1033 varianza verdadera}{\expnd0\expndtw-3\lang1033 . Las varianzas que definen la falta de confiabilidad son }{\b\expnd0\expndtw-3\lang1033 varianzas de error}{\expnd0\expndtw-3\lang1033 .
\par
\par \tab Los ejemplos mencionados no son las <20>nicas fuentes de error. Te<54>ricamente hay ilimitadas fuentes de error.
\par
\par \tab El an<61>lisis de la varianza, que presentamos someramente en un cap<61>tulo anterior, a prop<6F>sito del problema de la comparaci<63>n entre varios grupos, es el procedimiento de elecci<63>n para calcular la varianza debida a cada una de las fuentes de variaci<63>n de inter<65>s. En las aplicaciones cl<63>sicas del an<61>lisis de la varianza, el prop<6F>sito es averiguar si la variaci<63>n debida a cada factor es o no significativa. En el contexto de la teor<6F>a de la generalizabilidad, el prop<6F>sito es estimar la magnitud de la variaci<63>n asociada con cada factor.
\par
\par \tab Es de crucial importancia identificar }{\b\expnd0\expndtw-3\lang1033 el objeto de medici<63>n}{\expnd0\expndtw-3\lang1033 , porque la varianza relativa al objeto de medici<63>n no es varianza de error sino verdadera varianza, es decir, varianza deseable, mientras que las varianzas atribuible al resto de las fuentes de variaci<63>n son varianza de error. Si varios profesores califican los ex<65>menes de un grupo de alumnos, lo natural es que los alumnos constituyan el objeto de medici<63>n y la falta de confiabilidad inter-profesor sea la varianza de error, pero es totalmente plausible imaginar un problema en que lo que se busca es distinguir la capacidad evaluadora de los distintos profesores, en cuyo caso, la calificaci<63>n de cada profesor se convierte en el objeto de medici<63>n y la variabilidad inter-profesor es deseable. As<41> pues, dependiendo del dise<73>o y del objeto de medici<63>n que se identifique -de acuerdo al objetivo-, las diferentes varianzas pueden tener diferentes significados.
\par
\par \tab A las fuentes de variaci<63>n que no corresponden al objeto de medici<63>n, y que por lo tanto, aportan error de medici<63>n, se les denomina }{\b\expnd0\expndtw-3\lang1033 facetas.}{\expnd0\expndtw-3\lang1033 Por ejemplo, si un examen de anatom<6F>a consta de varias preguntas, cada una de las cuales explora un <20>rea tem<65>tica diferente, y es calificado por varios profesores, y si el prop<6F>sito es explorar el conocimiento de anatom<6F>a de los examinandos, las fuentes de error o facetas son los profesores que califican y las <20>reas tem<65>ticas, y se trata de un dise<73>o de dos facetas. Cada faceta tiene varios }{\b\expnd0\expndtw-3\lang1033 niveles}{\expnd0\expndtw-3\lang1033 : si el examen del ejemplo es evaluado por 4 profesores-calificadores y consta de 5 preguntas, 4 y 5 son los niveles de cada faceta.
\par
\par \tab Cada faceta puede considerarse }{\b\expnd0\expndtw-3\lang1033 fija}{\expnd0\expndtw-3\lang1033 o }{\b\expnd0\expndtw-3\lang1033 aleatoria}{\expnd0\expndtw-3\lang1033 . Una faceta es fija cuando sus niveles no cambian, es decir, cuando las condiciones de medici<63>n para dicha faceta son siempre las mismas. Si en el ejemplo anterior, los profesores son siempre los mismos, de modo que toda inferencia acerca de las habilidades de los estudiantes se refiere siempre al mismo grupo de profesores, entonces la faceta profesor se considera fija y se dice que ha sido }{\b\expnd0\expndtw-3\lang1033 estandarizada}{\expnd0\expndtw-3\lang1033 . Aunque no se exprese de modo expl<70>cito, se sobrentiende que las conclusiones relativas a las habilidades de los estudiantes se restringen al caso en que son calificados por los mismos profesores. Una faceta es aleatoria si sus niveles son considerados como una muestra de un conjunto mayor de niveles, que es lo que ocurrir<69>a si el examen si hubiese confeccionado eligiendo 5 de un grupo mayor de <20>reas tem<65>ticas posibles, o seleccionando 4 profesores de un claustro mayor.
\par
\par \tab Cuando una faceta es fija, es decir, cuando ha sido estandarizada, se convierte autom<6F>ticamente en parte del objeto de medici<63>n y deja de aportar varianza de error. Esto es bueno t<>cnicamente porque aumenta la confiabilidad y reduce las fuentes de error, pero desde el punto de vista pr<70>ctico limita la utilidad del estudio, porque restringe el objeto de medici<63>n a las condiciones fijas especificadas por las facetas que han sido estandarizadas. Para poder aplicar la teor<6F>a de la generalizabilidad, al menos una de las facetas tiene que ser aleatoria. Esto es conceptualmente obvio, ya que si todas las facetas son fijas, el puntaje es totalmente confiable y no hay necesidad de estimar la confiabilidad; no obstante, el objeto de medici<63>n es extremadamente limitado y, por tanto, de escasa utilidad.
\par
\par \tab En la teor<6F>a cl<63>sica, el puntaje verdadero se define de una manera muy general, que se restringe a la `habilidad de una persona'. Por tanto, puede haber s<>lo un puntaje verdadero, ya que las circunstancias de medici<63>n no son contextualizadas, como s<> lo son para la teor<6F>a de la generalizabilidad, que concibe la existencia de varios puntajes verdaderos, que dependen del dise<73>o, de las facetas aleatorias y de las fuentes de medici<63>n [3], todo lo cual puede dar lugar a varios coeficientes de confiabilidad.
\par
\par \tab Los dise<73>os de medici<63>n pueden ser }{\b\expnd0\expndtw-3\lang1033 cruzados o anidados.}{\expnd0\expndtw-3\lang1033 En un dise<73>o cruzado todos los objetos de medici<63>n son medidos bajo todos los niveles de todas las facetas. En un dise<73>o anidado, los objetos de medici<63>n no son medidos bajo todos los niveles identificados de todas las facetas. Por ejemplo, en el caso de los ex<65>menes de anatom<6F>a con cinco preguntas -correspondientes a sendos contenidos tem<65>ticos- y cuatro profesores, cada profesor puede revisar todas las preguntas de todos los alumnos. De este modo cada alumno recibe 20 puntajes (5 preguntas x 4 profesores). Tambi<62>n puede ocurrir, que cada profesor revise s<>lo los ex<65>menes de sus propios alumnos, en cuyo caso el efecto o la faceta `profesor' est<73> }{\b\expnd0\expndtw-3\lang1033 anidada}{\expnd0\expndtw-3\lang1033 dentro de los alumnos. En general los dise<73>os cruzados son m<>s informativos pero mucho m<>s costosos y dif<69>ciles de llevar a cabo.
\par
\par \tab En la teor<6F>a de la generalizabilidad, la investigaci<63>n se realiza com<6F>nmente en dos planos diferentes. Uno se limita a estimar la variabilidad y la confiabilidad asociada a cada faceta aleatoria en el dise<73>o de medici<63>n adoptado; otro busca conocer los efectos que produce la introducci<63>n de cambios en el dise<73>o, digamos, qu<71> ocurre cuando algunas facetas se estandarizan, o cuando se reducen sus niveles. Por ejemplo, podr<64>a ser deseable estudiar cu<63>nto se reduce el error de medici<63>n si en lugar de un s<>lo profesor que revisa, se emplean dos y se trabaja con el promedio de sus calificaciones. Al primer plano de indagaci<63>n suele llam<61>rsele }{\b\expnd0\expndtw-3\lang1033 an<61>lisis G}{\expnd0\expndtw-3\lang1033 , al segundo -que entra<72>a un elemento de experimentaci<63>n y optimizaci<63>n, }{\b\expnd0\expndtw-3\lang1033 an<61>lisis D}{\expnd0\expndtw-3\lang1033 .
\par
\par \tab Para terminar con esta introducci<63>n a los rudimentos de la teor<6F>a de la generalizabilidad se incluye un ejemplo con breves comentarios explicativos. Consideremos un examen, que consta de 5 preguntas, que ha sido revisado por tres calificadores en un dise<73>o cruzado y que se ha administrado a 10 estudiantes. Supongamos que la pregunta (item) es una faceta aleatoria y, para simplificar, consideremos el an<61>lisis para cada evaluador (rater) por separado.
\par
\par \tab Para\tab el primer evaluador tendremos:
\par }{\fs14\expnd0\expndtw-1\lang1033
\par RATER = 1
\par Analysis of Variance Report
\par
\par ANOVA Table for Response Variable: CALIF
\par Source DF Sum\_Squares Mean Square F\_Ratio Prob>F Error Term
\par A (ALUMNO ) 9 303.28 33.69778 11.02 0.0000 AB
\par B (ITEM ) 4 116.28 29.07 ERROR
\par AB 36 110.12 3.058889 ERROR
\par ERROR 0 3.114E\_14 0
\par TOTAL(Adj) 49 529.68
\par
\par \tab Para el segundo:
\par
\par RATER = 2
\par Analysis of Variance Report
\par
\par ANOVA Table for Response Variable: CALIF
\par Source DF Sum\_Squares Mean Square F\_Ratio Prob>F Error Term
\par A (ALUMNO ) 9 306 34 10.02 0.0000 AB
\par B (ITEM ) 4 91.8 22.95 ERROR
\par AB 36 122.2 3.394445 ERROR
\par ERROR 0 5.551E\_15 0
\par TOTAL(Adj) 49 520
\par
\par \tab Y para el tercero:
\par
\par RATER = 3
\par Analysis of Variance Report
\par
\par ANOVA Table for Response Variable: CALIF
\par Source DF Sum\_Squares Mean Square F\_Ratio Prob>F Error Term
\par A (ALUMNO ) 9 328.48 36.49778 9.22 0.0000 AB
\par B (ITEM ) 4 107.08 26.77 ERROR
\par AB 36 142.52 3.958889 ERROR
\par ERROR 0 0 0
\par TOTAL(Adj) 49 578.08
\par
\par }{\expnd0\expndtw-3\lang1033 \tab Ahora las componentes de varianza se estiman del siguiente modo:
\par
\par Para el primer evaluador:
\par
\par 33.70 - 3.06
\par }{\f38\expnd0\expndtw-3\lang1033 \'f3}{\expnd0\expndtw-3\lang1033\sub a}{\expnd0\expndtw-3\lang1033\super 2}{\expnd0\expndtw-3\lang1033 =\uc1\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d = 6.13 (varianza entre alumnos)
\par 5
\par
\par 29.07 - 3.06
\par }{\f38\expnd0\expndtw-3\lang1033 \'f3}{\expnd0\expndtw-3\lang1033\sub i2}{\expnd0\expndtw-3\lang1033 = \uc1\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d = 2.60 (varianza entre items)
\par 10
\par
\par }{\f38\expnd0\expndtw-3\lang1033 \'f3}{\expnd0\expndtw-3\lang1033\sub ai}{\expnd0\expndtw-3\lang1033\super 2}{\expnd0\expndtw-3\lang1033 = 3.06 (varianza de la interacci<63>n o del error)
\par
\par Para el segundo:
\par 34.00 - 3.39
\par }{\f38\expnd0\expndtw-3\lang1033 \'f3}{\expnd0\expndtw-3\lang1033\sub a}{\expnd0\expndtw-3\lang1033\super 2}{\expnd0\expndtw-3\lang1033 =\uc1\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d = 6.12 (varianza entre alumnos)
\par 5
\par
\par 22.95 - 3.39
\par }{\f38\expnd0\expndtw-3\lang1033 \'f3}{\expnd0\expndtw-3\lang1033\sub i2}{\expnd0\expndtw-3\lang1033 = \uc1\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d = 1.96 (varianza entre items)
\par 10
\par
\par }{\f38\expnd0\expndtw-3\lang1033 \'f3}{\expnd0\expndtw-3\lang1033\sub ai}{\expnd0\expndtw-3\lang1033\super 2}{\expnd0\expndtw-3\lang1033 = 3.39 (varianza de la interacci<63>n o del error)
\par
\par Y para el tercero:
\par
\par 36.50 - 3.96
\par }{\f38\expnd0\expndtw-3\lang1033 \'f3}{\expnd0\expndtw-3\lang1033\sub a}{\expnd0\expndtw-3\lang1033\super 2}{\expnd0\expndtw-3\lang1033 =\uc1\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d = 6.51 (varianza entre alumnos)
\par 5
\par
\par 26.77 - 3.96
\par }{\f38\expnd0\expndtw-3\lang1033 \'f3}{\expnd0\expndtw-3\lang1033\sub i2}{\expnd0\expndtw-3\lang1033 = \uc1\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d = 2.28 (varianza entre items)
\par 10
\par
\par }{\f38\expnd0\expndtw-3\lang1033 \'f3}{\expnd0\expndtw-3\lang1033\sub ai}{\expnd0\expndtw-3\lang1033\super 2}{\expnd0\expndtw-3\lang1033 = 3.96 (varianza de la interacci<63>n o del error)
\par
\par \tab
\par \tab Si queremos ahora obtener la confiabilidad para el puntaje en un item determinado, tenemos que dividir la varianza verdadera entre la varianza del error (puesto que as<61> se define el coeficiente de confiabilidad). Para el primer evaluador tendr<64>amos: 6.13/(6.13+3.06)= 0.67, para el segundo: 6.12/(6.12+3.39) = 0.64, y para el tercero: 6.51/(6.51+3.96) = 0.62. Los errores est<73>ndar de la estimaci<63>n, a partir de los cuales se puede estimar el puntaje verdadero en cada item, son las ra<72>ces cuadradas de las varianzas del error, es decir, las ra<72>ces cuadradas de 3.06 (1.75), de 3.39 (1.84) y de 3.96(1.99) respectivamente. Como puede observarse, las mediciones del primer examinador son las m<>s precisas, y por tanto, las m<>s confiables.
\par
\par }\pard \qc\nowidctlpar\hyphpar0\adjustright {\expnd0\expndtw-3\lang1033 \page }{\b\lang1033 NOCIONES ELEMENTALES EN LA VALIDACION DE TESTS.
\par (III) ANALISIS CONVENCIONAL DE PREGUNTAS}{\lang1033
\par }\pard \qj\nowidctlpar\hyphpar0\adjustright {\expnd0\expndtw-3\lang1033
\par \tab El an<61>lisis convencional de preguntas se emplea con el fin de seleccionar preguntas de un banco para aumentar la confiabilidad total del examen.
\par
\par \tab La estrategia general consiste, en primer lugar, en determinar el n<>mero de preguntas que debe tener el examen, de acuerdo al tiempo estipulado y al tiempo aproximado que toma el responder cada pregunta. Luego, a partir de las caracter<65>sticas de las preguntas de un banco de ellas, se obtienen las que conforman un examen con la m<>xima confiabilidad.
\par
\par \tab Entre los atributos de las preguntas que m<>s suelen considerarse en la construcci<63>n de tests se encuentran: la dificultad, la discriminaci<63>n y la confiabilidad, que analizaremos brevemente por su turno.
\par
\par
\par }{\b\expnd0\expndtw-3\lang1033 Dificultad}{\expnd0\expndtw-3\lang1033
\par
\par \tab Este atributo se define especialmente para las preguntas de selecci<63>n m<>ltiple que pueden tener una respuesta correcta o incorrecta. El otro tipo de preguntas, que se calilfican sobre una escala cuantitativa, puede reducirse al anterior considerando <20>xito cualquier valoraci<63>n que se halle por encima de la mitad de la puntuaci<63>n total asignada a la pregunta en cuesti<74>n, o por encima de cualquier otro punto de corte arbitrario.
\par
\par \tab La dificultad puede definirse entonces como la proporci<63>n (p) de los examinandos que han respondido correctamente la pregunta. La varianza verdadera es entonces p*(1-p) que toma su valor m<>ximo cuando p = 0.5. Para lograr la mayor confiabilidad, como ya se ha visto, hay que maximizar la varianza verdadera, por lo que en general se buscan preguntas tales que p=0.5.
\par
\par \tab No obstante, en preguntas de selecci<63>n m<>ltiple, se supone que hay una peque<75>a fracci<63>n de estudiantes que aciertan por adivinaci<63>n y no porque realmente conocen la respuesta. El <20>ndice de dificultad <20>ptimo no es 0.5 sino una cifra corregida (p') que se define como
\par
\par p' = 0.5 + 0.5/m
\par
\par ... en donde }{\ul\expnd0\expndtw-3\lang1033 m}{\expnd0\expndtw-3\lang1033 es el n<>mero de opciones de la pregunta.
\par
\par \tab As<41> pues, si la pregunta es de dos opciones el <20>ndice de dificultad <20>ptimo es 0.5 + 0.5/2 = 0.75, si es de tres opciones, 0.67, si es de 4 0.62, y as<61> sucesivamente.
\par
\par
\par
\par
\par }{\b\expnd0\expndtw-3\lang1033 Discriminaci<63>n}{\expnd0\expndtw-3\lang1033
\par
\par \tab Una buena pregunta debe ser capaz de segregar estudiantes con baja y con alta habilidad o conocimiento. Un pregunta es efectiva, en el sentido de la discriminaci<63>n, si los estudiantes de alto rendimiento tienden a responderla correctamente, y los de bajo rendimiento, incorrectamente.
\par
\par \tab Se han propuesto dos <20>ndices de discriminaci<63>n. Ellos son:
\par
\par }{\f38\expnd0\expndtw-3\lang1033 (a) \'e4 = p}{\expnd0\expndtw-3\lang1033\sub a}{\expnd0\expndtw-3\lang1033 - p}{\expnd0\expndtw-3\lang1033\sub b}{\expnd0\expndtw-3\lang1033
\par
\par }\pard \qj\fi-1440\li1440\nowidctlpar\tx-720\tx0\tx720\hyphpar0\adjustright {\expnd0\expndtw-3\lang1033 en donde\tab p}{\expnd0\expndtw-3\lang1033\sub a}{\expnd0\expndtw-3\lang1033 y p}{\expnd0\expndtw-3\lang1033\sub b}{\expnd0\expndtw-3\lang1033 designan las proporciones de estudiantes de alto y de bajo nivel, respectivamente que han respondido correctamente la pregunta.
\par }\pard \qj\nowidctlpar\tx-720\hyphpar0\adjustright {\expnd0\expndtw-3\lang1033
\par (b) el coeficiente de correlaci<63>n punto-biserial (ya definido en otro cap<61>tulo de estos materiales):
\par
\par M}{\expnd0\expndtw-3\lang1033\sub 1}{\expnd0\expndtw-3\lang1033 - M}{\expnd0\expndtw-3\lang1033\sub 2}{\expnd0\expndtw-3\lang1033
\par r}{\expnd0\expndtw-3\lang1033\sub pb}{\expnd0\expndtw-3\lang1033 = \uc1\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d\u9472\'2d x (p*(1-p))}{\expnd0\expndtw-3\lang1033\super 1/2}{\expnd0\expndtw-3\lang1033
\par }{\f38\expnd0\expndtw-3\lang1033 \'f3
\par }{\expnd0\expndtw-3\lang1033
\par }\pard \qj\fi-1440\li1440\nowidctlpar\tx-720\tx0\tx720\hyphpar0\adjustright {\expnd0\expndtw-3\lang1033 en donde\tab M}{\expnd0\expndtw-3\lang1033\sub 1}{\expnd0\expndtw-3\lang1033 es el puntaje total promedio entre los que respondieron bien la pregunta
\par }\pard \qj\nowidctlpar\tx-720\hyphpar0\adjustright {\expnd0\expndtw-3\lang1033
\par }\pard \qj\fi-1440\li1440\nowidctlpar\tx-720\tx0\tx720\hyphpar0\adjustright {\expnd0\expndtw-3\lang1033 \tab M}{\expnd0\expndtw-3\lang1033\sub 2}{\expnd0\expndtw-3\lang1033 el puntaje total promedio entre los que respondieron mal
\par }\pard \qj\nowidctlpar\tx-720\hyphpar0\adjustright {\expnd0\expndtw-3\lang1033
\par p es el porcentaje que respondi<64> bien
\par
\par }\pard \qj\fi-720\li720\nowidctlpar\tx-720\tx0\hyphpar0\adjustright {\f38\expnd0\expndtw-3\lang1033 \tab \'f3 es la desviaci<63>}{\expnd0\expndtw-3\lang1033 n est<73>ndar de los puntajes en los dos grupos.
\par }\pard \qj\nowidctlpar\tx-720\hyphpar0\adjustright {\expnd0\expndtw-3\lang1033
\par
\par }{\b\expnd0\expndtw-3\lang1033 Confiabilidad}{\expnd0\expndtw-3\lang1033
\par
\par \tab Este indicador, cuyo nombre puede resultar enga<67>oso en vista de la definici<63>n que hemos dado anteriormente de ese concepto, es en en realidad una medida compuesta que incorpora las nociones de dificultad y discriminaci<63>n y se define como:
\par
\par R = r}{\expnd0\expndtw-3\lang1033\sub pb}{\expnd0\expndtw-3\lang1033 x (p(1-p))}{\expnd0\expndtw-3\lang1033\super 1/2
\par }{\expnd0\expndtw-3\lang1033
\par \tab Obs<62>rvese que el coeficiente punto biserial mide la capacidad discriminatoria, en tanto que el producto p*(1-p) mide la varianza verdadera de la pregunta.
\par
\par
\par
\par }}