SciELO - Scientific Electronic Library Online

 
 número5Cocción experimental de cerámica con estiércol de llamaContinuidades y rupturas en el proceso de trabajo: Una mirada antropológica a partir de una experiencia de ocupación/recuperación de fábricas durante el año 2002 índice de autoresíndice de materiabúsqueda de artículos
Home Pagelista alfabética de revistas  

Servicios Personalizados

Revista

Articulo

Indicadores

  • No hay articulos citadosCitado por SciELO

Links relacionados

  • No hay articulos similaresSimilares en SciELO

Compartir


Intersecciones en antropología

versión On-line ISSN 1850-373X

Intersecciones antropol.  n.5 Olavarría ene./dic. 2004

 

Evaluación del error intraobservador en bioarqueología

Valeria Bernal, Paula N. Gonzalez, S. Ivan Perez y Mariano C. Del Papa

Valeria Bernal. División de Antropología, Facultad de Ciencias Naturales y Museo, Universidad Nacional de La Plata. Paseo del Bosque s/n. 1900 La Plata. E-mail: bernalv@fcnym.unlp.edu.ar
Paula N. Gonzalez. División de Antropología, Facultad de Ciencias Naturales y Museo, Universidad Nacional de La Plata. Paseo del Bosque s/n. 1900 La Plata. E-mail: pgonzalez@fcnym.unlp.edu.ar
S. Ivan Perez. CONICET. División de Antropología, Facultad de Ciencias Naturales y Museo, Universidad Nacional de La Plata. Paseo del Bosque s/n. 1900 La Plata. E-mail: iperez@fcnym.unlp.edu.ar
Mariano C. Del Papa. División de Antropología, Facultad de Ciencias Naturales y Museo, Universidad Nacional de La Plata. Paseo del Bosque s/n. 1900 La Plata. E-mail: mariano106@hotmail.com

Recibido 30 de Junio 2003. Aceptado 30 de Julio 2004

RESUMEN

Las investigaciones bioarqueológicas tendientes a resolver problemas microevolutivos, adaptativos-funcionales y paleodemográficos, se basan en el análisis de variables de naturaleza continua y discreta del esqueleto humano. Estas presentan diferentes fuentes de variación que incluyen la variabilidad propia del objeto de estudio, así como aquella introducida por el sujeto, por la definición de los rasgos y por los instrumentos empleados. Debido a que no toda esta variación es relevante en los análisis bioarqueológicos, centrándose el interés en la variabilidad del objeto de estudio, es necesario incrementar la precisión o consistencia en el registro de variables mediante diseños experimentales. En este trabajo se presenta un diseño de bloques completos aleatorios orientado a la evaluación del error intraobservador y se comparan un conjunto de pruebas estadísticas paramétricas y no paramétricas. Los resultados indican que no hay una única prueba estadística que permita el análisis de la consistencia entre series de observaciones. Finalmente, se señala la necesidad de establecer la forma en que el error de medición afecta las investigaciones arqueológicas en general.

Palabras clave: Error interobservador, diseño esperimental, arqueología.

ABSTRACT

The bioarchaeological investigations used to solve microevolutive, functional-adaptive and palaeodemographic issues are based on metric and non-metric variables analyses of human skeletal remains. These variables contain different sources of variation, including the intrinsic variability of the object of study and those introduced by the subject through the definition of traits and the tools employed. In bioarchaeological analysis not all of the variability is relevant. Focusing on variability related to the study object, it is necessary to increase the accuracy and consistency of the recording of variables through experimental designs. In this paper, a design of random complete blocks, oriented to test the intra-observed error, and an assessment set of parametric and non-parametric statistical tests is introduced. The results show that there is not a single statistical test that allows us to analyze the consistency between observation series. Finally, we indicate that it is necessary to evaluate how measurement errors affect archaeological investigations in general.

Keywords: Experimental design, interobserver error, archaeology.

INTRODUCCIÓN

 Las investigaciones bioarqueológicas tendientes a resolver, entre otros, problemas microevolutivos, adaptativo funcionales y paleodemográficos, se basan en el análisis de variables métricas y no-métricas registradas en restos óseos humanos (Boyd 1996; Larsen 1997; Ruff 2000). Estas presentan diferentes fuentes de variación que incluyen la variabilidad propia del objeto de estudio y aquella introducida por el sujeto (e.g. experiencia, entrenamiento, estado de ánimo), por la definición de los rasgos a relevar (e.g., ambigüedad) y por los instrumentos empleados (Arnqvist y Martensson 1998; Yezerinac et al. 1992). Sin embargo, no toda esta variación es relevante en los análisis bioarqueológicos, centrándose el interés en la variabilidad del objeto de estudio. La variabilidad restante es considerada como error de medición (EM), entendido éste como la diferencia entre medidas repetidas de una misma variable (Hair et al. 1999). Durante las últimas décadas se han empleado diferentes aproximaciones en la evaluación del error de medición (Bailey y Byrnes 1990). Las mismas involucran distintos tipos de diseños experimentales y de análisis estadísticos tales como la observación de variables cuya variación intra e inter grupal es conocida (e.g., Dillon 1984), la realización de dos observaciones de un grupo de organismos y la comparación de las medias de ambos conjuntos para cada variable (e.g., Zink 1983), el relevamiento de medidas repetidas de un organismo o un pequeño grupo de organismos y la estimación de la varianza intra individual de un conjunto de variables (e.g., Lee 1982), entre otros. Sin embargo, estas aproximaciones han sido criticadas tanto por los diseños como por las pruebas utilizadas (ver Bailey y Byrnes 1990). Un análisis adecuado del error de medición debería incluir un diseño experimental que permita evaluar las distintas fuentes de variación (Cochran y Cox 1997; Guichón et al. 1993) y un análisis estadístico que posibilite la distinción entre errores sistemáticos de aquellos debidos al azar (Arnqvist y Martensson 1998). El error sistemático se produce en aquellas situaciones en las que las mediciones realizadas en diferentes ocasiones varían consistentemente de manera que se originan sesgos sistemáticos en la magnitud de los parámetros calculados, mientras que el error al azar es aquel que se distribuye aleatoriamente. Este último incrementa la varianza de un conjunto de observaciones sin afectar la media y reduce el poder estadístico de los análisis al es realmente falsa (Bailey y Byrnes 1990; Yezerinac et al. 1992). Por el contrario, el error sistemático incrementa el error tipo I. Es decir, aumenta la probabilidad de rechazar la hipótesis nula cuando es verdadera (Hair et al. 1999).

 La evaluación del error de medición ha recibido considerable atención en los análisis bioarqueológicos (Gualdi-Russo et al. 1999; Guichón et al. 1993; Guichón et al. 1996; ver revisión en Saunders 1989) principalmente debido a la necesidad de que los resultados obtenidos por diferentes investigadores o por un mismo investigador en diferentes momentos sean comparables y por los efectos que puede tener el EM sobre los análisis estadísticos realizados. Sin embargo, con frecuencia se emplean medidas que no son adecuadas para la evaluación del EM (e.g., prueba de X 2 ) o se consideran medidas de acuerdo sin tener en cuenta posibles sesgos sistemáticos (e.g., proporción de acuerdo, coeficiente de correlación intraclase). Si bien en otras áreas de la antropología en general no se considera la evaluación del error, los problemas mencionados anteriormente se presentan en todos los estudios que impliquen la observación y medición de objetos. Por ejemplo, en arqueología sería apropiado evaluar el error de medición en el registro de variables discretas y continuas empleadas en los análisis artefactuales (e.g., presencia /ausencia de talón, longitud de una raedera) y tafonómicos (e.g., grados de meteorización), entre otros.

 En este trabajo se presenta un diseño orientado a la evaluación del error intraobservador y se discuten un conjunto de pruebas estadísticas aplicables a variables nominales, ordinales y de razón. Con este fin se analizan rasgos discretos y continuos del esqueleto craneofacial y postcraneal de individuos adultos y subadultos de ambos sexos.

Diseños experimentales y pruebas estadísticas

 Como se mencionó en el apartado anterior los diseños experimentales pueden ser utilizados para evaluar distintas fuentes de variación (i.e., factores). Cuando la fuente de variación que se intenta estimar es el error intraobservador puede aplicarse un diseño en bloques completos aleatorios con medidas repetidas (Guichón et al. 1993; Weber y Skilling 2000). El diseño en bloques se emplea en situaciones en las que más de un factor puede tener efecto sobre la variable respuesta, esos factores adicionales, que no son la variable primaria de interés, se utilizan para bloquear las unidades experimentales (i.e., los objetos medidos). En los diseños en bloques completos aleatorios las unidades experimentales son agrupadas en bloques y los tratamientos son asignados al azar a cada unidad experimental dentro de cada bloque. De esta manera, se obtienen resultados más exactos que al emplear diseños completamente al azar (Cochran y Cox 1997; Zar 1999). En ciertos experimentos puede darse el caso de que múltiples observaciones sean hechas sobre el mismo objeto (e.g., cuando se realizan medidas sobre el mismo objeto en diferentes momentos), estos diseños son denominados diseños en bloques completos aleatorios con medidas repetidas (Weber y Skilling 2000; Zar 1999).

 En un diseño experimental de las características señaladas orientado a evaluar el error intraobservador las diferencias entre las medidas repetidas de un mismo objeto constituyen el error de medición. En el caso de que las variables han sido medidas en una escala de intervalo o de razón (escalas que tienen unidades constantes de medida, en la de razón el punto cero es absoluto y en la de intervalo el cero es arbitrario; Martínez Arias 1999) se han utilizado diferentes pruebas para analizar el error de medición. Dentro de la antropología las pruebas más empleadas son la prueba de t pareada, el error del método de Dalhberg (EMD; Bresin et al. 1994), el coeficiente de confiabilidad (%CC; Bresin et al. 1994) y el porcentaje del error de medida (%EM; Bailey y Byrnes 1990). Una alternativa a estos procedimientos estadísticos, comúnmente aplicada a los diseños experimentales en bloques completos aleatorios con medidas repetidas y que permite distinguir entre errores aleatorios y sistemáticos, es analizar las diferencias entre las observaciones mediante el coeficiente de correlación intraclase (CCI) y la prueba de Anova de medidas repetidas (Zar 1999). En este último análisis, la hipótesis nula a probar es que no hay diferencia entre las medias de las observaciones repetidas (Weber y Skilling 2000; Zar 1999). Para esto se calcula el valor de F dado por el cociente de la varianza entre los grupos y la varianza residual, esta última se obtiene restando la varianza de los objetos a la varianza de los grupos (Ver Apéndice). El coeficiente de correlación intraclase (r I , Shrout y Fleiss 1979) mide la relación existente entre la varianza entre grupos y la varianza dentro de los grupos (ver Apéndice). Si dentro de cada grupo todas las medidas son iguales, la varianza dentro de los grupos es igual a 0 y por lo tanto el índice de correlación es igual a 1 (Zar 1999). En los diseños tendientes a evaluar el error introducido por un observador, la magnitud de la varianza dentro de los grupos es atribuible a las diferencias en las medidas realizadas por el observador sobre un mismo objeto. Se han propuesto escalas arbitrarias que califican los valores del CCI obtenidos (e.g., Fleiss 1981; Apéndice). En el caso de que la distribución de las variables analizadas sea diferente de la normal existen métodos sustitutos como Anova de Friedman y W de Kendall (Norman y Streiner 1998; Siegel y Castellan 1995), que pueden extenderse al análisis de variables ordinales.

 Para analizar el error de medición en variables medidas en escala nominal (asignación de números para etiquetar o identificar objetos; Martínez Arias 1999) y ordinal (ordenación de los objetos en relación a la cantidad de determinado atributo; Martínez Arias 1999) en antropología, generalmente, se calcula la proporción de acuerdo como el cociente entre pares de mediciones coincidentes y pares totales de mediciones (ver discusión en Saunders 1989). Sin embargo, esto no tiene en cuenta las coincidencias debidas al azar. En este sentido, una de las pruebas más empleadas es el índice Kappa (k) propuesto por Cohen (1960). Este indica el grado de acuerdo existente entre pares de observaciones por encima del esperado por azar (Apéndice). Si el acuerdo observado es igual al esperado por azar el índice toma el valor de 0, en tanto que si es menor al esperado por azar los valores delíndice son negativos y para el máximo acuerdo el valor es igual a 1. Landis y Koch (1977) han propuesto una escala para interpretar los valores de k (Apéndice), la cual tiene un valor relativo debido a su carácter arbitrario. Para detectar errores sistemáticos en el registro de este tipo de variables puede analizarse la homogeneidad marginal (i.e., las proporciones de desacuerdo). Para tablas de dos categorías y dos observaciones se emplea la prueba de McNemar (McNemar 1947; Apéndice), en tanto que si hay más de dos categorías es conveniente evaluar la homogeneidad marginal total mediante la prueba de Stuart-Maxwell (Maxwell 1970; Stuart 1955; Apéndice).

 Además de las pruebas señaladas, se han empleado con frecuencia para medir el error de medición, los coeficientes Phi, R de Spearman y r de Pearson y el análisis de Anova de un factor, entre otros. Sin embargo, estas pruebas no constituyen, por diferentes motivos, una manera adecuada de medir el error de medición. El análisis de Anova de un factor no tiene en cuenta la dependencia entre los conjuntos de observaciones, lo cual es una característica importante de los datos analizados en estos diseños. Los coeficientes Phi, R de Spearman y r de Pearson miden la asociación entre conjuntos de datos (i.e., si los conjuntos de datos crecen o decrecen de forma simultánea y proporcional), pero el valor de la asociación no indica cuán cercanas se encuentran las medidas repetidas de un mismo objeto.

MATERIALES Y MÉTODOS

 Con el objetivo de evaluar el error intraobservador en el registro de variables de razón, ordinales y nominales se realizó un diseño en bloques completos aleatorios con medidas repetidas para cada tipo de variable. Los tres tipos de variables fueron relevadas por tres sujetos diferentes sin experiencia previa en el registro de variables sobre restos óseos humanos. El diseño implementado consistió en tres series de observaciones espaciadas temporalmente a intervalos regulares de siete días. La aleatorización de los bloques y los intervalos entre las series permiten evitar sesgos y asegurar la independencia en el registro de las observaciones.

 A fin de evaluar el grado de error intraobservador en el relevamiento de variables craneofaciales de razón y nominales se empleó una muestra constituida por 30 cráneos de individuos adultos de ambos sexos provenientes del NE de Patagonia, pertenecientes a las colecciones de la División de Antropología de la Facultad de Ciencias Naturales y Museo de la Universidad Nacional de La Plata. Los cráneos fueron seleccionados por azar simple (Cochran y Cox 1997) mediante la utilización de una tabla de números aleatorios aplicada al número de catálogo de cada espécimen. Aquellos casos que presentaban marcadas alteraciones postdepositacionales (i.e., pérdida de materia ósea) fueron descartados del muestreo. Sobre este conjunto de cráneos se relevaron cuatro variables métricas de razón (altura orbital -OBH-, ancho interorbital -DKB-, ancho bifrontal -FMB-, altura nasal -NLH- y ancho nasal -NLB-, Howells 1973) mediante el uso de un calibre vernier (0,02 mm de resolución) y cuatro variables nominales dicotómicas (sutura infraorbital -SUTINFI-, puente milohioideo-PUMILOI-, foramen mastoideo -FORMASI-y foramen parietal -FORPARI-, Buikstra y Ubelaker 1994). La muestra empleada para evaluar el grado de error intraobservador en el relevamiento de variables ordinales está compuesta por 25 individuos subadultos de ambos sexos (0-20 años) provenientes de diversos sitios arqueológicos de las regiones Pampeana y Patagónica. Se emplearon variables ordinales utilizadas en la determinación del sexo en individuos subadultos, se registraron dos variables en la mandíbula (prominencia del mentón -PM- y eversión de la región del gonion -EG-, Schutkowski 1993) y dos en el ilion (ángulo de la escotadura ciática mayor -AEC- y profundidad de la escotadura ciática mayor -PEC-, Schutkowski 1993).

 Una vez finalizado el relevamiento de las variables se evaluó el error de medición mediante diferentes análisis según la escala de medición de la variable considerada. En el caso de variables medidas en escalas nominal u ordinal se calculó el índice Kappa, las pruebas de homogeneidad marginal de McNemar y de Stuart-Maxwell, la proporción de acuerdo y los coeficientes Phi y R de Spearman. Para las variables de razón se empleó el análisis de Anova de un factor y de medidas repetidas, el índice de correlación intraclase, el coeficiente r de Pearson, el error del método de Dalhberg (EMD), el coeficiente de confiabilidad (%CC) y el porcentaje del error de medida (%EM). Previamente al análisis de estas últimas variables se comprobó el carácter normal de la distribución (prueba de Shapiro-Wiks, p> 0,05). Todas las comparaciones se realizaron sobre pares de observaciones con el fin de evaluar la existencia de alguna tendencia en la consistencia de las observaciones a través del tiempo. Por último, se compararon los resultados obtenidos a partir de las diferentes pruebas estadísticas mediante el coeficiente r de Pearson y R de Spearman. En los análisis estadísticos efectuados, el error de tipo I aceptable (probabilidad de rechazar la hipótesis nula cuando es verdadera) fue establecido en 0,05. Para el análisis de Anova de medidas repetidas, Anova de un factor y r de Pearson se calculó la potencia estadística (1-beta), (i.e., la probabilidad de rechazar la hipótesis nula cuando es falsa; Sokal y Rohlf 1979), mediante un análisis de la potencia de la prueba (Power Analysis).

RESULTADOS Y DISCUSIÓN

 Los resultados de los análisis efectuados sobre las series de observaciones de variables nominales (dicotómicas) se presentan en la Tabla 1. En la primera columna se muestran los valores de las proporciones de acuerdo entre pares de observaciones para las variables registradas. Dichos valores son superiores a 0,70 para tres de las variables observadas, en tanto en la variable PUMILOI son inferiores a 0,55. Los resultados del índice Kappa (Tabla 1, Figura 1) presentan valores inferiores a los de las proporciones de acuerdo en todos los casos. Por último, la evaluación de las frecuencias marginales señala que las mismas no difieren significativamente en ninguna de las variables analizadas (Prueba de McNemar, Tabla 1). La comparación de los resultados obtenidos mediante las diferentes pruebas efectuadas señalan que existe una asociación significativa positiva entre los resultados del coeficiente Phi (Tabla 1, Figura 1) y aquellos obtenidos con el índice Kappa (Figura 2). Asimismo, se encontró una asociación significativa negativa entre McNemar y la proporción de acuerdo, lo cual es esperado debido a que la primera prueba evalúa las proporciones marginales, es decir, las proporciones de desacuerdo. Finalmente, debe señalarse que contrariamente a lo esperado hay una asociación baja entre los valores de k y la proporción de acuerdo. Esto puede ser consecuencia de algunas dificultades que presenta el cálculo del índice Kappa, el cual puede tomar valores negativos en aquellos casos en los que la proporción de acuerdo es elevada (e.g., FORMASI 2-3, Tabla 1). Algunas de estas dificultades radican en que el valor de k obtenido depende de la distribución de las proporciones y de la prevalencia del rasgo en la muestra (Cicchetti y Feinstein 1990; Feinstein y Cicchetti 1990; Thompson y Walter 1988). Si la prevalencia del carácter es cercana a 0,5 el valor de k es alto, en tanto si es muy elevada este disminuye debido a que la proporción esperada por azar toma valores más altos. Por ejemplo, en el rasgo FORMASI que tiene una prevalencia cercana a 1 (Tabla 2a), la proporción de acuerdo observada es de 0,92, sin embargo, la esperada (P e) es mayor

por lo tanto el valor de k es negativo. En el caso presentado en la Tabla 2b los totales marginales están balanceados y en consecuencia k toma un valor mayor que el anterior aunque la proporción de acuerdo es más baja (0,85), debido a que la P e es inferior.


Tabla 1. Análisis efectuados sobre las observaciones de variables nominales craneofaciales.


Figura 1. Valores del índice Kappa, coeficiente Phi y proporción de acuerdo para variables nominales craneofaciales.


Figura 2. Gráficos de dispersión de los resultados de los análisis efectuados sobre las observaciones de variables nominales craneofaciales.


Tabla 2. Frecuencias de acuerdo y desacuerdo en el registro de variables nominales craneofaciales.

 La Tabla 3 muestra los resultados de las pruebas estadísticas realizadas sobre las variables ordinales. La proporción de acuerdo varía entre 0,5 y 0,86, los valores más bajos se obtuvieron para los rasgos correspondientes a la mandíbula (EG y M). El índice Kappa presenta valores entre 0,19 y 0,75 y en todos los casos son inferiores a los observados para la proporción de acuerdo debido a las correcciones aplicadas para evaluar el acuerdo por encima del esperado por azar (Figura 3). Los valores más altos de k corresponden a los rasgos pélvicos, AEC y PEC, indicando mayor consistencia en las sucesivas observaciones. Los resultados de la prueba de Stuart-Maxwell indican que no existen diferencias en las proporciones marginales para ninguna de las variables analizadas (Tabla 3). Por último, el análisis de Anova de Friedman mostró la existencia de diferencias significativas entre dos pares de observaciones correspondientes a la variable EG Tabla 3). Los valores obtenidos de la aplicación de las pruebas de correlación señalan la existencia de una correlación positiva significativa entre los valores de k y la proporción de acuerdo, en tanto la relación de los mismos con las demás pruebas no es significativa (Figura 4). Asimismo, se observa una correlación positiva significativa entre los resultados de Kruskall-Wallis y los de Stuart-Maxwell y el Anova de Friedman; existe también correlación positiva, si bien no significativa, entre el índice Kappa y el coeficiente R de Spearman por un lado y entre las pruebas de Stuart-Maxwell y Anova de Friedman, por otro (Figura 4).


Tabla 3. Análisis efectuados sobre las observaciones de variables ordinales craneales y postcraneales.


Figura 3. Valores del índice Kappa, R de Spearman y proporción de acuerdo para variables ordinales craneales y postcraneales.


Figura 4. Gráficos de dispersión de los resultados de los análisis efectuados sobre las observaciones de variables ordinales craneales y postcraneales.

 Los resultados de los análisis realizados sobre las variables de razón se presentan en la Tabla 4. La prueba de Anova de medidas repetidas señala la existencia de diferencias significativas en el 50% de las comparaciones, por el contrario no se hallaron diferencias significativas entre las medias de las series con el análisis de Anova de un factor (Tabla 4, Figura 5). El cálculo de la potencia estadística de estas pruebas muestra que únicamente la prueba de Anova de medidas repetidas presenta valores superiores a 0,80. Los valores del coeficiente de correlación intraclase son muy bajos únicamente para la variable NLH. Valores bajos de este coeficiente sin la existencia de diferencias significativas entre las medias de las series, como los presentados por las series de la variables OBH y NLH, pueden ser explicados por la presencia de error al azar (Figura 6a). La situación inversa se observa en variables como DKB en la cual la correlación intraclase es elevada pero las medias de las series de observaciones difieren significativamente. La Figura 6b muestra que gran parte de las observaciones caen por debajo de la línea de concordancia, indicando un error sistemático en el relevamiento de los datos. En cuanto a la relación entre los resultados de las diferentes pruebas, existe una correlación positiva significativa entre los coeficientes de correlación intraclase, de confiabilidad y r de Pearson, por el contrario, esta correlación es negativa con el error de medida y el porcentaje del error de medida (Figura 7). A su vez, existe una correlación significativa entre los resultados de las pruebas mencionados anteriormente (Figura 7). Finalmente, el Anova de medidas repetidas y el de un factor exhiben una correlación significativa, aunque relativamente baja (R=0,78; p<0,01).


Tabla 4. Análisis efectuados sobre las observaciones de variables de razón craneofaciales.


Figura 5. Valores de Anova de medidas repetidas y de un tratamiento para variables de razón craneofaciales.


Figura 6. Gráficos de dispersión de dos series de observaciones efectuadas sobre dos variables de razón craneofaciales.


Figura 7. Gráficos de dispersión de los resultados de los análisis efectuados sobre las observaciones de variables de razón craneofaciales.

 El diseño desarrollado y las pruebas empleadas permiten evaluar el error de medición y distinguir entre los dos tipos de error: aleatorio y sistemático. La evaluación de éste último puede realizarse mediante las pruebas de homogeneidad marginal para las variables nominales y ordinales (McNemmar y Stuart-Maxwell, respectivamente), de diferencia de medias para las variables de razón y de intervalo (Anova de medidas repetidas) y de diferencia entre medianas para las variables ordinales (prueba de Wilcoxon y Anova de Friedman). Estas últimas pruebas se pueden emplear para las variables de razón e intervalo, así como en aquellos casos en que la distribución de las variables difiera de la normal. El error al azar puede analizarse mediante el índice Kappa para las variables nominales y ordinales y mediante el coeficiente de correlación intraclase en el caso que las variables estén en una escala de razón o intervalo. A partir de los resultados obtenidos se observa que las pruebas comúnmente utilizadas para medir la asociación entre variables arrojan valores similares a aquellas que estiman el acuerdo entre las observaciones. Sin embargo, puede ocurrir que bajo ciertas condiciones los resultados de ambas no concuerden (Zar 1999). Una situación diferente se presenta con los resultados de las pruebas empleadas para medir error sistemático, entre las cuales el Anova de medidas repetidas presenta un mayor poder estadístico que el Anova de un factor. Finalmente el %EM, frecuentemente utilizado en morfometría, brinda un tipo diferente de información ya que permite conocer el porcentaje de variación debida al error de medición sin discriminar la variación sistemática de aquella debida al azar.

CONSIDERACIONES FINALES

 La evaluación del error de medición en antropología ha recibido considerable atención. Sin embargo, varias de las medidas empleadas en su evaluación no resultan adecuadas y los análisis generalmente no consideran la distinción entre error aleatorio y sistemático. El estudio del error debe incluir el desarrollo de diseños experimentales que posibiliten aislar las fuentes de variación de interés, así como la utilización de pruebas estadísticas adecuadas de forma tal de obtener una caracterización completa del error. Dentro de estas últimas, es recomendable emplear conjuntamente pruebas que evalúen el acuerdo entre las observaciones con pruebas que detecten posibles sesgos sistemáticos en el registro de las variables. En cuanto a los diseños experimentales, el utilizado en este trabajo para la evaluación del error intraobservador puede extenderse al análisis de otras fuentes de variación como el error interobservador y el instrumental, entre otras. Finalmente, un aspecto que no ha sido desarrollado aquí es el procedimiento a seguir en aquellos casos en los cuales se presenten variables con un elevado grado de error de medición a lo largo del diseño experimental. En estos casos la solución depende de los objetivos de la investigación y puede consistir en la eliminación de la variable problemática o en el aumento del número de repeticiones o de casos, hasta lograr un valor aceptable de replicabilidad.

Apéndice

• Fórmula para el cálculo de Anova de medidas repetidas

La suma de cuadrados (SC) total es dividida en la suma de cuadrados entre los objetos y la suma de cuadrados dentro de los objetos. La suma de cuadrados entre los objeto es definida como:

donde k: número de medidas repetidas; S: sumatoria de las medidas repetidas para cada objeto y

La suma de cuadrados dentro de los objetos es definida como:

A su vez la variabilidad dentro de los objetos es dividida en la variabilidad debida al tratamiento experimental:

donde n: número de objetos; G sumatoria de los objetos para cada medida repetida. La variabilidad no explicada por los tratamientos y los objetos es definida como:

• Fórmula para el cálculo del coeficiente de correlación intraclase:

MSgrupos: varianza entre grupos; MSerror: la varianza dentro de los grupos.

Escala para el CCI

El cálculo de la correlación intraclase puede ser efectuado mediante el programa Concordance Versión 3.0 (Chang 2001).

• Fórmula para el cálculo del índice Kappa:

P o: proporción de acuerdos observados; P e : la proporción de acuerdos esperados por azar. Escala para el índice Kappa

El cálculo del índice Kappa puede ser efectuado mediante el programa Concordance Versión 3.0 (Chang 2001).

• Fórmula para el cálculo de la prueba de homogeneidad marginal de McNemar:

b y c: proporciones de desacuerdos observados.

• Fórmula para el cálculo de la prueba de homogeneidad marginal de Stuart-Maxwell:

donde d' es la transpuesta de la matriz d y la matriz S -1 es la inversa de S Considerando una tabla de frecuencia de K ´ K. d es el vector columna conteniendo cualquier K - 1 de los valores, d 1 , d 2 , ..., d K donde d i = n i. - n .i (i = 1, ..., K). S representa la matriz de varianza y covarianza (K - 1)´ (K - 1) de los elementos de d.
El cálculo de la prueba de homogeneidad marginal de McNemar y Stuart-Maxwell puede ser efectuado mediante el programa MH: Marginal Homogeneity Tests for N x N Tables Versión 1.0 (Uebersax 2000).

Agradecimientos

 A Héctor Pucciarelli, Fernando Oliva y Rafael Goñi por permitirnos el acceso a las muestras analizadas. A Bibiana Orden, Ricardo Guichón y Julio Di Rienzo quienes con sus comentarios enriquecieron este trabajo. Esta investigación fue realizada con fondos del Subsidio de Inicio de Carrera N° 14116-111 de la Fundación Antorchas, dirigido por Gustavo Barrientos.

REFERENCIAS CITADAS

Arnqvist, G. y T. Martensson 1998 Measurement Error in Geometric Morphometrics: Empirical Strategies to Asses and Reduce its Impact on Measures of Shapes. Acta Zoologica Academiae Scientiarum Hungaricae 44: 73-96.        [ Links ]

Bailey, R. C. y J. Byrnes 1990 A New, Old Method for Assessing Measurement Error in Both Univariate and Multivariate Morphometrics Studies. Systematic Zoology 39: 124- 130.        [ Links ]

Boyd, D. C. 1996 Skeletal Correlates of Human Behavior in the Americas. Journal of Archaeological Method and Theory 3: 189-251.        [ Links ]

Bresin, A., C. B. Johanson y S. Kiliaridis 1994 Effects of Oclussal Strain on the Development of the Dentoalveolar Process in the Growing Rat. European Journal of Experimental Muscoloeskeletal Research 3: 112-122.        [ Links ]

Buikstra, J. y D. Ubelaker 1994 Standards for Data Collection from Human Skeletal Remains. Arkansas Archeological Survey Research Series N° 44, Arkansas.        [ Links ]

Chang, A. 2001 Programa Concordance Versión 3.0. http://department.obg.cuhk.edu.hk/researchsupport        [ Links ]

Cicchetti, D. V. y A. R. Feinstein 1990 High Agreement but Low Kappa: II. Resolving the Paradoxes. Journal of Clinical Epidemiology 43: 551-558.        [ Links ]

Cochran, W. y G. Cox 1997 Diseños experimentales. Tercera edición. Editorial Trillas, México.        [ Links ]

Cohen, J. 1960 A Coefficient of Agreement for Nominal Scales. Educational Psychology Measurement 20: 37-46.        [ Links ]

Dillon, R. T. 1984 What Shall I Measure on my Snails? Allozyme Data and Multivariate Analysis Used to Reduce the Non-genetic Component of Morphological Variance in Goniobasis proxima. Malacologia 25: 503-511.        [ Links ]

Feinstein, A. R. y D. V. Cicchetti 1990 High Agreement but Low Kappa: I. The Problems of Two Paradoxes. Journal of Clinical Epidemiology 43: 543-549.        [ Links ]

Fleiss, J. L. 1981 Statistical Methods for Rates and Proportions. Segunda edición. John Wiley, Nueva York.        [ Links ]

Gualdi-Ruso, E., M. A. Tasca y P. Brasili 1999 Scoring of Nonmetric Cranial Traits: a Methodological Approach. Journal of Anatomy 195: 543-550.        [ Links ]

Guichón, R., S. Neder y L. Orellana 1993 Algunas consideraciones sobre los diseños de experimentos y estudios observacionales en antropología biológica. Palimpsesto. Revista de Arqueología 3: 53-61.        [ Links ]

Guichón, R., F. Frascaroli y S. Muñoz 1996 Diseños de experimentos para el estudio de la variación interobservador: una aplicación en antropología biológica. En: Arqueología: Solo Patagonia. Editado por J. Gómez Otero, pp. 207-212.Puerto Madryn.        [ Links ]

Hair, J. F., R. E. Anderson, R. L. Tatham y W. C. Black 1999 Análisis multivariante. Prentice Hall, Madrid.        [ Links ]

Howells, W. W. 1973 Cranial Variation in Man. A Study by Multivariate Analysis of Patterns of Difference among Recent Human Populations. Papers of Peabody Museum of Archaeology and Ethnology Harvard University Vol. 67. Cambridge, Mass.        [ Links ]

Landis, J. R. y G. G. Koch 1977 The Measurement of Observer Agreement for Categorical Data. Biometrics 33: 159-174.        [ Links ]

Larsen, C. S. 1997 Bioarchaeology. Interpreting Behavior from the Human Skeleton. Cambridge University Press, Nueva York.        [ Links ]

Lee, J. C. 1982 Accuracy and Precision in Anuran Morphometrics: Artifacts of Preservation. Systematic Zoology 31: 266-281.        [ Links ]

Martínez Arias, R. 1999 El análisis multivariante en la investigación científica. La Muralla Editorial, Madrid.        [ Links ]

McNemar, Q. 1947 Note on the Sampling Error of the Difference between Correlated Proportions or Percentages. Psychometrika 12: 153-157.        [ Links ]

Maxwell, A. E. 1970 Comparing the Classification of Subjects by Two Independent Judges. British Journal of Psychiatry 116: 651-655.        [ Links ]

Norman, G. R. y D. L. Streiner 1998 Bioestadística. Harcourt Brace, Madrid.        [ Links ]

Ruff, C. B. 2000 Biomechanical Analyses of Archaeological Human Skeletons. En Biological Anthropology of the Human Skeleton, editado por M. N. Katzenberg y S. R Saunders, pp. 71-102. Willey-Liss, Estados Unidos.        [ Links ]

Saunders, S. R. 1989 Nonmetric Skeletal Variation. En Reconstruction of Life from the Skeleton, editado por M. Y. Iscan y K. A. R. Kennedy, pp. 95-108. Alan R. Liss, Nueva York.        [ Links ]

Schutkowski, H. 1993 Sex Determination of Infant and Juvenile Skeletons: I. Morphognostic Features. American Journal of Physical Anthropology 90: 199-205.        [ Links ]

Shrout, P. E. y J. L. Fleiss 1979 Intraclass Correlations: Uses in Assessing Rater Reliability. Psychological Bulletin 2: 420-428.        [ Links ]

Siegel, S. y J. Castellan 1995 Estadística no paramétrica. Aplicada a las ciencias de la conducta. Cuarta edición. Editorial Trillas, México.        [ Links ]

Sokal, R. R. y F. J. Rohlf 1979 Biometría. H. Blume Ediciones, Madrid.        [ Links ]

Stuart, A. A. 1955 A Test for Homogeneity of the Marginal Distributions in a Two-Way Classification. Biometrika 42: 412-416.        [ Links ]

Thompson, W. D. y S. D. Walter 1988 A Reappraisal of the Kappa Coefficient. Journal of Clinical Epidemiology 41: 949-58.        [ Links ]

Uebersax, J. 2000 Programa MH: Marginal Homogeneity Tests for N x N Tables, Versión 1.0. http://ourworld.compuserve.com/ homepages/jsuebersax/mh.htm        [ Links ]

Weber, D. C. y J. H. Skilling 2000 A first Course in the Design of Experiments. A Linear Models Approach. CRC Press, Boca Raton.        [ Links ]

Yezerinac, S. M., S. Lougheed y P. Handford 1992 Measurement Error and Morphometric Studies: Statistical Power and Observer Experience. Systematic Biology 41: 471-482.        [ Links ]

Zar, J. H. 1999 Biostatistical Analysis. Prentice Hall, Nueva York.        [ Links ]

Zink, R. M. 1983 Evolutionary and Systematic Significance of Temporal Variation in the Fox Sparrow. Systematic Zoology 32: 223-238.        [ Links ]

Creative Commons License Todo el contenido de esta revista, excepto dónde está identificado, está bajo una Licencia Creative Commons