PDF download Descargar el PDF PDF download Descargar el PDF

En estadística, un valor atípico es un dato que es considerablemente diferente a los otros datos de la muestra. Con frecuencia, los valores atípicos en un conjunto de datos pueden alertar a los estadísticos sobre las anormalidades experimentales o los errores en las mediciones tomadas, y debido a esto puede que los descarten del conjunto de datos. Si los valores atípicos del conjunto se ignoran , puede haber cambios importantes en las conclusiones obtenidas del estudio. Por eso, saber cómo calcular y evaluar los valores atípicos es importante para asegurar la comprensión apropiada de los datos estadísticos.

  1. Antes de decidir si deberías o no ignorar los valores atípicos de cierto conjunto de datos, primero, obviamente, debemos identificar los posibles valores atípicos del conjunto de datos. A grandes rasgos, los valores atípicos son datos que son muy diferentes a la tendencia expresada por los otros valores del conjunto de datos. En otras palabras, se ubican distantes a los otros valores. Generalmente es fácil detectar esto en las tablas de datos o (especialmente) en los gráficos. Si el conjunto de datos se expresa visualmente en un gráfico, los valores atípicos se ubican “distantes” a los otros valores. Si, por ejemplo, la mayoría de los datos en un conjunto de datos formaran una línea recta, no se podría interpretar razonablemente que los valores atípicos fueran parte de esa línea.
    • Vamos a tomar un conjunto de datos que representa las temperaturas de 12 objetos diferentes en un cuarto. Si 11 de los objetos tienen temperaturas cercanas a 70 grados Fahrenheit (21 grados Celsius), pero el duodécimo objeto, un horno, tiene una temperatura de 300 grados Fahrenheit (150 grados Celsius), una observación rápida te indicará que probablemente el horno sea un valor atípico.
  2. El primer paso para calcular los valores atípicos en un conjunto de datos es encontrar el valor de la mediana (del medio) del conjunto de datos. Esta tarea se simplifica mucho si los valores del conjunto de datos están en orden de menor a mayor. Por eso, antes de continuar, ordena los valores del conjunto de datos de esta forma.
    • Continuemos con el ejemplo de arriba. El siguiente es el conjunto de datos que representa las temperaturas de varios objetos en un cuarto: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Si ordenamos los valores del conjunto de datos de menor a mayor, nuestro conjunto de valores es: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  3. La mediana del conjunto de datos es el dato por sobre el cual se encuentra la mitad de los datos y por debajo del cual se encuentra la otra mitad de los datos; básicamente, es el valor “en el medio” del conjunto de datos. Si el conjunto de datos contiene un número impar de datos, es fácil encontrarla (la mediana va a ser el dato que tenga el mismo número de valores sobre y por debajo de sí). Sin embargo, si hay un número par de datos, entonces, no hay un único punto medio, los dos puntos medios se deben promediar para encontrar la mediana. Observa que al calcular los valores atípicos, generalmente se le asigna la variable Q2 a la mediana, debido a que se encuentra entre Q1 y Q3, el primer y el tercer cuartil, los cuales definiremos más adelante.
    • No te confundas si el conjunto de datos tiene un número par de valores. El promedio de los dos valores frecuentemente es un número que no aparece en el conjunto de datos en sí; esto es normal. Sin embargo, si los dos valores del medio son el mismo número, el promedio, obviamente, será ese mismo número, y esto también es normal .
    • En nuestro ejemplo tenemos 12 valores o datos. Los 2 valores del medio corresponden a los datos 6 y 7, 70 y 71 respectivamente. Por lo tanto, la mediana de nuestro conjunto de datos es el promedio de estos dos valores: ((70 + 71) / 2), = 70,5 .
  4. Este valor, al cual le asignaremos la variable Q1, es el dato debajo del cual se encuentra el 25 por ciento (o un cuarto) de los valores. En otras palabras, este el dato que está en el medio de los datos del conjunto de datos que se encuentra por debajo de la mediana. Si hay un número par de valores por debajo de la mediana, debes promediar nuevamente los dos valores en el medio para hallar Q1, como tal vez tuviste que hacerlo para encontrar la mediana misma.
    • En nuestro ejemplo, 6 datos se encuentran sobre la mediana y 6 datos por debajo de esta. Eso significa que para hallar el primer cuartil, vamos a tener que promediar los dos datos en el medio de los seis datos menores. Los datos 3 y 4 de los seis menores ambos son 70. Por lo tanto, su promedio es ((70 + 70) / 2), = 70 . 70 será nuestro valor para Q1.
  5. Este valor, al cual le asignaremos la variable Q3, es el dato sobre el cual se encuentra el 25 por ciento de los valores. El método para hallar Q3 es casi idéntico al usado para hallar Q1, con la diferencia de que en este caso se consideran los datos sobre la mediana, en vez los que se encuentran por debajo de esta.
    • Siguiendo con nuestro ejemplo, los dos valores en el medio de los seis datos sobre la mediana son 71 y 72. Al promediar estos dos valores obtenemos ((71 + 72) / 2), = 71,5 . 71,5 será nuestro valor para Q3.
  6. Ahora que hemos definido Q1 y Q3, tenemos que calcular la distancia entre estas dos variables. La distancia de Q1 a Q3 se calcula restando Q1 de Q3. El valor obtenido para el rango intercuartil es clave para determinar los límites para los valores no atípicos del conjunto de datos.
    • En nuestro ejemplo, lo valores para Q1 y Q3 son 70 y 71,5, respectivamente. Para encontrar el rango intercuartil restamos Q3 - Q1: 71,5 - 70 = 1,5 .
    • Observa que esto funciona incluso si Q1, Q3, o ambos son números negativos. Por ejemplo, si nuestro valor para Q1 fuese -70, nuestro rango intercuartil sería 71,5 - (-70) = 141,5, lo cual sería correcto.
  7. Los valores atípicos se identifican al evaluar si se encuentran o no dentro de unos límites numéricos llamados “límites internos” y “límites externos”. Un valor que se encuentra por fuera de los límites internos del conjunto de datos se llama valor atípico leve , y uno que se encuentra por fuera de los límites externos se llama valor atípico extremo . Para encontrar los límites internos del conjunto de datos, primero, multiplica el rango intercuartil por 1,5. Luego, suma el resultado a Q3 y réstaselo a Q1. Los dos valores que obtendrás de resultado son los límites internos del conjunto de datos.
  8. Estos se calculan de la misma forma que los límites internos, excepto que el rango intercuartil se multiplica por 3 en vez de por 1,5. Luego el resultado se le suma a Q3 y se le resta a Q1 para hallar los límites superiores e inferiores externos.
  9. Usando la metodología descrita es posible determinar si ciertos datos son valores atípicos leves, valores atípicos extremos o ningún tipo de valor atípico. Sin embargo, no te equivoques, identificar a un dato como valor atípico solamente lo categoriza como un candidato que puede ignorarse del conjunto de datos, pero no como un dato que debe ignorarse. El motivo por el cual un valor atípico se diferencia del resto de los valores del conjunto de datos es crucial para determinar si debes o no ignorar el valor atípico. Por lo general, los valores atípicos cuyo origen se le puede atribuir a un error de algún tipo, como un error en la medición, en el registro, o en el diseño experimental, se ignoran. Por otro lado, los valores atípicos que no pueden atribuírseles a un error y que revelan nueva información o tendencias que no habían sido predichas por lo general no se ignoran.
    • Otro criterio a tener en cuenta es si el valor atípico afecta de manera importante la media (promedio) del conjunto de datos desviándola o haciendo que sea engañosa. Tener en cuenta esto es particularmente importante si planeas sacar conclusiones de la media del conjunto de datos.
    • Evaluemos nuestro ejemplo. En nuestro ejemplo, dado que es muy improbable que el horno alcanzase una temperatura de 300 grados debido a una fuerza natural imprevista, podemos concluir casi con total certeza que el horno quedó encendido accidentalmente, dando como resultado una lectura de temperatura elevada anómala. Además, si no ignoramos el valor atípico, la media de nuestro conjunto de datos es (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89,67 grados, mientras que la media si ignoramos el valor atípico es (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11 = 70,55.
      • Dado que el valor atípico puede atribuírsele a un error humano y porque no es correcto decir que la temperatura promedio de este cuarto era de casi 90 grados, deberíamos elegir ignorar nuestro valor atípico.
  10. Si bien algunos valores atípicos deben ignorarse de los conjuntos de datos porque son el resultado de un error y/o desvían los resultados volviéndolos incorrectos o engañosos, algunos valores atípicos deben contarse. Si por ejemplo, parece que un valor atípico se obtuvo de forma válida (o sea, no como resultado de un error) y/o te da un conocimiento nuevo del fenómeno que estás midiendo, no se debe descartar. Los experimentos científicos son situaciones particularmente susceptibles cuando se trata de valores atípicos. Ignorar un valor atípico por error puede significar el descarte de información que indique alguna tendencia o descubrimientos nuevos.
    • Por ejemplo, digamos que vamos a diseñar una droga nueva para aumentar el tamaño de los peces de un criadero de peces. Usaremos el mismo conjunto de datos de antes ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), excepto que esta vez, cada dato representará la masa de un pez (en gramos) después de haber sido tratado con una droga experimental diferente desde su nacimiento. En otras palabras, la primera droga hizo que un pez pesara 71 gramos, la segunda droga le dio a otro pez diferente una masa de 70 gramos y así sucesivamente. En esta situación, 300 sigue siendo un valor muy atípico, pero no lo debemos ignorar porque, asumiendo que no se debe a un error, representa un éxito importante en nuestro experimento. La droga que produzco un pez de 300 gramos sirvió más que todas las demás; por eso, este dato es en realidad el más importante de nuestro conjunto de datos, en vez del menos importante.
    Anuncio

Consejos

  • Cuando encuentres valores atípicos, trata de explicar su presencia antes de descartarlos del conjunto de datos. Pueden indicarte errores en las mediciones o anormalidades de la distribución.
Anuncio

Cosas que necesitarás

  • Calculadora

Acerca de este wikiHow

Esta página ha recibido 142 532 visitas.

¿Te ayudó este artículo?

Anuncio