Tabla de contenido:
- Definición: ¿Qué significa la detección de valores atípicos?
- Techopedia explica la detección de valores atípicos
Definición: ¿Qué significa la detección de valores atípicos?
La detección de valores atípicos es el proceso de detectar y posteriormente excluir valores atípicos de un conjunto de datos dado.
Un valor atípico puede definirse como un dato u observación que se desvía drásticamente de la norma o el promedio del conjunto de datos. Un valor atípico puede ser causado simplemente por casualidad, pero también puede indicar un error de medición o que el conjunto de datos dado tiene una distribución de cola pesada.
Aquí hay un escenario simple en la detección de valores atípicos, un proceso de medición produce lecturas consistentemente entre 1 y 10, pero en algunos casos raros obtenemos mediciones de más de 20.
Estas medidas raras más allá de la norma se llaman valores atípicos ya que "se encuentran fuera" de la curva de distribución normal.
Techopedia explica la detección de valores atípicos
Realmente no existe un método matemático rígido y estandarizado para determinar un valor atípico porque realmente varía según el conjunto o la población de datos, por lo que su determinación y detección finalmente se vuelve subjetiva. A través del muestreo continuo en un campo de datos dado, se pueden establecer características de un valor atípico para facilitar la detección.
Existen métodos basados en modelos para detectar valores atípicos y suponen que todos los datos se toman de una distribución normal e identificarán observaciones o puntos, que se consideran poco probables según la media o la desviación estándar, como valores atípicos. Existen varios métodos para la detección de valores atípicos:
- Prueba de Grubb para valores atípicos: se basa en la suposición de que los datos son de una distribución normal y elimina un valor atípico a la vez con la prueba en iteración hasta que no se puedan encontrar más valores atípicos.
- Prueba Q de Dixon: también basado en la normalidad del conjunto de datos, este método prueba los datos incorrectos. Se ha observado que esto debe usarse con moderación y nunca más de una vez en un conjunto de datos.
- Criterio de Chauvenet: se utiliza para analizar si el valor atípico es espurio o si todavía está dentro de los límites y se considera parte del conjunto. Se toman la media y la desviación estándar y se calcula la probabilidad de que ocurra el valor atípico. Los resultados determinarán si se debe incluir o no.
- Criterio de Pierce: se establece un límite de error para una serie de observaciones, más allá del cual se descartarán todas las observaciones, ya que ya implican un error tan grande.
