Hogar Bases de datos ¿Qué son los datos sucios? - definición de techopedia

¿Qué son los datos sucios? - definición de techopedia

Tabla de contenido:

Anonim

Definición - ¿Qué significa Dirty Data?

Los datos sucios se refieren a datos que contienen información errónea. También se puede usar cuando se hace referencia a datos que están en la memoria y que aún no se han cargado en una base de datos. La eliminación completa de datos sucios de una fuente es poco práctica o prácticamente imposible.

Los siguientes datos pueden considerarse datos sucios:

  • Datos engañosos
  • Datos duplicados
  • Datos Incorrectos
  • Datos inexactos
  • Datos no integrados
  • Datos que infringen las reglas comerciales
  • Datos sin formato generalizado
  • Datos incorrectamente puntuados o deletreados

Techopedia explica datos sucios

Además de la entrada incorrecta de datos, se pueden generar datos sucios debido a los métodos inadecuados en la gestión y el almacenamiento de datos. Algunos tipos de datos sucios se explican a continuación:

  • Datos incorrectos: para garantizar que los datos sean válidos o correctos, el valor ingresado debe cumplir con los valores válidos del campo. Por ejemplo, el valor ingresado en el campo del mes debe oscilar entre 1 y 12, o la edad de un individuo debe ser menor de 130 años. La corrección del valor de los datos puede aplicarse mediante programación mediante tablas de búsqueda o con controles de edición.
  • Datos inexactos: es posible que un valor de datos pueda ser correcto, pero no exacto. A veces, es práctico examinar otros archivos o campos para averiguar si el valor de los datos es exacto según el contexto en el que se utiliza. Aún así, la precisión a menudo solo se puede validar mediante verificación manual.
  • Violaciones de las reglas comerciales: los datos que violan las reglas comerciales son otro tipo de datos sucios. Por ejemplo, una fecha de vigencia siempre debe ser anterior a una fecha de vencimiento. Otro ejemplo de violación de las reglas de negocios puede ser el reclamo de seguro de Medicare de un paciente donde el paciente aún puede estar por debajo de la edad de jubilación y no tiene derecho a Medicare.
  • Datos inconsistentes: la redundancia de datos no verificada conduce a inconsistencias de datos. Cada organización se ve afectada por datos inconsistentes y repetitivos. Esto es particularmente típico con los datos del cliente.
  • Datos incompletos: los datos con valores faltantes son el tipo principal de datos incompletos.
  • Datos duplicados: los datos duplicados pueden ocurrir debido a envíos repetidos, unión incorrecta de datos o error del usuario.

Para aumentar la calidad de los datos y evitar datos sucios, las organizaciones deben incorporar metodologías para garantizar la integridad, validez, coherencia y corrección de los datos.

¿Qué son los datos sucios? - definición de techopedia