Skip to content

Qué es la minería de datos

Proceso de la minería de datos
Rate this post

Qué es la minería de datos

La minería de datos o exploración de datos (la etapa de análisis de “Knowledge Discovery in Databases” o KDD), también llamada: datamining; es un campo de la estadística y la informática que se refiere al proceso que intenta descubrir patrones en grandes volúmenes de conjuntos de datos. Utiliza métodos de inteligencia artificial, aprendizaje automático, estadísticas y sistemas de bases de datos. El objetivo general del proceso de minería de datos es extraer información de un conjunto de datos y convertirla en un marco comprensible para su uso posterior. Además de la etapa de análisis en bruto, incluye aspectos de gestión de datos y bases de datos, procesamiento de datos, consideraciones de modelos e inferencias, métricas de interés, consideraciones de teoría de la complejidad computacional, post-procesamiento de estructuras descubiertas, visualización y actualización en línea.

En conclusión, es el conjunto de técnicas y tecnologías que permiten explorar grandes bases de datos, de forma automática o semiautomática, para encontrar patrones, tendencias o reglas repetitivas que expliquen el comportamiento de los datos en un contexto determinado.

Qué es la minería de datos

Proceso de minería de datos

Selección de sets de datos:

Tanto en términos de variables objetivas (las que queremos predecir, calcular o inferir), como de variables independientes (las que se utilizan para realizar el cálculo o proceso), y posiblemente muestreando los registros disponibles.

Análisis de las propiedades de los datos:

Especialmente histogramas, diagramas de dispersión, presencia de valores atípicos y ausencia de datos (valores nulos).

Transformación del conjunto de datos de entrada:

Se llevará a cabo de varias maneras, dependiendo del análisis previo, con el fin de prepararse para aplicar la técnica de minería de datos que mejor se adapte a los datos y que el problema, este paso también se conoce como pre-procesamiento de datos.

Selección y aplicación de la técnica de minería de datos:

Se construye el modelo predictivo, de clasificación o de segmentación.

Extracción de conocimientos:

Mediante una técnica de minería de datos se obtiene un modelo de conocimiento que representa patrones de comportamiento observados en los valores de las variables problemáticas o relaciones de asociación entre estas variables. También se pueden utilizar varias técnicas al mismo tiempo para generar diferentes modelos, aunque cada técnica requiere generalmente un preprocesamiento diferente de los datos.

Interpretación y evaluación de datos:

Una vez obtenido el modelo, debe validarse verificando que las conclusiones dadas son válidas y suficientemente satisfactorias. Si se han obtenido varios modelos mediante el uso de diferentes técnicas, se deben comparar los modelos en busca del que mejor se adapte al problema. Si ninguno de los modelos logra los resultados esperados, se debe cambiar uno de los pasos anteriores para generar nuevos modelos.

Técnicas de minería de datos

Las técnicas de minería de datos provienen de la inteligencia artificial y la estadística, estas técnicas no son más que algoritmos, más o menos sofisticados aplicados a un conjunto de datos para obtener resultados.

Redes neuronales:

Son un paradigma de aprendizaje y procesamiento automático inspirado en el funcionamiento del sistema nervioso de los animales. Es un sistema de interconexión de neuronas en una red que colabora para producir un estímulo de salida. Algunos ejemplos de redes neuronales son:

  1. El perceptrón.
  2. El perceptrón multicapa.
  3. Mapas auto-organizados, también conocidos como redes de Kohonen.

Regresión lineal:

Es el más utilizado para formar relaciones entre los datos. Rápido y eficaz, pero insuficiente en espacios multidimensionales, donde se pueden relacionar más de dos variables.

Árboles de decisión:

Un árbol de decisión es un modelo predictivo utilizado en el campo de la inteligencia artificial y el análisis predictivo, dada una base de datos se construyen estos diagramas de construcción lógica, muy similares a los sistemas basados en reglas de predicción utilizadas para representar y categorizar una serie de condiciones que suceden sucesivamente, para la resolución de un problema. Ejemplos:

  1. Algoritmo ID3
  2. Algoritmo C4.5

Modelos estadísticos:

Es una expresión simbólica en forma de igualdad o ecuación que se utiliza en todos los diseños experimentales y en regresión para indicar los diferentes factores que modifican la variable de respuesta.

Clustering es un procedimiento de agrupar una serie de vectores de acuerdo a los criterios de distancia; Tratemos de organizar los vectores de entrada de manera que estén más cerca de los que tienen características comunes. Ejemplos:

  1. Algoritmo K-means
  2. Algoritmo K-medoids

Estatutos Sociales:

Se utilizan para descubrir hechos que ocurren en común dentro de un conjunto de datos dado.

De acuerdo con el propósito del análisis de datos, los algoritmos utilizados se clasifican como supervisados y no supervisados (Weiss e Indurkhya, 1998):

  1. Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto de ellos) desconocido a priori, de otro conocido.
  2. Algoritmos no supervisados (o descubrimiento de conocimiento): se descubren patrones y tendencias en los datos.
  3. Determinación de objetivos. Se trata de la delimitación de los objetivos que el cliente desea, bajo la guía del experto en minería de datos.

Etapas de la minería de datos

Preprocesamiento de datos:

Se refiere a la selección, limpieza, enriquecimiento, reducción y transformación de bases de datos. Esta etapa suele consumir alrededor del setenta por ciento del tiempo total de un proyecto de minería de datos.

Determinación del modelo:

Comienza realizando un análisis estadístico de los datos y luego se realiza una visualización gráfica de los mismos para obtener una primera aproximación. Según los objetivos y la tarea a realizar, se pueden utilizar algoritmos desarrollados en diferentes áreas de la Inteligencia Artificial.

Análisis de los resultados:

Comprobar si los resultados obtenidos son coherentes y compararlos con los obtenidos por análisis estadístico y visualización gráfica. El cliente determina si son nuevos y si aportan nuevos conocimientos que le permitan considerar sus decisiones.

En resumen, la minería de datos se presenta como una tecnología emergente con varias ventajas: por un lado, es un buen punto de encuentro entre investigadores y emprendedores; por otro lado, ahorra grandes cantidades de dinero para una empresa y abre nuevas oportunidades de negocio. Además, no cabe duda de que trabajar con esta tecnología implica cuidar un sinfín de detalles, ya que el producto final implica una “toma de decisiones”.

Qué es la minería de datos

¿Qué puede hacer la minería de datos?

La minería de datos se utiliza principalmente hoy en día por las empresas con un fuerte enfoque en las comunicaciones de los consumidores, el comercio, las finanzas y las organizaciones de marketing.

Esto permite a las empresas determinar las relaciones entre los factores “internos”, como el precio, el posicionamiento del producto o las habilidades del personal, y los factores “externos”, como los indicadores económicos, la competencia y la demografía de los clientes. Y esto les permite determinar el impacto en las ventas, la satisfacción del cliente y las ganancias corporativas. Por último, les permite “desglosar” la información de resumen para ver los datos detallados de las transacciones.

Con la minería de datos, un minorista puede utilizar los registros de los puntos de venta de los clientes para enviar promociones específicas basadas en el historial de compras de un individuo. Al extraer datos demográficos de los comentarios o tarjetas de garantía, el distribuidor podría desarrollar productos y promociones para atraer a segmentos específicos de clientes.

Por ejemplo, Blockbuster Entertainment explota su base de datos de historial de alquileres de vídeo para recomendar alquileres a clientes individuales. American Express puede sugerir productos a los titulares de tarjetas basándose en el análisis de sus gastos mensuales.

Wal-Mart es pionera en la minería masiva de datos para transformar su relación con los proveedores. Wal-Mart captura las transacciones en los puntos de venta de más de 2.900 tiendas en seis países y transmite continuamente estos datos a su enorme almacén de datos de 7,5 terabytes.

Wal-Mart permite a más de 3.500 proveedores acceder a datos sobre sus productos y realizar análisis de datos. Estos proveedores utilizan estos datos para identificar patrones de compra de clientes en el nivel de visualización de la tienda. Utilizan esta información para gestionar el inventario de la tienda local e identificar nuevas oportunidades de marketing. En 1995, las computadoras de WalMart procesaron más de 1.000.000 de consultas de datos complejos.

¿Cómo funciona Data Mining o Mineria de datos?

La minería de datos funciona simplemente organizando los datos antes de que sean procesados. Una vez que los datos son almacenados, la minería de datos funciona así:

Clasificación:

En primer lugar, el sistema de minería de datos será responsable de proporcionar una clase para cada objeto o dato encontrado. Este es el sistema de agrupamiento primario y básico del sistema y es necesario para los siguientes niveles. Por ejemplo, podemos ponernos en el caso de una empresa, que puede tener compras a particulares y empresas. El sistema se encargará de clasificar la información según el tipo de persona.

Agrupación:

En esta parte, el sistema puede agrupar diferentes niveles de información en uno solo. En otras palabras, si la compra la realiza una persona jurídica, el sistema puede analizar qué está comprando y por qué.

Asociación:

El sistema también es capaz de asociar dos niveles de información en uno. Estas asociaciones se realizan cuando los niveles de información son los mismos. Por ejemplo, si hablamos de un sistema de minería de datos que busca analizar información sobre las ventas realizadas a una persona física en un establecimiento, podría encontrar coincidencias y generar una asociación.

Herramientas de análisis utilizadas por Data Mining

Las herramientas utilizadas para la minería de datos son muchas, pero regularmente una de las más utilizadas son las redes neuronales artificiales y los algoritmos.

Algunas de las herramientas de aprendizaje en Data Mining son:

  1. Redes neurales artificiales.
  2. Algoritmos genéticos
  3. Árboles de decisión
  4. Inducción de reglas.
  5. Visualización de datos
  6. La técnica del siguiente vecino.