Data Mining: La minería de datos puede y debe existir en las empresas
A priori, parece imposible combinar la minería dentro de una empresa que tiene poco que ver con ella. Sin embargo, el Data Mining está cobrando protagonismo en las empresas tecnológicas estadounidenses. Descubre qué es y por qué debe existir en algunas empresas.
Qué es el Data Mining
Aunque no existe una definición fijada, nos gusta cómo lo define Arturo Licona, especialista de Deloitte: el Data Mining es “un conjunto de técnicas de extracción de datos para detectar patrones de comportamiento mediante algoritmos matemáticos”. Dicho en otras palabras, es una práctica por la que extraemos información a partir de un conjunto de datos para transformarla en una información coherente, útil y usable en el futuro.
El nacimiento del Data Mining tiene que ver con el Big Data. Las empresas acumulan a diario cantidades enormes de datos, así que surge la necesidad de dar con nuevas técnicas capaces de analizar y dar utilidad esa cantidad de datos.
Parece una técnica nueva, pero comparte los mismos principios que el data fishing (también llamado data dredging) o el data archaeology. Los objetivos del Data Mining son los siguientes:
- Explorar bases de datos de forma automática.
- Encontrar patrones que se repitan para explicar el comportamiento de los datos. De ahí que se use el Machine Learning y la Inteligencia Artificial para tal fin.
- Dar sentido a una cantidad de datos astronómica.
- Extraer conclusiones para el beneficio de la empresa.
Si te preguntas dónde se utiliza la minería de datos, podemos decirte que se está viendo su aplicación en los sectores de seguros, transportes, salud e, incluso, por parte de Gobiernos.
Big Data y Data Mining
Cuando hablamos de técnicas de recopilación o uso de datos es fácil confundir Big Data y Data Mining. En realidad, son procesos que están relacionados, pueden complementarse y persiguen objetivos similares, aunque utilizan diferentes técnicas.
Big Data es un término que se asocia a grandes conjuntos de datos que superan el tipo simple de bases de datos y arquitecturas. Por ejemplo, cuando tenemos un conjunto de datos tan grande como para ser usado en un Excel, podemos hablar de un conjunto de Big Data. Sin embargo, está más relacionado con el beneficio que podemos extraer de los datos que con su volumen.
En cambio, la minería de datos o Data Mining se refiere a la actividad de analizar grandes conjuntos de datos con el objetivo de buscar información relevante. Aplicando un dicho popular, el Data Mining sería como “buscar una aguja en un pajar”. De este modo, se trata de una técnica de recopilación y análisis de conjuntos de datos para que ciertos empleados tomen decisiones en base a ellos. Por este motivo, se dice que usar el Data Mining en la empresa es clave para ayudar al liderazgo y para elegir el rumbo que queremos tomar.
Qué profesional puede ser un minero de datos o Data Miner
En seguida surge la pregunta de qué tipo de perfil profesional debe reunir una persona para ser un minero de datos. Un Data Scientist o un Data Analyst serían ejemplos de un minero de datos, ya que se requiere tener una formación en Data Science y Big Data. Dicho esto, hay formaciones específicas que están saliendo para formarse en Data Mining concretamente.
El Data Mining tiene sus desventajas
A pesar de todas las bondades que ofrece el Data Mining, no es una ciencia exacta, por lo que tiene sus desventajas o limitaciones.
Uso de más tiempo
El Data Mining no es óptimo para cualquier operación porque existen casos en los que nos puede llevar mucho tiempo usar esta técnica. Dentro de la empresa es esencial la producción cuando hablamos de recopilar, analizar y traducir coherentemente cantidades inmensas de datos. Por tanto, esta técnica puede ser útil en ciertos escenarios, pero en otros es más convenientes acudir a alternativas.
Coste de uso de recursos
Para poder ejercer el Data Mining dentro de una empresa se requiere usar muchos recursos a la hora de recopilar datos. Nos referimos a espacio de almacenamiento, acceso de ciertas herramientas y software o al coste de implementación. No solo eso, debemos tener profesionales al mando que sepan qué herramientas usar, cómo practicar el Data Mining e informar a la empresa de las necesidades de recursos.
Vulnerabilidades
Sin dejar la ciberseguridad atrás, plantea cierto dilema con las vulnerabilidades en la seguridad. El problema reside en que recopilamos una cantidad tan grande de datos que los cibercriminales pueden atacar y robar información crítica durante el proceso. Esto dependerá de la ciberseguridad que tengamos en nuestra nube o en los servicios cloud computing contratados.
Privacidad del origen de los datos
Con esto hay que tener cuidado y no es para menos con la entrada en vigor del RGPD en España. Al fin y al cabo estamos recopilando información proveniente de personas, por lo que debemos tener cuidado con la privacidad del usuario.