6 min read

Qué es el data mining

Con los años han surgido muchos nombres para llamar a la misma cosa. Y es importante aclarar algunos conceptos, aunque no se usen mucho, porque las pocas veces que se usan se dicen solo tonterías.

En este post te cuento en qué consiste eso que algunos siguen llamando data mining.

Índice

Qué es lo primero que tienes que saber sobre data mining

Lo primero que tienes que saber sobre data mining es que nadie lo llama así.

Di estadística. Punto.

Eso, si quieres decir la verdad.

Si quieres encontrar trabajo, es mejor que digas data science o machine learning.

Pero vamos, que es estadística.

Para qué sirve la minería de datos

La minería de datos te servirá para encontrar relaciones entre tus datos.

Esas relaciones sirven para explicar unas variables en función de otras. Concretamente, cuantificas el efecto de una variable frente a otra.

Por ejemplo, ¿en cuánto aumenta la probilidad de tener cáncer de pulmón si una persona es fumadora frente a otra que no lo es?

A preguntas así intenta dar respuesta la minería de datos.

En qué se diferencia la ciencia de datos y la minería de datos

Hasta donde yo sé, en nada.

Se dice que un científico de datos debe ser un buen programador, un buen matemático y un analista de negocio.

De un minero de datos no se dice nada. Sin más. Es que ya nadie usa ese término. Es como antiguo.

Lo importante es que todos ellos, sea en la actualidad o sea hace 30 años, usan estadística para responder a las preguntas de negocio.

Y usan un ordenador para ejecutar esa estadística (porque a mano no se puede hacer).

¿Qué tengo que estudiar para hacer data mining?

Para saber qué estudiar si te quieres dedicar al data mining te recomiendo que leas este otro post en el que te hablo de business intelligence. No es lo mismo pero ahí hago un resumen de perfiles en el mundo de datos y menciono esto.

El resumen es que lo normal es estudiar matemáticas, informática, estadística o alguna ingeniería, pero hay gente muy buena que viene de economía, administración y dirección de empresas y otras áreas más vinculadas a negocio, y luego han hecho un posgrado sobre data mining.

Otra opción es que te formes por tu cuenta, con cursos y vayas ganando experiencia trabajando como analista de datos y te vayas empapando de lo que hacen tus compañeros más orientados a la ciencia de datos.

Qué programas necesito para hacer data mining

Pues está muy de moda Orange Data Mining, pero sinceramente, no conozco a nadie que lo use, así que a saber.

Yo empecé con SAS, pero es tan caro y dependes tanto de la propia empresa SAS que mucha gente pasa. Es típico en bancos y en instituciones públicas.

Lo mejor que puedes hacer es meterte en R (o Python). La ventaja del software libre es que hay una comunidad grande y los desarrollos no paran.

Por el tipo de modelos que se hacen en minería de datos, algo avanzados, no puedes hacer esto en Excel.

¿Qué hace la minería de datos?

La minería de datos da respuestas a problemas de negocio o de ciencia en los que hace falta estadística para poder entender los datos y las relaciones entre las variables. Normalmente construye modelos con capacidad predictora.

¿Qué es el data mining y cuáles son sus principales características?

El data mining es un conjunto de técnicas estadísticas que permiten ajustar modelos a un conjunto de datos para poder lanzar predicciones sobre ellos. Sus características vienen dadas por conceptos estadísticos y las necesidades del software que se utilice.

¿Cómo se hace el data mining?

Si bien necesitas una buena base estadística para hacer data mining, es imprescindible un mínimo de potencia computacional. No hace falta ser programador, aunque saber un poco de ayudará a usar R y Python (herramientas gratuitas y muy completas). Si no sabes programar, puedes usar SPSS, SAS, Orange Data Mining... aunque todo ello es software propietario y caro.

¿Cuál es la diferencia entre big data y data mining?

El data mining hace referencia al conjunto de técnicas estadísticas para ajustar los modelos predictivos. Con Big Data se suele hacer referencia a las técnicas computacionales que necesitas para tratar datos de cierto volumen o cierta complejidad. Si estás haciendo data mining con un volumen de datos muy grande, es posible que necesites herramientas de Big Data para aplicar la estadística a todos esos datos (como Spark) pero las técnicas estadísticas no cambian: el Big Data solo hace que la computación que hay detrás sea diferente, pero como minero de datos no deberías preocuparte tanto por eso. Eso lo aprenderás igual que aprendes un idioma: lo importante es que tengas claros los fundamentos estadísticos.




Si te ha gustado esto, te gustarán mis correos. Para recibirlos te suscribes aquí: