1. ¿Cómo Pasar de Data Analyst a Data Scientist? (Y Si Realmente Deberías Hacerlo)
Si trabajas como analista de datos, en algún momento te habrás preguntado si deberías dar el salto a data scientist. La idea suena bien: más modelos, más predicciones, quizá más sueldo. Pero ¿a ti de verdad te interesa eso?
La diferencia clave entre un data analyst y un data scientist no es la herramienta que usan, sino el tipo de preguntas que responden. Mientras que un analista de datos suele describir lo que ha pasado en base a datos históricos, un científico de datos busca predecir lo que va a pasar. Y para eso, necesita más estadística, más machine learning y, en algunos casos, más programación.
Antes de lanzarte, te conviene saber qué implica este cambio y si realmente encaja con lo que quieres hacer.
Y otra cosa: aunque es verdad que el salario medio de los científicos de datos suele ser mayor que el de los analistas, hay más vacantes de analistas que de científicos. Esto puede ser precisamente porque el salario es más bajo, pero también porque muchas empresas lo que necesitan es un analista para entender los datos que ya hay. No tiene sentido intentar predecir con unos datos que no se conocen, así que un primer paso natural es el contratar analistas.
2. ¿Qué Necesitas Aprender para Ser Data Scientist (Además de SQL y Excel)?
Si ya eres analista de datos, probablemente controlas SQL, Excel y algo de Python o R. Pero para convertirte en data scientist, eso no es suficiente. Hay tres áreas clave en las que necesitas mejorar:
- Estadística y modelado predictivo. Si hasta ahora tu análisis se ha basado en medias, medianas y gráficos, toca subir de nivel: distribuciones, regresión, pruebas de hipótesis y, sobre todo, entender la incertidumbre.
- Machine learning y algoritmos. No basta con saber qué es una regresión logística. Tienes que entender cómo funcionan los modelos, cómo elegir el adecuado y cómo evaluar su rendimiento.
- Programación más avanzada. Si solo usas Python o R para limpiar datos y hacer gráficos, toca mejorar: estructuras de datos, funciones personalizadas, optimización de código… y quizá algo de computación en la nube.
No necesitas ser un experto en todo desde el primer día, pero sí entender qué conocimientos vas a necesitar para dar el salto sin sentir que estás perdido.
3. ¿Necesitas aprender a programar mejor?
La exigencia sobre la calidad de tus códigos dependerá de tu equipo (también dependerá de lo que te exijas tú, pero imagino que eso ya se te habrá ocurrido a ti). Si llegas a un equipo de esos típicos en los que tú eres el único miembro técnico, porque no pueden permitirse pagar a nadie más, y estás tú solo, no te preocupes por la calidad de la programación. En serio: tu objetivo por ahora será sacar cosas adelante.
Si por el contrario llegas a un equipo con más personas, entonces sí necesitarás programar bien. Puede haber dos motivaciones.
- Si sois varios, programar bien será una forma de simplificar el mantenimiento. Esto aplica también si estás tú solo, pero cuando seáis varios, no querrás que un compañero mantenga un código tuyo de mala calidad.
- Si en el equipo hay data scientists o data engineers que vienen del mundo de la ingeniería, es decir, personas que tienen mucha formación en programación, te mirarán mal si programas mal. No quieres que te miren mal tus compañeros informáticos.
Ten en cuenta que antes no había data science; lo que había era estadística que en ocasiones se llamaba minería de datos. Cuando los ingenieros empezaron a ver que podían dedicarse a ello, decidieron introducir Python para data science y machine learning. Aunque R era una herramienta para data scientists más que suficiente, los ingenieros no quisieron aprender algo nuevo, sino adaptar lo que ya sabían al nuevo campo.
Ahora tú trabajas con ellos y tienes que adaptarte a lo que ellos exijan.
4. ¿Y qué hay de la estadística y el machine learning?
Como data analyst espero que tengas unos mínimos de estadística aplicada. O sea, tu trabajo no debería ser solo poner datos en un dashboard de PowerBI, sino el aplicar ciertos métodos estadísticos para extraer aprendizajes de datos más allá de su visualización.
No digo que sepas de redes neuronales, pero muchos modelos de regresión o de clasificación se pueden usar como modelos explicativos en lugar de como modelos predictivos. Esto puede ser súper potente porque un tabler con gráficos bonitos no te sabe cuantificar relaciones entre variables; esos modelos sí.
Ahora te toca fortalecer tus habilidades predictivas. Para ello sí necesitarás modelos de lo que actualmente llaman machine learning. Que sepas que no todo son redes neuronales. Los modelos basados en árboles, como CatBoost o XGBoost, consiguen muy buenos resultados.
5. Pero… ¿hace falta un máster para esto?
Si ya tienes un máster en algo de datos, o matemáticas o algo así, entonces seguramente no.
Un problema actual (en España por lo menos) es que las empresas solo buscan a personas con título de máster. Eso es una vergüenza pero no es objeto de este artículo.
Si ya tienes un máster, quizá dé el pego como formación en data science. Será tu trabajo transmitir en el CV que tienes experiencia relacionada como data scientist. Para ello, intenta hacer algún mini proyecto de data science. Si no lo tienes y sientes que te falta algo de formación en data science, piensa en cómo puedes aprender data science sin máster.
Para ello, mini cursos de machine learning pueden ser suficientes. Kaggle, Google, Microsoft o DeepLearning.ai tienen formación gratuita más que suficiente para esto.
6. Mentalidad de data scientist: pensar en modelos, no solo en datos
Un punto importante será tu actitud y tu forma de pensar. Siempre se dice que la gran parte del tiempo un data scientist la pasa trabajando con datos, pero inevitablemente tiene que saber ajustar modelos. Ambos perfiles tienen una mentalidad analítica pero es posible que el analista se fije más en el histórico de datos y el data scientist intente enfocarlo en el modelado de datos.
Además, como el data scientist ajustará modelos que en teoría contribuirán a una mejor toma de decisiones de la empresa, es importante que contraste si esos modelos son mejores o no que lo que sea que hubiera antes.
Para ello es clave la experimentación en data science. O sea, plantea experimentos para ver si tus modelos funcionan mejor que lo que se obtiene cuando no hay modelos. No obstante, como analista de datos creo que esto es algo que también sabrás hacer.
7. Algunos recursos que pueden ayudarte
Lo dicho, antes de liarte a hacer másteres tienes muchos recursos gratuitos que te vendrán bien.
Aquí tienes listados los cursos gratuitos de machine learning que te he mencionado antes:
- Curso de Machine Learning de Microsoft
- Listado de cursos de DeepLearning.ai
- Curso de Machine Learning de Google
- Curso de Machine Learning de Kaggle
Y te recomiendo que no busques libros de data science en general, sino de ramas específicas de la ciencia de datos. En cierto modo deberías conocer, al menos por encima, Introduction to Statistical Learning, que lo tienes disponible tanto en R como en Python en sus versiones gratuitas en pdf.
¿Se puede pasar de analista de datos a científico de datos?
Sí, se puede. La duda es si quieres. Son trabajo distintos y ambos son necesarios. Necesitarás estudiar algunas cosas de modelización estadística y programación. Con eso puedes. Lo que debes plantearte es si te interesa el trabajo, con todo lo que conlleva hacer modelos predictivos y hacer que la gente los use.
¿Qué es mejor, un Data Analyst o un Data Scientist?
Son cosas distintas. El Data Analyst en general se preocupará más de estudiar los datos históricos y entender el pasado; el Data Scientist se encargará de hacer modelos predictivos. Así en general, eso te sirve como definición. Verás que son cosas diferentes y ambas son necesarias.
¿Cómo ascender de analista de datos a científico de datos?
Si ya tienes algo de formación de datos no necesitas estudiar nada oficial. Estudia por tu cuenta modelización estadística y programación. Y luego intent hacer mini proyectos, mejor incluso si los haces en tu puesto de data analyst, para que puedas decir que tienes experiencia como data scientist. Eso te dará una diferenciación clara.
¿Quién gana más, un científico de datos o un analista de datos?
Un científico de datos. En media, sin duda, un científico de datos.