Si estás buscando un primer puesto de data analyst o data science sin experiencia, te habrán insistido mucho en que te montes un portfolio de proyectos que hayas hecho con datos públicos.
Así podrás usarlo en tus entrevistas para mostrar que, aunque no tienes experiencia, sabes aplicar las cosas que has aprendido en un máster de data science, en un bootcamp de big data, o en cualquier formación que hayas tenido.
En estos párrafos te cuento por qué no deberías preocuparte por tener un portfolio de data science.
¿Qué es un portfolio de ciencia de datos?
En cualquier sector, un portfolio de proyectos incluye un resumen de los proyectos que has realizado en el pasado. Así, quien esté pensando en contratarte puede hacerse una idea de qué tipo de cosas sabes hacer, sin que se las cuentes.
Los proyectos típicos de un portfolio en ciencia de datos consisten en análisis que tengan todas las fases de un proyecto:
- Acceso a la fuente de los datos. Idealmente desde una API, pero no pasa nada porque sean ficheros (CSV, Excel, parquet), ya que en la realidad muchos de tus proyectos serán con ficheros.
- Tratamiento de los datos. Normalmente los datos en su origen tendrán un formato que no te viene bien y tendrás que adaptarlo. Puede ser el formato de algunas columnas, pero también puede ser el formato de la tabla entera, o que tengas toda la información en varias tablas y necesites unificarla.
- Análisis exploratorio. No tiene sentido que te pongas a hacer modelos avanzados sin revisar previamente que tus datos tienen cierta calidad. Si tus variables son casi constantes, o todas repiten la misma información, quizá no puedas hacer gran cosa.
- Modelo o análisis estadístico. La idea no se trata tanto de que te pongas a aplicar modelos complejos y redes neuronales para que vea la gente que sabes usarla. Lo importante es que en esta fase des respuesta a un problema de negocio. Los datos deberían serte útiles para eso, y aquí es cuando usas la estadística para solucionar (o entender) un problema.
- Presentación de resultados. Puedes dar una conclusión con unos gráficos sin más, pero no está de más en tu porfolio que metas algún dashboard con resultados. Con PowerBI o R Shiny los puedes alojar en repositorios públicos para que cualquiera los explore.
Si eres capaz de hacer dos o tres análisis con todas esas fases, y además los alojas en un sitio público, apoyándote en GitHub Actions, algunas herramientas de Amazon Web Services, has triunfado.
Es más, aunque no te compliques con la presentación final de los resultados, alojarlo en un perfil público de GitHub puede ser la forma más directa de montar un portfolio.
O sea, no te compliques haciendo un sitio web, aunque sea muy fácil con plantillas: simplemente comparte tu perfil público de Github. Tenlo bien ordenado, con un README actualizado que haga referencia a los repositorios que alojes ahí, y ya tienes tu portfolio disponible.
Ahora bien…
¿Cuánto te aporta tener un portfolio de ciencia de datos?
Mira.
Actualmente, los procesos de selección pasan todos por pruebas técnicas.
¿Qué es una prueba técnica?
Pues una especie de examen, de ejercicio que te piden hacer para incorporarte a un equipo.
A veces es solo una entrevista, en la que te hacen preguntas. A veces te piden que hagas un ejercicio en casa. O a veces te piden que hagas un ejercicio en el sitio donde esté la empresa. Y a veces te piden todo eso.
Hay procesos de selección que tienen una fase técnica que lleva todo el día (una vergüenza, la verdad).
En los procesos que hacen pruebas técnicas me atrevo a decir que lo que les importa un portfolio es absolutamente nada.
Es verdad que hay pruebas técnicas mal planteadas. Pero por lo menos tienen una cosa buena: estandarizan el proceso.
O sea, ¿qué ocurre con los portfolios?
Con lo que te contaba en el párrafo anterior lo has debido de deducir: llevan mucho tiempo.
Y si estás trabajando o vives en ciertas circunstancias personales que te roban tiempo, no vas a poder sacar muchos proyectos por tu cuenta.
Tener un porfolio es un privilegio. Pero no tener un portfolio no significa que no sepas.
Un portfolio te ayudará a demostrar que sabes aplicar ciertas cosas, sí.
Pero muchas empresas saben que tu conocimiento lo puedes demostrar de otras formas, así que no pensarán mal de ti si no tienes un portfolio.
¿Debería crear un portfolio?
Si puedes, hazlo. Sí.
¿Porque así luego los de los procesos de selección podrán verlo?
No.
Porque tú aprenderás mucho.
Incluida la parte de hacerlo público te aportará.
Obligarte a publicar tus análisis te obligará a ser más meticuloso y a asegurar ciertas buenas prácticas para poder desplegar tus proyectos en la nube.
¿Luego no los mirará nadie?
Pues es muy posible.
Pero tú habrás aprendido mucho en el proceso.
Además, pedir portfolios de proyectos es una falta de respeto
A estas alturas de texto te habrá quedado claro que un portfolio lleva tiempo.
Si eres una persona que ya está trabajando en otro sector, y quiere dar el salto al sector de la ciencia de datos o similares, no vas a tener tiempo para montarte un portfolio público.
Por supuesto, tendrás que estudiar, y quizá, si quieres sí o sí tener un potfolio, tu solución es publicar tus apuntes y tus ejercicios.
Pero poco más.
Si en un proceso de selección están pidiendo portfolios, no es porque quieran valorar tu capacidad para aplicar conocimientos: es solo porque quieren meter un filtro fácil.
¿Qué les aporta ese filtro?
Pues que como la gente que ya está trabajando no va a tener tiempo para eso, se los quitan del proceso. Así, esa gente que ya tiene experiencia (aunque sea en otro sector), no la puede utilizar para justificar que se merecen un salario un poco más alto que el básico que se podría dar a un recién iniciado.
Así que sí, es solo un filtro para asegurar que va gente que aspira a un salario bajo.
¿Cómo hacer un proyecto de Data Science?
Escoge tres o cuatro conjuntos de datos que creas que pueden dar respuesta a una pregunta. No tiene por qué ser algo empresarial: pueden ser datos públicos para entender algo de clima, o de situación de una ciudad. Haz un análisis exploratorio para ver la calidad de los datos y aplica estadística a responder esa pregunta.
¿Cómo armar tu portfolio?
Lo más directo es que te hagas un perfil público de Github y sea eso tu porfolio. Tenlo bien ordenado, con repositorios claros y un buen README que dé contexto, y con eso te vale.
¿Cómo hacer un portfolio laboral?
Preocúpate por dar respuesta a un problema. El objetivo no es demostrar que sabes aplicar muchas cosas, sino que sabes resolver un problema. Es mejor que apliques una metodología sencilla pero de manera coherente, que hagas muchas complejas a medias.
¿Qué tiene que tener un buen portfolio?
Proyectos que den una respuesta a un problema. Plantea de manera clara qué problema estás intentando resolver, o qué pregunta quieres responder. Y luego deja claros los pasos que sigues qué te aporta cada paso. Idealmente, intenta que los proyectos del portfolio sean distintos unos de otros. En el caso de un portfolio de ciencia de datos, intenta tener un proyecto más orientado a visualización, uno a inferencia estadística, uno de tecnología y despliegue de apps... mezcla situaciones distintas.