Cuenta la mitología griega que un posadero, llamado Procusto, recibía a pasajeros solitarios a pasar la noche.
Según entiendo yo, solo aceptaba a gente sola: nada de grupos. Te cuento por qué.
Resulta que Procusto solo tenía una cama que ofrecer a sus huéspedes.
Y cuando llegaba el viajero, le ofrecía tumbarse en ella.
¿Sabes qué hacía Procusto?
Si el viajero era alto y superaba el largo de la cama, Procusto le cortaba las extremidades. O la cabeza. Lo que sobrara con tal de que el huésped cupiera en la cama.
Si, por el contrario, era bajo y le sobraba cama, Procusto desconyuntaba a su víctima a golpes y la estiraba hasta que ocupara la cama por completo.
Su objetivo era que el huésped ocupara justo lo que ocupaba la cama.
¿Podríamos decir que así estaría más cómodo?
Un problema que tiene Excel es que hay un máximo de filas y de columnas en sus documentos. Si tienes una tabla con 2 millones de filas, no te cabe en Excel.
Es como una cama de Procusto, en la que tienes que cortar trozos de tus datos para que te quepan.
Y claro, no tiene ningún sentido.
En la mitología griega, Teseo mata a Procusto. Pero en la vida real ningún Teseo va a matar a Excel.
Ni falta que hace.
Excel en sí mismo no es malo. Simplemente, tiene limitaciones. Y necesitas alternativas.
Lo de los CSVs para guardar datos quizá ya te suene.
Pero quizá no te suene parquet.
Un fichero parquet guarda tus datos tabulares de una manera más eficiente que un fichero CSV. No solo ocupará menos el fichero (lo notarás mucho en ficheros grandes), sino que la lectura y el procesado de sus datos será más rápido.
Me ha gustado esta entrada sobre tratamiento de ficheros parquet con R (los puedes trabajar en Python igualmente).
P.D. Excel no es solo una cama de Procusto porque te corta datos, sino también porque ocupa más que un CSV y un parquet en muchas circunstancias, aunque en los tres casos guardes los mismos datos. A ver si llega pronto Teseo.