Saltar al contenido principal
Jupyter Notebook: 3 opciones para trabajar localmente

Jupyter Notebook es una herramienta poderosa y ampliamente utilizada en el ámbito de la ciencia e ingeniería de datos. En este post, te mostraré tres opciones diferentes para instalar y utilizar Jupyter localmente: la primera opción totalmente manual, la segunda mas sencilla utilizando Conda y por último a través de Visual Studio Code con la extensión de Jupyter.


Leandro GutierrezAlrededor de 4 minBigDataIngenieria de datosPython
Buenos Aires: Good Airflows

Algunas de las funciones principales de un ingeniero de datos son el obtener, transformar y mover información de un punto a otro, sumado esto a la impactante cantidad de datos que son generadas en la actualidad, se torna imprecindible la estandarización en la definición, implementacion y administración de estos flujos de trabajo, o como solemos llamarles pipelines, compreden un set de tareas a ejecutarse en un cierto orden y con una determinada frecuencia.


Leandro GutierrezAlrededor de 4 minBigDataIngenieria de datosAirflow
Clickhouse: ¡Chango!

En este post vamos a ver una de las DBs OLAP que se jacta de permitirnos operar como ninguna otra: Clickhouse. Haremos un paseo por sus virtudes, falencias y sus tecnologia increiblemente veloz.


Leandro GutierrezAlrededor de 3 minBases de DatosBases de DatosIngenieria de datosClickhouse
RDBMS vs OLAP

Imaginemos por un momento que tenemos la dificil tarea de disponibilizar métricas de efectividad de un nuevo feature desplegado. Dimensionemos (imaginando) la magnitud de la solución: supongamos a modo de ejemplo 1 millon de usuarios diarios, a los cuales a un X porcentaje le exponemos la nueva funcionalidad, y con la cual se interacciona al menos 4 veces durante la sesion diaria. Si nuestro test A/B determina una distribución 50/50, una de las mitades no logueará ninguna actividad mientras que de la otra al menos obtendremos 4 registros al dia, ergo 60M de logs al mes.

Al finalizar el periodo de nuestro experimento, supongamos luego de 3 meses, estaremos procesando 180M de filas. Tarea no despreciable.


Leandro GutierrezAlrededor de 2 minBases de DatosBases de DatosIngenieria de datosAnalítica
Hello World!

Hello World!

Hola, soy Leandro Gutierrez. Bienvenidos a mi blog personal, donde compartiré una variedad de artículos relacionados con el desarrollo de software, ingeniería de datos, diseño y arquitectura de sistemas.


Leandro GutierrezMenos de 1 minuto