Forem: Mirina-Gonzales

The Data Engineering Lifecycle

Mirina-Gonzales — Sat, 11 Apr 2026 23:50:21 +0000

The goal of this blog post is to explore the Data Engineering (DE) Lifecycle and understand how each of its stages works. To build this content, I am using the book Fundamentals of Data Engineering by Joe Reis & Matt Housley as a reference.

¿What is Data Engineering?

Data Engineering is a discipline focused on designing, building, and maintaining flows that transform data from a source to a final storage destination or to the users who need it.

There is often confusion between the Data Lifecycle and the Data Engineering Lifecycle; that is why we will make a distinction, although we will focus primarily on the engineering side.

1. The Data Lifecycle (Management Focus)

The Data Lifecycle is a separate concept. To define it, we refer to the DAMA-DMBOK (Data Management Body of Knowledge). Here, the data lifecycle is defined similarly to that of a product: it is born, it is used, and eventually, it dies.

Planning: Defining requirements and architectures.
Enablement / Design: Creating the systems and tools needed.
Creation / Acquisition: The entry point of the data.
Maintenance and Storage: Processing and ensuring persistence.
Usage: Providing real value to the business.
Enhancement: Quality techniques and enrichment.
Archiving: Keeping data for legal or historical reasons.
Purging / Deletion: Secure deletion once utility ends.

2. The Data Engineering Lifecycle

This cycle focuses on the "pipeline" and the technical stages that turn raw data into valuable resources. It is divided into 5 main stages:

Generation
Ingestion
Storage
Transformation
Serving

In addition to these, there are undercurrents (cross-cutting concepts) that intervene in every stage: Security, Data Management, DataOps, Data Architecture, Orchestration, and Software Engineering.

Deep Dive into the Stages

Generation

The origin of everything. This is where data is born.

Knowledge vs. Control: We aren't always the owners of the source (very common!), but we must know how data is generated, its frequency, and its velocity.
Communication: Talking to source owners helps anticipate changes. Every source has unique limits.
Schema Evolution: The more a schema changes, the more challenging it becomes to keep the pipeline stable.

Storage

Choosing where to save data defines your freedom to operate. In the cloud, cost depends on the "storage temperature":

Hot Storage: Constant queries (low latency).
Cold Storage: Sporadic queries (e.g., once a month).
Archive Storage: Historical data "frozen" (high latency).

Tip: While storage seems cheap, as a company scales, costs can become a headache if you don't choose wisely from the start.

Ingestion

This is where bottlenecks often appear. You must decide your strategy based on the use case:

Batch: Defined intervals (e.g., reading a DB or a CSV once a day).
Streaming (Real-time): Continuous flow (e.g., sensors or app events).

Transformation

We move from "dirty" data to data that follows business rules. Data Wrangling and cleaning are what guarantee the end user receives value and not "garbage."

Serving

This is where we finally see the value of our work. Data is exposed for:

Analytics (BI)
Machine Learning
Reverse ETL

Undercurrents

To keep the cycle from breaking, we need these foundations:

Security: Access only for those who need it. Additionally, a data engineer must keep in mind that they are responsible for the data they access and must ensure its security throughout their developments.
Data Management: Ensuring that data is understandable, maintains high quality, and respects privacy.
DataOps: Applying DevOps culture to data. Its goal is to automate, monitor, and detect errors quickly.
Architecture: The architecture team is responsible for understanding the business holistically to make strategic decisions. Unlike an engineer, who may focus on a limited number of projects, architects must know the "full map" and balance business needs with the right technological solution. It defines how components communicate and ensures they work not just for now, but for future developments.
Orchestration: The process of coordinating multiple jobs to run quickly and efficiently, either on a defined schedule or as needed. The orchestrator manages dependencies and monitors executions. A good design must account for the fact that processes can fail, defining automatic retry rules to avoid constant human intervention.
Software Engineering: There are common areas between software engineering and data engineering; topics such as streaming, infrastructure as code (IaC), pipeline as code, development, and the use of open-source frameworks.

Which of these 5 stages has given you the most headaches lately? I’ll read your thoughts in the comments!

El Ciclo de Vida de la Ingeniería de Datos

Mirina-Gonzales — Sat, 11 Apr 2026 23:34:54 +0000

El objetivo de este blog es conocer el ciclo de vida que sigue la Ingeniería de Datos (DE) y entender cómo interviene cada una de sus etapas. Para armar este contenido, estoy usando como referencia el libro Fundamentals of Data Engineering de Joe Reis & Matt Housley.

¿Qué es la Ingeniería de datos?

La ingeniería de datos es una disciplina que se centra en diseñar, construir y mantener flujos que transforman los datos desde un origen hacia un almacenamiento final o hacia los usuarios que lo necesitan.

Suele haber confusión entre el ciclo de vida del dato y el de ingeniería de datos; por eso haremos la diferenciación, aunque nos enfocaremos sobre todo en la parte de ingeniería.

1. Ciclo de Vida del Dato

El ciclo de vida de los datos es un concepto distinto. Para definirlo, tomamos como referencia el DAMA-DMBOK. Aquí se define que el dato tiene un ciclo similar al de un producto: nace, se usa y eventualmente muere.

Planificación: Definir requisitos y arquitecturas antes de que el dato exista.
Habilitación / Diseño: Crear los sistemas y bases de datos.
Creación / Adquisición: El punto de entrada del dato (interno o externo).
Mantenimiento y Almacenamiento: Procesar, limpiar y asegurar persistencia.
Uso: La fase donde el dato aporta valor real al negocio.
Mejora: Técnicas de calidad y enriquecimiento.
Archivo: Conservación por razones legales o históricas.
Eliminación / Purga: Borrado seguro cuando ya no hay utilidad.

2. El Ciclo de Vida de la Ingeniería de Datos

Este ciclo se enfoca en el "pipeline" y las etapas técnicas que convierten datos crudos en recursos valiosos. Se divide en 5 etapas principales:

Generación
Ingesta
Almacenamiento
Transformación
Capa de servicio

Además de ellos existen conceptos transversales (corrientes subterráneas) que intervienen en cada etapa: Seguridad, Gestión de datos, DataOps, Arquitectura, Orquestación e Ingeniería de software.

Profundizando en las etapas

Generación

Es el origen de todo. Aquí es donde los datos nacen.

Conocimiento vs Control: No siempre somos dueños de la fuente (algo muy común), pero sí debemo conocer cómo se generan, su frecuencia y velocidad.
Comunicación: Hablar con los dueños de la fuente ayuda a prever cambios. Cada fuente tiene límites y características unicas.
Evolución del esquema: Mientras más cambie el esquema (Schema Evolution), más desafiante será mantener el pipeline estable.

Almacenamiento

Elegir dónde guardar los datos define qué tanta libertad tendrás para operar. En la nube, el costo depende de cual es el tiempo de acceso conocido como la "temperatura" del acceso:

Hot Storage: Consultas constantes (baja latencia).
Cold Storage: Consultas esporádicas (ej. una vez al mes).
Archive Storage: Datos históricos "congelados" (alta latencia).

Aunque el storage parece barato, cuando la empresa escala, los costos pueden darte dolores de cabeza si no eliges bien desde el inicio.

Ingesta

Aquí aparecen los cuellos de botella. Debes decidir tu estrategia según el caso de uso:

Batch (Lotes): Intervalos definidos (ejemplo leer una DB o un CSV una vez al día).
Streaming (Tiempo real): Flujo constante (ejemplo sensores o eventos de apps).

Importante: El streaming puede ser más caro si está activado 24/7, pero un batch mal optimizado puede descontrolarse en cómputo. Analiza siempre la fuente.

Transformación

Pasamos de datos "sucios" a datos que siguen reglas de negocio o generan valor. El Data Wrangling y la limpieza de datos son lo que garantiza que el usuario final reciba valor y no "basura".

Capa de servicio

Donde por fin vemos el valor de todo nuestro trabajo. Los datos se exponen para:

Analítica (BI)
Machine Learning
Reverse ETL

Conceptos Transversales

Para que el ciclo no se rompa, necesitamos estas bases:

Seguridad: Acceso solo a quien lo necesite. Ademas el ingeniero de datos debe tener encuenta que es el responsable de los datos a los que puede acceder y en sus desarrollos velar por la seguridad de estos.
Gestión de datos: Asegurar que el dato sea entendible, tenga calidad y respete la privacidad.
DataOps: Aplicando la Cultura DevOps pero en datos. Automatizar, monitorear y detectar errores rápido.
Arquitectura: El equipo de arquitectura es el encargado de entender el negocio de forma completa para tomar decisiones estratégicas. A diferencia de un ingeniero, que suele enfocarse en una cantidad limitada de proyectos o tareas específicas, los arquitectos deben conocer el mapa completo. Su rol es balancear las necesidades del negocio con la solución tecnológica más adecuada.
Orquestación: Es el proceso de coordinar múltiples jobs para que corran de manera rápida y eficiente, ya sea en un horario definido o según se necesite. El orquestador es el que se encarga de gestionar las dependencias.
Además, la orquestación incluye el monitoreo de estas ejecuciones. Un buen diseño debe contemplar que los procesos pueden fallar, definiendo reglas de reintento automáticas para no depender de la intervención humana constante.
Ingeniería del Software: Existen áreas comunes entre la ingeniería de software y la ingeniería de datos; temas como streaming, infraestructura como código, pipeline as code, desarrollo y el uso de frameworks open source.

¿Cuál de estas 5 etapas te ha dado más dolores de cabeza recientemente? ¡Te leo en los comentarios!

Los datos se cocinan entre muchas manos: descubre cuál es la tuya

Mirina-Gonzales — Fri, 03 Apr 2026 05:47:01 +0000

Introducción

El objetivo de este blog es compartir los diferentes roles que existen en el mundo de los datos. Si eres nueva en este mundo puede ser complicado entender cómo se relacionan entre ellos y sobre todo cómo se diferencian, es por eso que elegí la metáfora de la cocina, donde podemos identificar las diferencias de una forma más cercana y fácil de entender.

¿Por qué existen tantos roles en datos?

Cuando una empresa es pequeña y está incursionando en el mundo de los datos, puede que una sola persona asuma diferentes roles. Pero mientras la empresa va creciendo, las necesidades se vuelven más específicas y es ahí donde se necesitan manos más especializadas. Es diferente tener 4 requerimientos a tener 30 requerimientos que son necesarios para la operatividad del negocio.

Antes de elegir un rol - Como viajan los datos

Para entender los roles es útil entender primero cómo viajan los datos dentro de una empresa, igual que en una cocina donde cada persona tiene una función en el proceso:

Los ingredientes llegan → ingesta de datos
Se limpian y organizan → transformación y limpieza
Se guardan en su lugar → almacenamiento en bases de datos o data warehouses
Se cocinan → procesamiento y análisis
Se sirven → visualización y reportes
Se crean nuevas recetas → modelos de ML y ciencia de datos

Cada rol vive en una parte distinta de este recorrido. Ninguno es más importante que otro: si falla uno, el proceso completo se ve afectado. Como en una cocina, de que serviría tener el mejor chef si no se tiene un buen almacenamiento de alimentos.

Los roles

A continuación, presentamos los roles más comunes en un equipo de datos. Ten en cuenta que, a medida que el equipo crece, las funciones tienden a especializarse cada vez más y nuevo roles aparecen.

- Analista de datos
Explora los datos disponibles para responder preguntas de negocio. Tiene la capacidad de traducir los datos en información que otros equipos pueden entender y usar para decidir. Algunas de sus actividades son: identificar patrones y tendencias en los datos, construir reportes y visualizaciones, y consultar bases de datos para responder preguntas concretas.
- Ingeniera de datos
Construye y mantiene los flujos de datos desde un origen hacia un destino. Sin ella, los datos no llegan a tiempo ni en buen estado a quienes los necesitan. Algunas de sus actividades son: conectar diferentes fuentes de datos, limpiar y estandarizar la información, y garantizar que los pipelines funcionen correctamente.
- Científica de datos
Usa estadística y algoritmos para encontrar patrones ocultos y predecir comportamientos futuros. Algunas de sus actividades son: construir modelos predictivos, aplicar estadística para validar hipótesis, y extraer insights donde el análisis tradicional no logra llegar.
- Ingeniería de ML
Toma los modelos creados por la científica de datos y los hace funcionar dentro de un sistema real, de forma estable y a escala. No inventa el algoritmo, lo convierte en algo que puede correr en producción todos los días sin fallar.

Ojito: Los roles de científica de datos e ingeniera de Machine Learning pueden ser confusos porque dependiendo de la empresa las actividades varían o se solapan. En empresas pequeñas una sola persona puede asumir los dos roles. La separación aparece cuando el volumen de trabajo lo justifica.

Siempre lee la descripción:

Recomiendo revisar los requisitos de cada oferta laboral, si bien buscamos identificar las diferencia algunas empresas pueden poner el nombre de un rol y buscar habilidades de otros o herramientas qiue no concoes, entonces es bueno asegurarse, los titulos aveces dicen la verdad a medias.
Una oferta que dice "Data Scientist" en una empresa puede ser trabajo de análisis puro con SQL y Excel, sin ningún modelo de Machine Learning. En otra empresa ese mismo título puede requerir conocimientos profundos de estadística, Python y redes neuronales. El título es el mismo, el trabajo es completamente distinto.

Que herramientas necesitas

Python:
https://www.w3schools.com/python/default.asp
https://www.kaggle.com/learn/python

Pandas:
https://www.w3schools.com/python/pandas/default.asp
https://www.kaggle.com/learn/pandas

SQL:
https://sqlbolt.com/
https://www.kaggle.com/learn/intro-to-sql
https://www.w3schools.com/sql/default.asp

Conclusión

El mundo de los datos puede parecer infinito cuando lo ves desde afuera, pero una vez que entiendes cómo se divide el trabajo todo empieza a tener sentido. Como en cualquier cocina, no necesitas saber hacer todo: necesitas encontrar el rol donde tus habilidades y tu curiosidad se encuentran.

La buena noticia es que todos los caminos comparten un punto de partida: SQL es la herramienta que atraviesa todos los roles, y Python te abre las puertas de casi cualquier rol que tú elijas. Y recuerda, siempre se puede cambiar.

ThinkInk: Optimizing the Reader's Journey with Generative AI and Copilot CLI - Using Python, Streamlit and Gemini

Mirina-Gonzales — Fri, 13 Feb 2026 06:47:34 +0000

This is a submission for the GitHub Copilot CLI Challenge

What I Built

I am a person who loves reading, but sometimes I find it hard to decide which book to choose or to find one about a new topic I want to explore. I created this application for people like me: readers looking to get hooked on a story before opening it and walk away with key ideas at the end; but also for those who want to start their reading journey and don't know where to begin.

ThinkInk is an application designed to accompany and motivate both established and new readers to discover titles, get to know authors, and explore their works.

During development, many ideas for improvement emerged, which led me to split the application into two sections:

Local Exploration: Allows interaction with a list of 10 books stored in a file within the repository. It includes detailed information about the book and the author. This section works autonomously and locally, as the data is integrated directly into the code.
Exploration with Generative IA (Gemini): To expand the possibilities, I integrated Gemini. This section allows discovering books by topic, author, or title without restrictions. For this functionality, the user only needs to add a secret key (which can be generated for free for testing purposes), expanding the application's functionality.

As a Data Engineer, my goal is always to make data accessible and useful. Although I started ThinkInk in Spanish, I knew a global challenge required a global reach. With Copilot's guidance, I moved beyond my comfort zone to implement a seamless multi-language experience, ensuring no reader is left behind.

Demo

🚀 Explore the Repository: ThinkInk on GitHub

⚙️ Installation and Execution

Requirements

Python 3.8+
pip (package manager)
Git

1. Clone the repository

git clone https://github.com/Mirina-Gonzales/ThinkInk-app.git
cd ThinkInk-app

2. Create virtual environment

python -m venv venv
source venv/bin/activate        # Linux/Mac
# or
venv\Scripts\activate           # Windows

3. Install dependencies

pip install -r requirements.txt

4. Configure Gemini (Optional but recommended)

Step A: Get API Key

Go to Google AI Studio
Click "Get API Key"
Copy your key

Step B: Create .env file
In the project root, create a .env file:

GEMINI_API_KEY=your_key_here

Or use the template:

cp .env.example .env
# Then edit .env with your key

5. Run the application

streamlit run app.py

The app will open at http://localhost:8502

Note: If you encounter any issues during the installation on Windows (such as virtual environment errors), I have included a troubleshooting section in the README to help you out.

📸 App Showcase: See it in Action

🌍 Seamless Multilingual Interface

The application dynamically translates the entire interface and content, providing a truly global experience for any reader.

Spanish Version	English Version

📂 Local Library Exploration

Reflective Reading: Users can interact with a curated local database of classic books, answering pre- and post-reading questions designed to deepen their connection with the text.

Dynamic Data Loading: Even the local data (titles, authors, and insights) adapts to the selected language, ensuring consistency across the platform.

🤖 AI-Powered Intelligence (Gemini)

This is where the magic happens. By integrating Google Gemini AI, ThinkInk breaks the limits of a static library:

In-Depth Analysis: Uses generative AI to provide summaries and character breakdowns for any book in the local repository.

Smart Topic Discovery: Users can search for books based on specific themes (e.g., "Friendship", "Dystopia"). Gemini acts as an expert literary consultant to find the perfect match.

My Experience with GitHub Copilot CLI

I absolutely loved the experience. Although I use Copilot daily for my Data Engineering tasks, I hadn't yet ventured into building a full application from scratch. I built this app using Streamlit, and while I was already familiar with the tool, Copilot was what added that "Senior" touch to the entire development process.

My Step-by-Step Process:

🗺️ Defining the Solution: I started by giving Copilot context about the application and the features I wanted. I asked for a professional folder structure and, after validating it, we created the first functional version using locally stored books.
🧪 Validating Quality from the Start: I requested the creation and execution of unit tests. Seeing how Copilot designed the tests helped me learn a lot about the testing process.
🤖 Powering up with AI (Gemini): To increase the complexity, I used GitHub Copilot CLI to help me integrate Google Gemini AI. I wanted to apply specific restrictions to the AI's usage, so we implemented Guardrails. We configured rules to ensure the tool only responds about books, avoiding offensive content or off-topic subjects—something I consider vital when working with these technologies.
🌍 Breaking Barriers with i18n: I wanted the app to be bilingual. When I asked for recommendations, Copilot offered three different options and suggested i18n because it is lightweight and ideal for my level of experience with internationalization. The comments it generated were incredibly helpful in understanding how the multi-language flow works.
✨ Refinement and Documentation: Finally, we iterated to remove redundant functions that were complicating navigation. We also generated README.md files in both languages, ensuring the technical content remained consistent.

Why Working Step-by-Step was so Rewarding

Instead of sending a massive prompt with everything I needed, I decided to work iteratively. This allowed me to:

Full Control: I could supervise every change and avoid getting lost among so many new features.
Precise Adjustments: If Copilot generated something that didn't quite match what I expected for the app, we corrected it in the moment before moving forward.
Real Learning: By going step-by-step, I was able to understand the "why" behind every solution, especially regarding testing and language management—areas I hadn't worked in before.

🎀 Conclusion

Building ThinkInk has been a fun and deeply educational experience. As a Data Engineer, this project allowed me to bridge the gap between data processing and frontend interface development. Although I had worked with Streamlit before, Copilot helped me easily overcome the barrier of adding that professional touch with ease. Thanks to this, I now plan to create new applications by exploring other frontend languages as well.

I believe the step-by-step methodology using GitHub Copilot CLI was the key to success: it gave me full control over every change and, most importantly, allowed me to deeply understand the code being generated. I highly recommend this iterative approach to maintain full mastery over the projects you are working on.

I hope this application helps the community and inspires more people to build new things, unlocking new skills and exploring the potential of AI in development.

👤 Author

Mirina Gonzales Rodriguez - DEV Profile

GitHub

Streamlit desde cero: cómo crear una app para explorar y visualizar datos

Mirina-Gonzales — Sat, 03 Jan 2026 08:48:17 +0000

Streamlit desde cero: cómo cargar, explorar y graficar datos desde un archivo CSV

Introducción

En este artículo se usará Streamlit desde cero para construir una aplicación interactiva que permita cargar, explorar y visualizar datos desde un archivo CSV en un ambiente local.

El objetivo es crear rápidamente una aplicación para visualizar datos.

El repositorio es el siguiente: https://github.com/Mirina-Gonzales/tech-talks-with-miri

Streamlit

Es un framework de Python de código abierto que permite a profesionales del área de datos crear aplicaciones interactivas de manera simple.

Permite agilidad para trabajar, porque la actualización de los cambios es rápida.
Tiene una gran variedad de componentes listos para usar, por ejemplo: botones, tablas, mapas, cuadros, etc.
Permite reducir los tiempos de carga porque cuenta con sistema de cache, que almacena los datos en memoria y permite reutilizarlos en diferentes páginas dentro de una misma aplicación.

Otras Tecnologías Utilizadas

Python es un lenguaje de programación de alto nivel, fácil de aprender y muy versátil, utilizado ampliamente en desarrollo web, automatización, ciencia de datos, inteligencia artificial y muchas otras áreas.
Pandas es una biblioteca de Python diseñada para manipular, limpiar y analizar datos de forma eficiente, ofreciendo estructuras como DataFrames.
Github es una plataforma en la nube basada en el sistema de control de versiones git, que se utiliza para alojar, compartir y colaborar en proyectos de software.

Arquitectura

Esta es la arquitectura implementada: los datos están almacenados en un CSV en el ambiente local, como lenguaje de programación se usará Python con la librería de Pandas para una mejor manipulación de los datos y finalmente Streamlit será el framework que permitirá la visualización de los datos en un web local.

Análisis del código

En esta sección conoceremos algunos de los comandos que se utilizan en la demo, para mayor información en la sección de recursos está el enlace de la documentación.

Se pueden usar st.header, st.subheader y st.write para mostrar títulos y textos en la aplicación.

st.header("Probar Streamlit de manera local")

st.subheader("3. Presentación de gráficos para análisis exploratorio de datos (EDA)")

st.write("¿Cuál es la distribución de los diferentes estados de fumador dentro de los grupos de personas con y sin diabetes?")

Configuración de la página

st.set_page_config( page_title="Streamlit local", page_icon="📁", layout="wide" )
st.title("💻 Probar Streamlit de manera local")
st.write("""
Esta aplicación demuestra cómo cargar y explorar un conjunto de datos localmente usando Streamlit.
El conjunto de datos utilizado es un conjunto de datos ficticio sobre diabetes.
""")

Para importar los datos desde un archivo CSV local se utiliza Pandas.

uploaded_file = "data/diabetes_dataset.csv"
df = pd.read_csv(uploaded_file)
st.success(" ✅ Archivo cargado correctamente.")

Para imprimir un dataframe usar st.dataframe

st.dataframe(df.head())
st.dataframe(df.describe())
st.write("Filas y columnas:", df.shape)

Se puede experimentar con diferentes filtros para las visualizaciones de datos en este caso st.slider

visualizacionn = st.slider("Número de filas", 5, 100, 5)
st.dataframe(df.head(n))

Imprimir un Treemap

fig = px.treemap(
    df,
    path=["diagnosed_diabetes", "smoking_status"],
    title="Treemap jerárquico: Diabetes → Fumador"
)
st.plotly_chart(fig, use_container_width=True)

Imprimir Pie Chart

st.subheader("Diabéticos")
diab = df[df["diagnosed_diabetes"] == 1]["smoking_status"].value_counts()

fig1, ax1 = plt.subplots(figsize=(5,5))
ax1.pie(diab, labels=diab.index, autopct="%1.1f%%")
ax1.set_title("Fumadores (Diabéticos)")
st.pyplot(fig1)

Implementación Paso a Paso

Preparar ambiente

Clonar o descargar el repositorio desde GitHub: https://github.com/Mirina-Gonzales/tech-talks-with-miri

Luego:

Abrir el proyecto en un IDE como Visual Studio Code.
Abrir una terminal.
Navega hasta la carpeta:

demo-local-streamlit

Crear ambiente virtual

Se llamará al ambiente: _env-local-streamlit _

# Crear ambiente
python -m venv env-local-streamlit

# Activar ambiente
source env-local-streamlit/bin/activate

# Listar librerías antes de instalar 
pip list

Instalar dependencias

Usando el archivo requirements.txt que se encuentra en el proyecto se instalaran los paquetes.

pip install -r requirements.txt

Validar la instalación

pip list

Ejecutar aplicación

Con el ambiente virtual activo y las dependencias instaladas, ejecutar la aplicación con el siguiente comando:

streamlit run src/main.py

Conclusiones

En este blog se creó una demo de Streamlit, utilizando como fuente de datos un archivo csv almacenado en el ambiente local. Se analizó y procesó los datos utilizando Pandas y finalmente con Streamlit se desplegó una aplicación web para visualizar los datos procesados. Experimentando lo simple que es usar el framework.

Recursos Recomendados

Documentación oficial de Streamlit: https://docs.streamlit.io
Repositorio de ejemplo con una aplicación más compleja desplegada en GCP usando Cloud Run: https://github.com/Mirina-Gonzales/mg-gcp-cloudrun-streamlit

Sobre la Autora

Mirina Gonzales

Data Engineer | Women Techmakers Ambassador

🔗 LinkedIn: linkedin.com/in/mirina-gonzales-rodriguez/

💻 GitHub: github.com/Mirina-Gonzales

✍️ Blog: dev.to/mirinagonzales | medium.com/@mirina.gonzales

Construyendo desde la raíz: guía para tus primeros pasos en datos y cloud

Mirina-Gonzales — Sat, 05 Jul 2025 07:33:00 +0000

Hola, espero te encuentres bien :) !
Si estás interesada en el mundo de los datos y la nube, y tienes muchas dudas sobre por dónde empezar, este artículo puede darte una idea clara de las cosas que puedes hacer.

Cuando yo quería comenzar como ingeniera de datos, me sentía muy abrumada por toda la información disponible: cursos, certificaciones, herramientas... Tal vez eso mismo te está pasando. Espero poder ayudarte con estos primeros pasos.

Aquí compartiré recursos que me ayudaron cuando empecé y que, a lo largo del tiempo, he encontrado realmente útiles.

Libros:

Tengo una preferencia por leer, porque siento que puedo controlar la velocidad y personalmente se me hace más fácil estudiar de esta manera. Te comparto algunos libros que me parecen útiles.

1. Python for Data Analysis – Wes McKinney

Este libro tiene temas básicos sobre Python y el uso de pandas que considero importante si quieres trabajar en datos, además de hablar de exploración, limpieza y manipulación de datos.

2. Python Crash Course – Eric Matthes

Similar al libro anterior habla sobre Python y tiene proyectos para iniciar desde cero, es bueno si no tienes experiencia en programación o quieres ver los fundamentos.

3. Learning Spark – Jules S. Damji

Spark es un framework importante en la manipulación de grandes cantidades de datos, y puedes utilizar diferentes lenguajes que están disponibles con el framework sobre todo recomiéndo Python porque es un buen punto de partida.

4. Big Data for Dummies – Judith Hurwitz

Este no es un libro que haya leído completo porque cuando lo encontré ya tenía experiencia y conocimiento en varios temas que aborda, pero por lo mismo creo que es bueno si estas iniciando maneja de una manera fácil varios conceptos necesarios.

5. Delta Lake: The Definitive Guide – Denny Lee, et al.

Luego de tener un poco más de experiencia en manipulación de datos, este libro habla sobre Delta Lake un formato conocido de manipulación de datos, se explica la consistencia y el rendimiento que garantiza el uso de Delta Sharing.

6. Designing Data-Intensive Applications – Martin Kleppmann

Siento que este libro es más avanzando sobre a comparación de los anteriores porque abarca temas más complicados, como escalabilidad, tolerancia a fallos y arquitectura de datos. Si busca profundizar este libro es el indicado, si lo sientes un poco abrumante tranquila suele serlo.

Puedes empezar por los primeros dos y luego ir subiendo la dificultad según veas tu interés en estos temas.

Cursos:

Algunos cursos que recomiendo, algunos de ellos llevé y otros que creo que son muy interesantes y podrian ayudar ayudarte.

1. Tu primer pipeline con Spotify (YouTube – Gratuito)

Serie de 3 videos para crear un pipeline desde cero usando datos de Spotify.
Fue el primer pipeline que creé. Tuve algunas dificultades técnicas, pero me dio el empuje que necesitaba.

📺 Ver en YouTube

2. Introducción a la nube con AWS (SkillBuilder – Gratuito)

Curso ideal para entender los conceptos básicos de cloud computing.
Plataforma con más cursos gratuitos que te pueden interesar. 🔗 Curso AWS Cloud Quest

3. Fundamentos de Azure (Microsoft Learn – Gratuito)

Plataforma con rutas de aprendizaje gratuitas y preparación para certificaciones. 🔗 Azure Fundamentals

Comunidades

Por experiencia personal recomiendo participar en comunidades que hagan match con lo que estas buscando aprender, en este caso hay varias comunidades tanto para datos como cloud, te comparto algunas.
Algunas de estas comunidades dictan cursos gratis, organizan grupos de estudios para certificaciones entre otras actividades.

Data Wizard Club

Es una nueva comunidad, pero por eso no es que no esten activos, estan activos en las diferentes actividades como grupos de estudio, charlas en temas relacionados en datos y servicios de cloud enfocado en datos.
LinkedIn

DataTalksClub

Aqui podran encontrar diferentes cursos a seguir de manera gratis, cada cierto tiempo lanza diferentes cursos y quedan grabados en You Tube y tienen un buen repo de Github.
LinkedIn
Pagina Web
GitHub

También hay comunidades enfocadas en las diferentes nubes o proveedores de servicios, aqui les dejo algunas comunidades que creo que son muy activas y están compartiendo recursos, organizan eventos y hasta grupos de certificaciones con sorteo de voucher!

AWS User Group Perú

AWS Girls Perú

AWS Women Colombia

Microsoft User Group Perú

GDG Cloud Lima

Participar en comunidades ha sido de mucha ayuda en mi camino, por eso te recomiendo que tú también lo hagas. No necesitas ser experta para aportar en si necesitas ganas de aprender!

Conclusiones

Para finalizar no creo que debas seguir todos estos cursos o leer todos estos libros para poder sentirte preparado, el camino se hace al andar.
Es normal dudar al inicio, mi recomendación es que elijas un recurso, comiences a construir algo práctico ya sea en tu computadora o usando una plataforma en la nube y te des la oportunidad de experimentar.

Creando API con FAST API y con el servidor uvicorn: si tus cambios no se actualizan en tu servidor lugar

Mirina-Gonzales — Thu, 25 Jul 2024 03:08:21 +0000

Si estas creando una api usando FastApi y mientras haces pruebas en tu local no ves que se apliquen los cambios de tu codigo en tu servidor local, lo que puedes es matar los procesos que estan corriendo en el task manager.

Ingresa al Task Manager y ingresa a la pestaña de detalles. Busca los procesos de Python si tienes cual es el pip de tus procesos los detienes o puedes apagar todos para asegurarte.

Aquí se pueden ver cuales son los pip de las tareas que se estan ejecutando