Forem: Andres

AWSChallenge - Week 2

Andres — Fri, 05 Dec 2025 14:50:59 +0000

🚀 NO PARAMOS!!!, continuamos con la semana dos de nuestros #AWSChallenge, ahora quiero mostrarles las ventajas de los servicios Serverless, Construiremos un Pipeline de datos completo, desde la ingesta, procesamiento y visualización de datos, enteramente en AWS y librerias de python como streamlit, lo llamaremos : "Crypto-Tracker Serverless"

¿Alguna vez te has preguntado cómo las grandes empresas monitorean datos en tiempo real sin tener servidores encendidos las 24 horas? La respuesta es Arquitectura Serverless.

Hoy no vamos a ver teoría. Hoy vamos a construir.

En este taller paso a paso, crearemos un sistema que monitorea el precio de Bitcoin y Ethereum, lo almacena en la nube y lo visualiza en un dashboard interactivo.

🏗️ La Arquitectura
Nuestro flujo de datos ("Data Pipeline") será completamente nativo de la nube:

Fuente: CoinGecko API (Datos públicos gratuitos).
Ingesta (Compute): AWS Lambda (Python) orquestada por EventBridge.
Almacenamiento: Amazon DynamoDB (NoSQL de baja latencia).
Backend API: Amazon API Gateway para exponer los datos de forma segura.
Frontend: Streamlit para visualizar las tendencias.

🛠️ Fase 1: El Almacén de Datos (DynamoDB)
Primero, necesitamos un lugar rápido y flexible para guardar nuestros precios.

Ve a la consola de AWS DynamoDB > Create Table.

Table Name: CryptoPrecios

Partition Key: symbol (String). Ej: BTC

Sort Key: timestamp (String). Ej: 2025-12-05T10:00:00

Configuración: Selecciona On-Demand.

💡 Pro Tip: La combinación de Partition Key + Sort Key nos permite hacer consultas ultra rápidas de series de tiempo por moneda.

⚡ Fase 2: Ingesta Automática (Lambda + EventBridge)
Vamos a crear un "robot" que busque los precios cada 5 minutos.

La Función Lambda (Writer) Crea una función llamada CryptoIngestor (Python 3.9+) y pega este código. Usaremos urllib3 para no complicarnos con Layers externos.


import json
import boto3
import urllib3
from datetime import datetime

# Configuración
dynamodb = boto3.resource('dynamodb')
table = dynamodb.Table('CryptoPrecios')
http = urllib3.PoolManager()

def lambda_handler(event, context):
    coins = {'bitcoin': 'BTC', 'ethereum': 'ETH'}
    url = "https://api.coingecko.com/api/v3/simple/price?ids=bitcoin,ethereum&vs_currencies=usd"

    try:
        response = http.request('GET', url)
        data = json.loads(response.data.decode('utf-8'))
        current_time = datetime.now().isoformat()

        with table.batch_writer() as batch:
            for coin_id, symbol in coins.items():
                price = data[coin_id]['usd']
                batch.put_item(Item={
                    'symbol': symbol,
                    'timestamp': current_time,
                    'price': str(price)
                })
        return {'statusCode': 200, 'body': 'Datos Ingestados OK'}

    except Exception as e:
        print(f"Error: {e}")
        return {'statusCode': 500, 'body': 'Error en ingesta'}

Los Permisos (IAM) Tu Lambda fallará si no le das permiso. Ve a Configuration > Permissions, edita el Rol y añade una Inline Policy:

{
    "Effect": "Allow",
    "Action": ["dynamodb:PutItem", "dynamodb:BatchWriteItem"],
    "Resource": "arn:aws:dynamodb:*:*:table/CryptoPrecios"
}

La Automatización (EventBridge) En la Lambda, haz clic en Add Trigger > EventBridge.

Schedule Expression: rate(5 minutes).

¡Listo! Tu base de datos empezará a llenarse sola.

🌐 Fase 3: Exponiendo los Datos (API Gateway)

No es buena práctica conectar el Frontend directo a la Base de Datos. Usaremos una API intermedia.

Crea una segunda Lambda llamada CryptoReader con permisos de dynamodb:Query.


import json
import boto3
from boto3.dynamodb.conditions import Key

table = boto3.resource('dynamodb').Table('CryptoPrecios')

def lambda_handler(event, context):
    symbol = event.get('queryStringParameters', {}).get('symbol', 'BTC')
    response = table.query(
        KeyConditionExpression=Key('symbol').eq(symbol),
        ScanIndexForward=False, Limit=50
    )
    return {
        'statusCode': 200,
        'body': json.dumps(response['Items'])
    }

Ve a API Gateway > Create HTTP API.

Crea una ruta GET /get-prices e intégrala con tu Lambda CryptoReader.

Importante: Habilita CORS (Origins: *) para que tu Streamlit local pueda acceder.

📊 Fase 4: Visualización (Streamlit)

Visualicemos nuestros datos con Python puro.

Instala las librerías: pip install streamlit pandas requests


import streamlit as st
import pandas as pd
import requests

# ⚠️ REEMPLAZA CON TU URL DE API GATEWAY
API_URL = "https://TU-API-ID.execute-api.us-east-1.amazonaws.com/get-prices"

st.set_page_config(page_title="Crypto Workshop", layout="wide")
st.title("⚡ AWS Serverless Crypto Tracker")

symbol = st.selectbox("Moneda:", ["BTC", "ETH"])

if st.button('Refrescar'):
    try:
        r = requests.get(f"{API_URL}?symbol={symbol}")
        data = r.json()
        df = pd.DataFrame(data)

        # Limpieza de datos
        df['timestamp'] = pd.to_datetime(df['timestamp'])
        df['price'] = df['price'].astype(float)
        df = df.sort_values('timestamp')

        # Métricas
        latest = df.iloc[-1]['price']
        st.metric(label=f"Precio Actual {symbol}", value=f"${latest:,.2f}")

        # Gráfico
        st.area_chart(df, x='timestamp', y='price')

    except Exception as e:
        st.error(f"Error conectando a AWS: {e}")

Para ejecutar tu aplicacion, vamos hacerlo de manera "Profesional" (Entorno Virtual)

Esta es la forma recomendada para no mezclar librerías de distintos proyectos.

Crea un entorno virtual (una carpeta aislada para este proyecto):

python -m venv venv

Actívalo (Verás que aparece un (venv) al inicio de tu línea de comandos):

.\venv\Scripts\activate

Instala las librerías AQUÍ dentro:

pip install streamlit pandas requests boto3

Ejecuta el programa:

streamlit run app.py

🎯 El Reto Continúa: ¿Te atreves a más?

¡Felicidades! 🎉 Si llegaste hasta aquí, acabas de construir una arquitectura moderna, escalable y serverless. Pero un Ingeniero de Datos nunca se detiene.

¿Quieres llevar esto al Nivel Senior? Te reto a:

🔔 Nivel Medio: Agrega AWS SNS para que te llegue un correo electrónico si el Bitcoin baja de cierto precio.

🧠 Nivel Avanzado: Usa AWS Comprehend para analizar noticias sobre Cripto y cruzar el "Sentimiento" (Positivo/Negativo) con el precio en tu gráfica.

🤖 Nivel Experto: Despliega toda esta infraestructura usando código (Terraform o AWS CDK) en lugar de hacer clics en la consola.

El aprendizaje en la nube es un viaje, no un destino. ¿Qué funcionalidad le agregarías tú? ¡Te leo en los comentarios! 👇

Comenta "LOGRADO" si tu Lambda ya está corriendo.
¡Comparte este post, con tu compañero que siguie utilizando las mismas graficas de datos!

AWS #DataEngineering #Python #Streamlit #CloudComputing #Workshop #LearningByDoing

AWSChallenge - Week 1

Andres — Thu, 27 Nov 2025 19:46:14 +0000

Con este reto doy inicio a una serie de proyectos en AWS, que buscan afianzar conocimiento y explotar la creatividad, se utilizara la capa gratuita de AWS, lo que permitira a cualquier persona replicar este proyecto

He consolidado todos los aprendizajes, correcciones de errores (espacios en nombres, permisos, timeouts) y el código final robusto.

Proyecto: Extractor Inteligente de CVs con AWS Bedrock
(Principiante)

Descripción General Este proyecto implementa una arquitectura Serverless en AWS para procesar automáticamente Hojas de Vida (CVs) en formato PDF. El sistema extrae texto, utiliza Inteligencia Artificial Generativa (Claude 3 Haiku) para estructurar la información (nombre, skills, contacto, etc.) en formato JSON y almacena los resultados en una base de datos NoSQL.

Flujo de Arquitectura

Infraestructura

Amazon S3 (Almacenamiento)
Nombre del Bucket: resumenes-articulos-pdf-ia
Event Notification: Configurado para disparar la Lambda en eventos Put o CreateObject (sufijo .pdf).

Amazon DynamoDB (Base de Datos)
Nombre de la Tabla: resumenes-pdf-ia
Partition Key (Clave Principal): id_archivo (Tipo: String).

3.3. Amazon Bedrock (IA)
Modelo: anthropic.claude-3-haiku-20240307-v1:0

4. Seguridad (IAM Role)
Nombre del Rol: RoleLambdaSummarizer

Este rol sigue el principio de menor privilegio, permitiendo solo lo necesario para operar.

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Sid": "S3Access",
            "Effect": "Allow",
            "Action": [
                "s3:GetObject",
                "s3:ListBucket"
            ],
            "Resource": [
                "arn:aws:s3:::resumenes-articulos-pdf-ia",
                "arn:aws:s3:::resumenes-articulos-pdf-ia/*"
            ]
        },
        {
            "Sid": "BedrockInvoke",
            "Effect": "Allow",
            "Action": [
                "bedrock:InvokeModel"
            ],
            "Resource": "arn:aws:bedrock:us-east-1::foundation-model/anthropic.claude-3-haiku-20240307-v1:0"
        },
        {
            "Sid": "DynamoDBWrite",
            "Effect": "Allow",
            "Action": [
                "dynamodb:PutItem"
            ],
            "Resource": "arn:aws:dynamodb:us-east-1:*:table/resumenes-pdf-ia"
        },
        {
            "Sid": "Logging",
            "Effect": "Allow",
            "Action": [
                "logs:CreateLogGroup",
                "logs:CreateLogStream",
                "logs:PutLogEvents"
            ],
            "Resource": "*"
        }
    ]
}

Configuración de AWS Lambda

Detalles Generales Runtime: Python 3.12 Timeout: 1 min 0 sec (Aumentado de 3s a 60s para esperar a la IA). Memory: 512 MB (Recomendado para procesar PDFs rápido).

Lambda Layer (Dependencia pypdf)
Para que Lambda pueda leer PDFs, se debe crear una Layer.

Instrucciones de creación (Windows):

Crear carpeta python.
Ejecutar: python -m pip install pypdf -t python/
Comprimir la carpeta python en layer_pypdf.zip.
Subir a AWS Lambda Layers y asociar a la función.

Código Fuente (lambda_function.py)
Este código incluye manejo de errores, decodificación de URLs (para archivos con espacios), parsing de JSON robusto y trazabilidad completa.

import json
import boto3
import io
import traceback
import pypdf 
from urllib.parse import unquote_plus
from datetime import datetime
from botocore.exceptions import ClientError

# --- CONFIGURACIÓN ---
REGION = 'us-east-1'
TABLE_NAME = 'resumenes-pdf-ia'
MODEL_ID = 'anthropic.claude-3-haiku-20240307-v1:0'

# Clientes AWS
s3 = boto3.client('s3')
bedrock = boto3.client('bedrock-runtime', region_name=REGION)
dynamodb = boto3.resource('dynamodb', region_name=REGION)
table = dynamodb.Table(TABLE_NAME)

def extraer_texto_pdf(contenido_bytes):
    """Extrae texto plano de un archivo PDF en memoria."""
    print("[SUB-PROCESO] Iniciando lectura de bytes PDF con pypdf...")
    try:
        pdf_file = io.BytesIO(contenido_bytes)
        reader = pypdf.PdfReader(pdf_file)
        num_paginas = len(reader.pages)
        print(f"[SUB-PROCESO] PDF detectado con {num_paginas} páginas.")

        texto_completo = ""
        for i, page in enumerate(reader.pages):
            texto_extraido = page.extract_text()
            if texto_extraido:
                texto_completo += texto_extraido + "\n"

        return texto_completo
    except Exception as e:
        print(f"[ERROR] Fallo dentro de extraer_texto_pdf: {str(e)}")
        raise e

def lambda_handler(event, context):
    print("---  INICIO DE EJECUCIÓN (EXTRACCIÓN CV) ---")

    try:
        # 1. Obtener detalles del archivo
        bucket = event['Records'][0]['s3']['bucket']['name']
        raw_key = event['Records'][0]['s3']['object']['key']
        # Decodificar nombre de archivo (arregla errores con espacios 'Hoja+de+vida.pdf')
        key = unquote_plus(raw_key) 

        print(f"[PASO 1] Objetivo: {key} en Bucket: {bucket}")

        # 2. Leer PDF de S3
        print(f"[PASO 2] Descargando objeto de S3...")
        response = s3.get_object(Bucket=bucket, Key=key)
        file_content = response['Body'].read()

        # 3. Convertir PDF a Texto
        texto_candidato = extraer_texto_pdf(file_content)
        print(f"[PASO 3] Extracción finalizada. Caracteres: {len(texto_candidato)}")

        # 4. Preparar Prompt para Bedrock
        prompt_sistema = """Eres un experto reclutador de TI. Tu tarea es extraer información de Hojas de Vida (CVs) en formato JSON estricto.
        Extrae los siguientes campos:
        - nombre_completo (String)
        - telefono (String)
        - correo (String)
        - perfil_profesional (Resumen de 2 lineas)
        - cargo_actual_o_ultimo (String)
        - skills_tecnicos (Lista de Strings)
        - profesion_titulo (String)
        - certificaciones (Lista de Strings)
        - universidad (String, si aplica)
        - resumen_trayectoria (String, max 300 caracteres)
        - tiene_foto (Boolean, basado en si el texto menciona "foto" o hay indicios visuales descritos)

        IMPORTANTE: Responde ÚNICAMENTE con el objeto JSON."""

        prompt_usuario = f"Analiza este CV:\n\n{texto_candidato[:50000]}"

        body = json.dumps({
            "anthropic_version": "bedrock-2023-05-31",
            "max_tokens": 4000,
            "messages": [
                {
                    "role": "user",
                    "content": [
                        {"type": "text", "text": prompt_sistema},
                        {"type": "text", "text": prompt_usuario}
                    ]
                }
            ]
        })

        # 5. Invocar Bedrock
        print(f"[PASO 5] Invocando Bedrock ({MODEL_ID})...")
        response_bedrock = bedrock.invoke_model(
            body=body,
            modelId=MODEL_ID,
            accept="application/json",
            contentType="application/json"
        )

        response_body = json.loads(response_bedrock.get('body').read())
        resultado_ai = response_body['content'][0]['text']

        # 6. Parsing del JSON
        print(f"[PASO 6] Parseando respuesta IA...")
        start_idx = resultado_ai.find('{')
        end_idx = resultado_ai.rfind('}') + 1
        json_str = resultado_ai[start_idx:end_idx]
        datos_candidato = json.loads(json_str)

        # 7. Guardar en DynamoDB
        datos_candidato['id_archivo'] = key
        datos_candidato['fecha_procesamiento'] = str(datetime.now())
        datos_candidato['bucket_origen'] = bucket

        table.put_item(Item=datos_candidato)
        print(f"[PASO 7] Datos guardados en DynamoDB.")

        return {
            'statusCode': 200,
            'body': json.dumps('Candidato procesado exitosamente')
        }

    except Exception as e:
        print("[ERROR FATAL]")
        traceback.print_exc()
        raise e

¡Reto Cumplido! Hemos domado a la IA en la Nube ☁️🤖

Si llegaste hasta aquí, ya tienes un "Reclutador IA" funcionando 100% en la nube. Hemos superado errores de permisos IAM, configurado Layers de Python y conectado S3 con DynamoDB.

¿Qué sigue? No nos vamos a quedar solo guardando datos. En el próximo tutorial, vamos a llevar esto al siguiente nivel con Embeddings y Búsqueda Semántica. ¡Prepárate para construir un buscador inteligente!

👇 Tu turno:

¿Qué otro uso se te ocurre para esta arquitectura? (¿Facturas? ¿Informes médicos?)
Comenta "LOGRADO" si tu Lambda ya está corriendo.
¡Comparte este post con ese colega que sigue copiando datos a mano!

¿Quieres obtener la acreditación Databricks Lakehouse Fundamentals?

Andres — Mon, 06 Jan 2025 14:58:38 +0000

En los roles tecnologicos, son indispensables las certificaciones de las herramientas que dia a dia utilizamos, un ejemplo de ello es Databricks.

Es una plataforma que permite ejecutar procesos de ingenieria de datos, analisis de informaicon, Ejecucion de modelo de IA y ML, a gran escala de forma rápida y eficiente, en la nube.

Tiene varios servicios, algunos de ellos son:

Databricks Unity Catalog: un catálogo de datos que proporciona governanza de los datos en un Data Lakehouse.
Databricks Delta Lake: Es un formato de datos con una capa de abstracción sobre los datos en un Data Lakehouse.
Databricks SQL: Analisis con lenguaje SQL, que permite a los usuarios consultar datos en un Data Lakehouse utilizando SQL.
Databricks AI & Machine Learning: una plataforma de aprendizaje automático.

Cabe recordar que Databricks ofrece 4 acreditaciones básicas, las formaciones son gratuitas y las puedes consultar en el momento en que lo necesites.

Una de ellas es "Databricks Lakehouse Fundamentals" podra demostrar los conocimientos sobre los principios básicos de la Plataforma.

Creeme que para una persona que diariamente tiene que utilizar esta herramienta, te sera de gran ayuda, tener estos conocimientos basicos

El material de estudio cuenta con cuatro lecciones:

- Introducción a Data Lakehouse
- Introducción a Databricks Lakehouse Platform
- Introducción a la arquitectura y los fundamentos de seguridad de la plataforma Databricks Lakehouse
- Introducción a las cargas de trabajo admitidas en la plataforma Databricks Lakehouse

te dejo el link del curso completo en la plataforma oficial: Lakehouse Fundamentals

https://www.databricks.com/learn/training/lakehouse-fundamentals-accreditation

Al aprobar el examen, tendras un certificado y tu insignia.

Espero esta informacion sea util y logres esta acreditacion.

¡Hasta la próxima!

-GuechaTech

Como obtener tu certificación de AWS Cloud Practitioner y no morir en el intento

Andres — Thu, 02 Jan 2025 02:44:02 +0000

AWS Cloud Practitioner, es un examen de fundamentos del grande de la nube, con ella puedes certificar de que efectivamente tienes los conocimientos necesarios para incursionar en la nube con procesos iniciales.

Desde hace varios años me ha interesado la computación en la nube y con ella todos los servicios que trajo, como análisis de datos, almacenamiento, procesamiento y mi archienemigo Redes.

hace unos años tuve la oportunidad de participar en Colombia de una iniciativa llamada "AWS re/start", es una especie de bootcamp en el cual no solamente enseñan los fundamentos de la nube AWS, si no que también, programación básica en Python e incluso manejo de linux, es muy bueno, te dejo el enlace para que participes de la convocatoria :

https://aws.amazon.com/es/training/restart/
https://corporativo.compensar.com/productividad/agencia-empleo/aws-restart

Esto me preparo inicialmente para presentar el examen, sin embargo esta fue una de mis primeras certificaciones Cloud, y como a veces nos pasa, salió en mí el renombrado "síndrome del impostor", creí que con todo esto no iba a poder certificarme, lo que me llevo a seguir buscando más y más contenido y ayudas para tener certeza de pasar el examen

Afortunadamente AWS, tiene dentro de su portafolio una gran variedades de herramientas que nos facilitan el aprendizaje de su herramienta, una de ella es Academy :

https://aws.amazon.com/es/certification/certified-cloud-practitioner/

Segun mi experiencia te doy una serie de pasos para que presentes de manera exitosa este examen:

Conoce el examen y los temas a tratar: Este es un examen de nivel fundamental, con 65 preguntas, tiene una duración de 90 minutos
, lo puedes presentar en línea o presencial y está disponible en múltiples lenguajes
Consulta la guía del examen, esta te va a guiar y te muestra en que porcentaje están separados los temas
https://d1.awsstatic.com/es_ES/training-and-certification/docs-cloud-practitioner/AWS-Certified-Cloud-Practitioner_Exam-Guide.pdf
revisa el conjunto de preguntas de prácticas de AWS, https://explore.skillbuilder.aws/learn/course/external/view/elearning/16817/aws-certified-cloud-practitioner-preguntas-de-practica-oficiales-clf-02-espanol-latam
Presenta una prueba previa al tu examen real: te servirá y te ayudará a calmarte : https://explore.skillbuilder.aws/learn/course/external/view/elearning/18509/examen-de-prueba-oficial-de-formacion-para-el-examen-aws-certified-cloud-practitioner-clf-c02-espanol-latam-exam-prep-official-pretest
afina todos tus conocimientos con orientación de AWS, Skill Builder, te da preparación guía, no solamente para este examen si no para varios temas, https://explore.skillbuilder.aws/learn

-Por último, revisa el contenido de la comunidad de AWS, preferiblemente local, es decir los grupos de usuario, (en Colombia una muy buena (https://awswomencolombia.com/))

Cualquier duda que tengas, me puedes escribir y buscaremos juntos como resolverla.

Hasta la próxima!

-GuechaTech

DELTA LAKE

Andres — Thu, 02 Jan 2025 02:41:40 +0000

Existen diferentes arquitecturas para el procesammiento de datos, unas que llevan varios años como DWH, otras no tanto como un DataLake, sin embargo, ultimamente mi atencion se ha centrado en el tipo de almacenamiento Delta Lake.

Pero que es, a mi manera de verlo, es una almacenamiento de multiples fuentes de datos (estructurados, no estructurados, semi), que permite tener versiones de cada unos de estos datos, segun sean modificados y todo esto basado en formato .parquet.

para utilizarlo lo podemos hacer con spark, utilizando nuestra propia sesion, o con herramientas especializadas como Databricks.

para este caso realizaremos un ejemplo muy simple de una instalacion local con sparkelta Lake, necesitas instalar pyspark y delta-spark:

pip install pyspark delta-spark

esta es un ejemplo muy simple de como utilizar nuestro delta lake

from pyspark.sql import SparkSession

spark = SparkSession.builder .appName("DeltaLakeExample")  .config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension") \
    .config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog") \
    .getOrCreate()

Creacion de una tabla con spark dentro de nuestro datalake:

from pyspark.sql.types import StructType, StructField, StringType, IntegerType
from delta.tables import DeltaTable

schema = StructType([
    StructField("id", IntegerType(), True),
    StructField("name", StringType(), True),
    StructField("age", IntegerType(), True)
])

data = [(1, "Alice", 29), (8, "Bob", 31), (4, "Cathy", 25)]
df = spark.createDataFrame(data, schema)

df.write.format("delta").mode("overwrite").save("/tmp/delta-table")
delta_df = spark.read.format("delta").load("/tmp/delta-table")

delta_df.show()

Como podemos ver Delta Lake es una infraestructura de datos muy poderosa y pertenece al stack moderno de datos, te dejo mas enlaces donde podemos ver mucha mas informacion :

https://delta.io/
https://learn.microsoft.com/es-es/azure/databricks/delta/

Hasta la proxima!!

-GuechaTech

Visualizacion de datos con Streamlit + Python

Andres — Thu, 02 Jan 2025 02:39:39 +0000

Siempre me he interesado en como se muestran los datos a los stakeholders, herramientas de BI ya diseñadas por grandes empresas que se han dedicado a esto por años, nos entregan soluciones, de muy buena calidad y con funcionalidades inimaginables, sin embargo, desde mi pensamiento como ingeniero, siempre tengo la necesidad de saber como se contruyen las cosas, o incluso como puedo hacerlo yo mismo desde el codigo.
Fue alli que esta busqueda de la verdad, (🤣🤣🤣), entontre una libreria que premite de manera sencilla crear aplicaciones con Python para visualizacion de datos, en la cual puedo ubicar el boton como yo quiero, la grafia a mi manera, entre muchas mas.

Streamlit es una biblioteca de Python que permite crear aplicaciones web interactivas para el análisis de datos de manera rápida y sencilla.
Para la instalación de Streamlit, basta con un simple:

pip install streamlit

Luego se deben importar las librerias correspondientes, por ahora algunas basicas :

import streamlit as st
import pandas as pd
import matplotlib.pyplot as plt

una vez tengas una version del sitio con el tablero tal cual como lo quieres ver, solo la ejecutas y listo

streamlit run app.py

En proximos post veremos un video tutorial, de como crear una pagina simple pero muy poderosa para el servicio de datos.

Espero esto sea de tu agrado, hasta la proxima!!

-GuechaTech

Python o Spark

Andres — Thu, 02 Jan 2025 02:36:07 +0000

Estaba recordando como fue mi inicio en el mundo de los datos y creo que como muchos, empezamos con MS Excel.

Recuerdo una herramienta que permitia hacer depuracion de datos, un poco de programacion (VBA) y luego crear tableros de indicadores geniales, todo esto es un mismo archivo. (Buenos recuerdos).

Pero ahora vemos multiples herramienas y lo mejor lenguajes de programacion enfocados a datos, los cuales nos permiten ver esos datos como codigo, para un ingeniero de software esto fue en su momento un Buummmmm!, me exploto la cabeza 🤯. Me encanto!!.

Principalmente en mi trabajo y en mis proyectos personales, utilizo dos lenguajes de programacion, Python por excelencia y Spark.

Me gustaria hacer una comparativa entre ambos y revisar para que casos se deben utilizar.

Python: Es un lenguaje de programación conocido por su simplicidad y legibilidad.
Apache Spark: Es un motor de procesamiento de datos en clúster, diseñado para realizar análisis de datos a gran escala.

2. Arquitectura

Python: Funciona en un solo nodo y es adecuado para el procesamiento de datos en memoria en un entorno local.
Apache Spark: Utiliza una arquitectura distribuida que permite el procesamiento paralelo de datos en múltiples nodos de un clúster.

3. Ecosistema y Bibliotecas

Python: Cuenta con un gran ecosistema de bibliotecas, como Pandas, NumPy, Scikit-learn, TensorFlow, entre otros, estas a mi forma de ver las principales, pero claro que hay muchas mas.

Apache Spark: Ofrece un conjunto de componentes integrados, como Spark SQL, Spark Streaming.

4. Rendimiento

Python: procesamiento de datos en memoria y puede es eficiente para conjuntos de datos pequeños a medianos.
Apache Spark: Es el indicado para grandes volúmenes de datos por el tipo de arquitectura que veíamos anteriormente.

Si estas empezando el mundo de los datos, lo que te recomiendo inicialmente es que entrenes tu lógica, suena muy obvio, pero esto te va a ayudar enormemente, antes de empezar a programar, luego inicia con Python, con las bases de este lenguaje, tipo de datos, cálculos matemáticos, duplas, diccionarios, listas, arreglos, bucles.

Una vez tengas las bases, empieza a crear tus propias ejecuciones, muy sencillas, toma Dataset, que están disponibles en la web, te recomiendo una página, muy buena para ello, Kaggle:

https://www.kaggle.com/

Y simplemente intenta, convertir fechas en meses, suma columnas entre sí, convierte los tipos de archivos, etc.

Espero este post te seas de gran ayuda.

Hasta la próxima!!

-GuechaTech

Guia para entender definitivamente un proceso ETL en ingenieria de datos con AWS

Andres — Thu, 02 Jan 2025 02:34:05 +0000

Extracion, Transformacion y Carga (Load) - ETL

Desde mi experiencia personal veo como la ETL com el proceso fundamental en la integración de datos y hace parce de una arquitectura de pipeline de datos, se utiliza para ingestar y transformar datos desde múltiples fuentes hacia la bodega de almacenamiento de datos, como un DWH o DataLake.

1. Extracción (Extract)

Aca se ingesta la informacion de diferentes origenes de datos, desde una base de datos On-premise hasta bases de datos Cloud, pero aca no acaba todo, se pueden ingestar archivos planos (csv,txt, etc.) o archivos de un datalake, como los .parquet.
Tambien el llamado a una API, en fin todo aquello a tenga informacion y se disponibilice para consumo de datos.

2. Transformación (Transform)

En este proceso, se aplican todas las reglas de negocio en los datos, transformaciones, combinaciones, formatos, etc.

3. Carga (Load)

En la carga se disponibilizan datos, en su version negocio, es decir datos ya depurados y listos para ser analizados por diferentes herramientas de BI

AWS disponibiliza varias herramientas para ejecucion de procesos ETL, una de ellas, si no la mas importante es, AWS Glue, se pueden utilizar diferentes lenguajes de programacion para tratar a los datos como codigo, sin embargo no es la unica.

Dentro de un Pipeline de datos, intervienen multiples procesos, uno de ellos es ETL, sin embargo no es el unico, una arquitectura de datos evalua, desde el proceso de ingesta, modelado de datos, almacenamiento y servicio, pasando por redes, seguridad, perfiles, etc.

Para esto se utilizan servicios de AWS como Lambda, AWS Glue, AWS Athena,
Almacenamiento como AWS S3, AWS DynamoDB, AWS Aurora y Dashboard como AWS quicksight.

Espero esto te de una guia muy de alto nivel de que es un proceso de ETL y que herramientas utilizar en AWS.

Hasta la proxima!

-GuechaTech

Pasos iniciales para comenzar con AWS 🏃‍♀️‍➡️

Andres — Thu, 02 Jan 2025 02:29:25 +0000

Cuando unicie con la nube de AWS, no tenia tan claro como funcionaban los servicios, para que era cada cosa, hice un listado super resumido, de las principales cosas a tener en cuenta, espero te sirva:

AWS para el procesamiento de datos

Amazon Web Services (AWS) ofrece una amplia gama de servicios para el manejo de datos, pasando desde la ingesta, transformacion, almacenamiento y servicio de datos (análisis y machine learning).

Para ingresar pro primera vez a la consola de AWS, lo puedes hacer desde este enlace :

https://aws.amazon.com/es/

Alli vas a crear una cuenta en AWS, Visita el sitio web de AWS y regístrate para obtener una cuenta, importante que por temas de seguridad actives la autenticación multifactor (MFA).
Configurar IAM (Identity and Access Management)
Crea usuarios y grupos con permisos específicos.
Utiliza políticas de IAM para controlar el acceso a los recursos.

Herramientas para almacenamiento de datos:

Almacenamiento de Datos
Amazon S3 (Simple Storage Service): Ideal para almacenar y recuperar cualquier cantidad de datos en cualquier momento.

Amazon EBS (Elastic Block Store): Almacenamiento en bloque para instancias EC2.

Amazon EFS (Elastic File System): Sistema de archivos elástico para instancias EC2.

4. principales Bases de Datos:

Amazon RDS (Relational Database Service): Servicio de base de datos relacional que soporta varios motores como MySQL, PostgreSQL, MariaDB, Oracle y SQL Server.
Amazon DynamoDB: Base de datos NoSQL completamente gestionada.
Amazon Redshift: Almacén de datos en la nube para análisis de datos a gran escala.

5. Seguridad y Cumplimiento

AWS CloudTrail: Servicio que permite el monitoreo y registro de la actividad de la cuenta de AWS.

8. Monitoreo y Gestión

Amazon CloudWatch: Servicio para monitorear y gestionar métricas y logs.

estos son solo algunos de los cientos de recusos que AWS maneja, te recomiento que ingreses a la plataforma "AWS Academy", alli se encuentra varios recursos que te serviran, (es gratis 🤑).

https://aws.amazon.com/es/training/awsacademy/

Una vez entres y realices varios laboratorios, tendras las herramientas para enfrentarte a las primeras certificaciones en AWS:

https://aws.amazon.com/es/certification/?nc2=sb_ce_co

En los siguientes post, te dare unos tips para la certificacion inicial de AWS

hasta pronto!!

-GuechaTech

DeltaSharing en Databricks

Andres — Thu, 26 Dec 2024 13:59:31 +0000

les cuento que en el sprint anterior, tuvimos un nuevo requerimiento dentro del proyecto el cual estamos trabajando, se queria exponer una tabla del catálogo de Databricks hacia un servicio externo.
Normalmente este proceso se había realizado de Databricks to databricks, pero este requerimiento fue algo nuevo para el proyecto.

La solución, Delta Sharing, antes de mostrarles cómo se solucionó hablemos un poco de este protocolo.

En el mundo actual impulsado por los datos, el intercambio de datos seguro y sin problemas entre organizaciones y plataformas es crucial. Delta Sharing, un protocolo abierto desarrollado por Databricks, aborda esta necesidad al permitir el intercambio de datos seguro y eficiente. Este protocolo permite a los proveedores de datos compartir datos en vivo directamente con sus consumidores sin la necesidad de complejas canalizaciones de datos o replicación de datos.

Delta Sharing aprovecha el poder de Delta Lake, asegurando que los datos compartidos estén siempre actualizados y sean consistentes. Admite una amplia gama de formatos de datos e integra perfectamente con varias herramientas y plataformas de datos, lo que lo convierte en una solución versátil para la colaboración de datos moderna.

En esta publicación, exploraremos las características clave de Delta Sharing, sus beneficios y cómo puedes comenzar a implementarlo en tu entorno de Databricks. Ya seas un proveedor de datos que busca compartir tus conjuntos de datos o un consumidor de datos que desea acceder a datos compartidos sin esfuerzo, Delta Sharing ofrece una solución robusta y escalable para satisfacer tus necesidades.

Ahora si a lo que vinimos.

Inicialmente debemos crear un Share :

CREATE SHARE IF NOT EXISTS recipiente_share;

una vez creado, podemos ver todos los que se han creado con este código :

SHOW SHARES

Luego es necesario crear un destinatario :

CREATE RECIPIENT IF NOT EXISTS BigQueryDataConsumer
COMMENT "delta Sharing With BigQuery"

podemos ver todos los destinatarios creados:

SHOW RECIPIENTS;

Es necesario darle los permisos de consulta a este destinatario:

GRANT SELECT 
ON SHARE recipiente_share
TO RECIPIENT BigQueryDataConsumer

una vez creado el destinatario y con los permisos necesarios, podemos ver el detalle de este:

DESCRIBE RECIPIENT bigquerydataconsumer

Alli nos registra informacion detallada, sin embargo para el ejercicio el mas importante es el "activation_link":

esta url nos va a entregar un archivo con las él token y el endpoint para lograr llegar a la tabla:

Esta información es la que vamos a utilizar para lograr la conexión desde los diferentes servicios.

¡¡¡Gracias!!!

¿Qué es Databricks - AWS?

Andres — Sun, 16 Jun 2024 09:56:25 +0000

Databricks es una plataforma poderosa para el procesamiento de grandes datos volumenes de datos y ML, brinda un entorno unificado que se para todos los profesionales de datos, te muestros algunos pros y contras de la herramienta:

Ventajas:

Escalabilidad: Proporciona una alta escalabilidad, permitiendo manejar grandes volumnes de datos.
Colaboración: Permite integracion colaborativa (GIT), de esta forma científicos de datos, ingenieros de datos y analistas, pueden apoyarse colaborativamente sin problemas.

Integración: Se integra a los principales providers Cloud como Azure, AWS y Google Cloud, haciéndolo versátil para diferentes entornos.

Rendimiento: Es una herramienta que esta optimizada para el funcionamiento de apache Spark..
Delta Lake: Incorpora DeltaLake para proporcionar transacciones ACID en todos los datos y adicionalmente tiene Unity Catalog, con el cual tendremos governanza en los datos.

Contras:

Costo alto: Puede ser costoso para pequeñas empresas o o de
presupuestos limitados.
Dependencia del proveedor: Al basarse en la nube tiene alta dependencia de proveedores cloud.

Para finalizar, Databricks es una plataforma poderosa y versátil para análisis de grandes datos y ML, ofrece numerosos beneficios en de escalabilidad, rendimiento y colaboración.
Sin embargo, los usuarios potenciales deben considerar los costos asociados, la complejidad de aprendizaje.

Pero no te preocupes para eso esta la comunidad, en este post te doy una guia de como tener tu primer acreditacion, total mente gratis!! 🤑

https://dev.to/andresguecha/como-obtener-la-acreditacion-databricks-lakehouse-fundamentals-30cb

Hasta la proxima!

-GuechaTech

Configura tu usuario de la cuenta de AWS con la linea de comandos (CLI)

Andres — Thu, 02 May 2024 13:30:55 +0000

Cuando ya llevas trabajando un tiempo con herramientas no solamente nube si no que también on premise, le empiezas a tener amor a la consola.

desde allí podemos hacer las cosas más rápido, se pueden visualizar de una manera "antigua" pero muy oportuna.

Cuando empecé con AWS, imagine que trabajar desde consola con un proveedor cloud, también se podría, investigue y efectivamente es así, podemos listar los bucket que tenemos, cargar información, descargarla, crear servicios, en fin un sin número de actividades, es decir lo que hacer por la consola web de aws, también lo puedes hacer por consola de comandos, pero a mi parecer de una manera mucho mas organizada y ágil.

A continuación te mostrare como realizar la configuración de tu usuario de AWS y además de como instalar aws CLI y la configuración del mismo, empecemos.

creación de usuario de IAM

En la consola de AWS, seleccionamos el servicio de IAM y la barra lateral izquierda en usuarios, allí creamos un nuevo usuario

para este ejemplo lo llamaré CLI.

loa signamos a un grupo al cual llame Admin ( este grupo tiene todos los permisos de administrador, recuerda que esto es solo educativo, en la vida productiva no funciona así).

Creamos usuario

creación de claves de acceso.

Una vez creado el usuario, lo vas a seleccionar y vas a ir a la opción de "credenciales de seguridad", y creamos la clave de acceso.

Uso, interfaz de línea de comandos.

Y crear clave de acceso, una vez lo realicemos nos muestra la clave de acceso y la clave secreta, estos dos datos son los que necesitamos para la configuración de cli.

Descargar e instalación del CLI de AWS

En la URL https://aws.amazon.com/es/cli/ encontraras la descarga de la consola de comandos de aws, procede a bajarla e instalarla como cualquier otro software.

Una vez instalada, abre una consola de cmd en Windows y verificamos que la instalación esta correctamente realizada, con el siguiente comando:

aws --version

si te salió este mensaje, hasta ahora ya tienes todo listo para la configuración

configuración del CLI con tus credenciales de aws

en la consola escribimos el siguiente comando:

aws configure

Nos va a pedir la clave de acceso, que anteriormente descargamos.

luego la clave de acceso secreta

La región y formato por defecto, para este caso yo dejare us-east-1 y formato json

digitas enter y listo, ya tienes total mente configurada tu cuenta por medio de consola.

prueba el siguiente comando:

aws s3 ls

te va a listar todos los buckets que tienes en tu cuenta y región.

en esta página: https://docs.aws.amazon.com/cli/ vas a encontrar toda la documentación con respecto a este proceso y podrás aprender mucho más.

Espero que este post te haya sido de gran ayuda.

¡¡Saludos!!