Etiqueta: notas

  • 🔍 William Sealy Gosset

    William Sealy Gosset, un estadístico británico, trabajó en Guinness mejorando la calidad de la cebada y los procesos. Obligado a usar el pseudónimo «Student» por la empresa, desarrolló la fundamental Distribución t para analizar muestras pequeñas.

    Su ingenio sentó las bases del análisis estadístico y el diseño experimental, convirtiéndolo en uno de los estadísticos más influyentes del siglo XX, todo desde la sombra de una cervecera. Gosset fue un hombre modesto, capaz de ser amigo de estadísticos rivales como Pearson y Fisher (¡todo un logro!). Él mismo diría: «Fisher lo hubiera descubierto de todas maneras».

  • 💡Distribución t de Student

    La distribución t de Student es una herramienta fundamental en la estadística inferencial, especialmente cuando trabajas con muestras de datos pequeñas y la desviación estándar es una incógnita.
    La desarrolló William Sealy Gosset, un empleado de Guinness, quien tuvo que pelearse para hacer inferencias fiables sobre la calidad de la cerveza con un número pequeño de muestras.

    Aplicaciones clave de la distribución t

    • Pruebas de hipótesis (Test t): Compara medias poblacionales con muestras reducidas
    • Intervalos de confianza: Estima la media poblacional, robusta con datos limitados.
    • Análisis de regresión: Determina errores estándar de coeficientes para modelos predictivos.

    Conceptos esenciales de la distribución t

    • Grados de libertad (df): Define la forma; a mas df, más se aproxima a la distribución normal. Es el «margen de maniobra».
    • Estadístico t: Mide cuántas «desviaciones estándar t» se aleja una muestra de una media hipotética.

    Limitaciones y consideraciones de la distribución t

    • Los datos de origen deben seguir una distribución normal.
    • Para muestras muy grandes, la t se parece a la normal, no es necesario aplicarla

  • 🛠️ Prefect. Orquestador de flujos de trabajo en python

    Todo proyecto de datos escala de juguete a monstruo. Cuando el caos crece, un orquestador es la respuesta para simplificar y ordenar.

    Prefect es el orquestador que uso actualmente. Me permite programar, ejecutar y monitorizar pipelines complejas en mis proyectos. Es el director de orquesta, asegurando que cada tarea se ejecute en el momento justo y con la partitura correcta.

    Beneficios clave de Prefect

    • Robustez: Maneja fallos y reintentos automáticamente, asegurando que los flujos de trabajo sean fiables.
    • Visibilidad: Te da un cuadro de mando claro para monitorizar las ejecuciones y el estado de las pipelines.
    • Flexibilidad: Define los flujos de trabajo directamente en python, fácil de integrar.
    • Escalabilidad: Diseñado para crecer junto a las necesidades de automatización de tu proyecto.

    Conceptos esenciales de Prefect

    • Flow (Flujo): El pipeline de tareas a ejecutar.
    • Task (Tarea): La unidad mínima de trabajo (leer datos, usar un modelo, realizar una transformación…).
    • State (Estado): Cómo se encuentran las tareas y los flujos (pendiente, fallido, completado…).
    • Scheduler (Planificador): Programa las ejecuciones.

    Hay mas conceptos, pero con los de arriba se entiende la herramienta.

    ⚠️ Limitaciones de Prefect a considerar

    • Curva de aprendizaje: Puede ser un poco pronunciada para novatos en orquestación.
    • Actualizaciones frecuentes: Cambian más de versión que de calzoncillos. Las actualizaciones pueden romper tu código de orquestación.

    Más Recursos sobre Prefect y Orquestadores de Datos

  • 💡 Reducción dimensional

    La reducción dimensional es un conjunto de técnicas para transformar datos con muchísimas variables (alta dimensión) a un espacio con menos (baja dimensión) intentando mantener la información crucial. Piénsalo como reducir el «cuento» a su «moraleja».

    Utilidades

    • Ver relaciones complejas en 2D/3D.
    • Agilizar y optimizar algoritmos (tiempo y memoria).
    • Filtrar variables «ruido» o redundantes.

    Métodos

    • Varianza (ej. PCA): Busca las direcciones de máxima dispersión (útil para relaciones lineales).
    • Vecindad (ej. t-SNE, UMAP): Encuentran el parentesco entre muestras (ideal para estructuras no lineales).
    • Redes neuronales (ej. Autoencoders): Aprenden a comprimir datos (encoder) para poder reconstruirlos (decoder)

    Lo malo ⚠️

    Hay pérdida de información y a veces cuesta interpretar las nuevas dimensiones.

    Para saber más