BIENVENIDA

Objetivo

Brindar al participante los elementos teóricos y prácticos básicos alrededor de la programación para el análisis de datos. Aprenderá a distinguir las diferentes soluciones a problemas que pueden resolverse con algoritmos de machine learning y aprenderá a usar el conjunto de librerías en R más novedosas, estructuradas y ampliamente usadas para la manipulación, transformación y visualización de datos: “TIDYVERSE”.

Instructores

ACT. ARTURO BRINGAS

LinkedIn: arturo-bringas Email:

Actuario egresado de la Facultad de Ciencias con maestría en Ciencia de Datos por el ITAM.

Se especializa en modelos predictivos y de clasificación de *machine learning* aplicado a seguros, banca, marketing, deportes, e-commerce y movilidad. Ha sido consultor *Senior Data Scientist* para empresas y organizaciones como GNP, El Universal, UNAM, la Organización de las Naciones Unidas Contra la Droga y el Delito (UNODC), Comisión Nacional de los Derechos Humanos (CNDH), Sinia, Geek-end, Invesmark, entre otros.

Ha contribuido en más de 30 proyectos de impacto nacional con diferentes institutos de investigación de la UNAM como el Instituto de Investigaciones Sociales, Instituto de Geografía, Instituto de Investigaciones Jurídicas, Programa Universitario de Estudios sobre la Ciudad, Fundación UNAM y Rectoría.

Actualmente es *Data Scientist Expert* en la fábrica de inteligencia artifical en BBVA (AI Factory), es profesor de *Ciencia de datos y Machine Learning* en AMAT, y consultor estadístico de encuestas nacionales de investigación social realizadas por la UNAM.

Adicionalmente, participa en el Laboratorio Nacional de Observación de la Tierra (LANOT) en la detección en tiempo real de contaminación del mar por sargazo a través de algoritmos de IA y percepción remota aplicados a los datos proveidos por el satélite Landsat9.

ACT. KARINA LIZETTE GAMBOA

LinkedIn: KaLizzyGam Email:

Actuaria egresada de la Facultad de Ciencias y candidata a Maestra en Ciencia de Datos por el ITAM, con una amplia experiencia en áreas de analítica predictiva e inteligencia empresarial. Ha ocupado roles de Manager y Senior Data Scientist en consultoría, trabajando en diversos sectores como tecnología, seguros, finanzas y banca.

Su especialidad radica en comprender las necesidades del negocio para implementar algoritmos de análisis de datos de manera efectiva, abarcando desde la ingeniería y arquitectura de datos hasta Business Intelligence y modelos de Machine Learning.

Cuenta con basta experiencia liderando equipos tecnológicos, incluyendo su papel más reciente como Data Analytics Manager para México, Chile y Colombia en Merama, una startup mexicana clasificada como uno de los nuevos unicornios de Latinoamérica. Actualmente, ocupa el cargo de Senior Manager Data Scientist en BBVA, centrado en banca corporativa.

Además, participa en proyectos de consultoría como Senior Data Scientist, es profesora del diplomado de Metodología de la Investigación Social por la UNAM y ejerce como instructora de cursos de Ciencia de Datos en AMAT.

Empresas anteriores: GNP, Actinver Banco y Casa de Bolsa, PlayCity Casinos, RakenDataGroup Consulting, entre otros.

Alcances del curso

Al finalizar este curso, el participante será capaz de consumir, manipular y visualizar información para resolver problemas de propósito general asociados a los datos. Apenderá a implementar diferentes algoritmos de machine learning y mejorar su desempeño predictivo en problemas de clasificación, regresión y segmentación.

Requisitos:

  • Computadora con al menos 8Gb Ram
  • Instalar la versión más reciente de R
  • Instalar la versión más reciente de RStudio

Temario:

1. Introducción a Ciencia de Datos

  • Machine Learning, Bigdata, BI, AI y CD
  • Objetivo de ciencia de datos
  • Requisitos y aplicaciones
  • Tipos de algoritmos
  • Ciclo de vida de un proyecto

2. Manipulación de datos con Tidyverse

  • Importación de tablas (readr)
  • Consultas (dplyr)
  • Transformación de estructuras (tidyr)

3. Concepto de Machine Learning

  • Machine learning
  • Análisis supervisado
  • Análisis no supervisado
  • Sesgo y varianza
  • Partición de datos
  • Preprocesamiento e ingeniería de datos

4. Algoritmos de Machine Learning

  • Clustering: Kmeans, kmedoids, agnes
  • Regresión Lineal
  • Métricas de error
  • Regresión logística
  • Métricas de error
  • KNN
  • Árbol de decisión
  • Random Forest
  • Comparación de modelos

Duración y evaluación del curso

  • El programa tiene una duración de 40 hrs.

  • Las clases serán impartidas los días sábado, de 9:00 am a 1:00 pm

  • Serán asignados ejercicios que el participante deberá resolver entre una semana y otra.

  • Al final del curso se solicitará un proyecto final, el cual deberá ser entregado para ser acreedor a la constancia de participación.

Recursos y dinámica de clase

En esta clase estaremos usando: