BIENVENIDA

Objetivo

Brindar al participante los elementos teóricos y prácticos básicos alrededor de la programación para el análisis de datos. Aprenderá a distinguir las diferentes soluciones a problemas que pueden resolverse con algoritmos de machine learning y aprenderá a usar el conjunto de librerías en R más novedosas, estructuradas y ampliamente usadas para la manipulación, transformación y visualización de datos: “TIDYVERSE”.

Instructores

ACT. ARTURO BRINGAS

LinkedIn: arturo-bringas Email: act.arturo.b@ciencias.unam.mx

Actuario egresado de la Facultad de Ciencias con maestría en Ciencia de Datos por el ITAM.

Se especializa en modelos predictivos y de clasificación de machine learning aplicado a seguros, banca, marketing, deportes, e-commerce y movilidad. Ha sido consultor Senior Data Scientist para empresas y organizaciones como GNP, El Universal, UNAM, la Organización de las Naciones Unidas Contra la Droga y el Delito (UNODC), Comisión Nacional de los Derechos Humanos (CNDH), Sinia, Geek-end, Invesmark, entre otros.

Ha contribuido en más de 30 proyectos de impacto nacional con diferentes institutos de investigación de la UNAM como el Instituto de Investigaciones Sociales, Instituto de Geografía, Instituto de Investigaciones Jurídicas, Programa Universitario de Estudios sobre la Ciudad, Fundación UNAM y Rectoría.

Actualmente es Data Scientist Expert en la fábrica de inteligencia artifical en BBVA (AI Factory), es profesor de Ciencia de datos y Machine Learning en AMAT, y consultor estadístico de encuestas nacionales de investigación social realizadas por la UNAM.

Adicionalmente, participa en el Laboratorio Nacional de Observación de la Tierra (LANOT) en la detección en tiempo real de contaminación del mar por sargazo a través de algoritmos de IA y percepción remota aplicados a los datos proveidos por el satélite Landsat9.

ACT. KARINA LIZETTE GAMBOA

LinkedIn: KaLizzyGam Email: lizzygamboa@ciencias.unam.mx

Actuaria egresada de la Facultad de Ciencias y candidata a Maestra en Ciencia de Datos por el ITAM, con una amplia experiencia en áreas de analítica predictiva e inteligencia empresarial. Ha ocupado roles de Manager y Senior Data Scientist en consultoría, trabajando en diversos sectores como tecnología, seguros, finanzas y banca.

Su especialidad radica en comprender las necesidades del negocio para implementar algoritmos de análisis de datos de manera efectiva, abarcando desde la ingeniería y arquitectura de datos hasta Business Intelligence y modelos de Machine Learning.

Cuenta con basta experiencia liderando equipos tecnológicos, incluyendo su papel más reciente como Data Analytics Manager para México, Chile y Colombia en Merama, una startup mexicana clasificada como uno de los nuevos unicornios de Latinoamérica. Actualmente, ocupa el cargo de Senior Manager Data Scientist en BBVA, centrado en banca corporativa.

Además, participa en proyectos de consultoría como Senior Data Scientist, es profesora del diplomado de Metodología de la Investigación Social por la UNAM y ejerce como instructora de cursos de Ciencia de Datos en AMAT.

Entre sus experiencias anteriores se encuentran empresas como GNP, Actinver Banco y Casa de Bolsa, PlayCity Casinos, RakenDataGroup Consulting, Closter, Merama, entre otras.

Alcances del curso

Al finalizar este curso, el participante será capaz de consumir, manipular y visualizar información para resolver problemas de propósito general asociados a los datos. Apenderá a implementar diferentes algoritmos de machine learning y mejorar su desempeño predictivo en problemas de clasificación, regresión y segmentación.

Requisitos:

Computadora con al menos 8Gb Ram
Instalar la versión más reciente de R
Instalar la versión más reciente de RStudio

Temario:

1. Introducción a Ciencia de Datos

Machine Learning, Bigdata, BI, AI y CD
Objetivo de ciencia de datos
Requisitos y aplicaciones
Tipos de algoritmos
Ciclo de vida de un proyecto

2. Manipulación de datos con Tidyverse

Importación de tablas (readr)
Consultas (dplyr)
Transformación de estructuras (tidyr)

3. Concepto de Machine Learning

Machine learning
Análisis supervisado
Análisis no supervisado
Sesgo y varianza
Partición de datos
Preprocesamiento e ingeniería de datos

4. Algoritmos de Machine Learning

Clustering: Kmeans, kmedoids, agnes
Regresión Lineal
Métricas de error
Regresión logística
Métricas de error
KNN
Árbol de decisión
Random Forest
Comparación de modelos

Duración y evaluación del curso

El programa tiene una duración de 42 hrs.
Las clases serán impartidas los días sábado, de 9:00 am a 12:00 pm
Serán asignados ejercicios que el participante deberá resolver entre una semana y otra.
Al final del curso se solicitará un proyecto final, el cual deberá ser entregado para ser acreedor a la constancia de participación.

Recursos y dinámica de clase

En esta clase estaremos usando:

R da click aquí si aún no lo descargas
RStudio da click aquí también
Positron da click aquí si quieres descargar
VSCode da click aquí si quieres descargar
Anaconda da click aquí si quieres descargar
Zoom Clases
- Pulgar arriba: Voy bien, estoy entendiendo!
- Pulgar abajo: Eso no quedó muy claro
- Mano arriba: Quiero participar/preguntar ó Ya estoy listo para iniciar
Google Drive

Asesorías

Los profesores se encuentran en la mejor disposición de asistir las dudas de clase de todos los alumnos. El grupo de whatsapp ha sido creado para compartir información relevante al curso y exponer dudas y soluciones que puedan ser de interés de todo el grupo.

Los alumnos podrán hacer uso del canal de comunicación para externar sus dudas de clase durante el tiempo que dure el curso. Los profesores se comprometen a responder en el transcurso del día las preguntas realizadas que sean relevantes con la clase. Las respuestas se realizarán de lunes a viernes en un horario de 10:00am a 8:00pm.

¡¡ AVISO !!

No se atenderán dudas que tengan que ver con otros proyectos o asignaciones laborales de los estudiantes en sus respectivos ambientes de trabajo.
Se invita a los estudiantes a que las dudas realizadas en clase sean relevantes a la clase y los ejemplos a resolver sean de interés para todo el alumnado.

Nota: En caso de requerir consultoría especializada o particular a un tema de interés, se deberá contactar al área administrativa para solicitar la cotización por el servicio correspondiente. https://es.r4ds.hadley.nz/ ## Bibliografía {-}

	Hands On Machine Learning with Scikit-Learn, Keras and TensorFlow Autor: Aurélien Géron Editorial: O´REILLY Año: 2019 ISBN: 978-1-492-03264-9
	An Introduction to Statistical Learning Autor: Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani, Jonathan Taylor Editorial: Springer Año: 2023
	The Elements of Statistical Learning Autor: Trevor Hastie, Robert Tibshirani, Jerome Friedman Editorial: Springer Año: 2008 ISBN: 978-0-387-84857-0
	Mastering Machine Learning Algorithms Autor: Trevor Hastie, Robert Tibshirani, Jerome Friedman Editorial: Packt Año: 2018 ISBN: 978-1-83882-029-9
	Data Science for Business Autor: Foster Provost, Tom Fawcett Editorial: O´REILLY Año: 2013 ISBN: 978-1-449-36132-7
	Estadística práctica para ciencia de datos con R y Python Autor: Peter Bruce, Andrew Bruce y Peter Gedeck Editorial: O´REILLY Año: 2022 ISBN: 978-84-267-3443-3
	R para Ciencia de Datos Autor: Hadley Wickham & Garrett Grolemound Editorial: O´REILLY Año: 2023
	Practical NonParametric Statistics Autor: W. J. Conover Editorial: Wiley Año: 1999 ISBN: 978-0-471-16068-7
	Introduction to Linear Regression Analysis Autor: Douglas C. Montgomery, Elizabeth A. Peck, G. Geoffrey Vining Editorial: Wiley Año: 2012 ISBN: 978-0-470-54281-1
	Dive into Deep Learning Autor: Zhang, Aston and Lipton, Zachary C. and Li, Mu and Smola, Alexander J. Editorial: Cambridge University Press Año: 2023
	Reinforcement Learning Autor: Richard S. Sutton, Andrew G. Barto Editorial: The MIT Press Año: 2018 ISBN: 978-0-262-19398-6
	Learning Python Autor: Mark Lutz Editorial: O´REILLY Año: 2013 ISBN: 978-1-449-35573-9

Introducción a Ciencia de Datos y Machine Learning