Científico de Big Data
TEMARIO [ELI]

Módulo 4: Fundamentos de Análisis y Ciencia de Big Data
Este módulo proporciona una vista general profunda de las áreas temáticas esenciales relacionadas con las técnicas de ciencia de datos y análisis relevantes y únicas de Big Data, con énfasis en cómo necesitan realizarse los análisis y las analíticas tanto individual como colectivamente, en soporte a las distintas características, requerimientos y retos asociados con los conjuntos de datos de Big Data.
Se cubren los siguientes temas principales:
- Ciencia de datos, minería de datos y modelado de datos
- Categorías de conjuntos de datos de Big Data
- Conjuntos de datos de alto volumen, alta velocidad, alta variedad, alta veracidad, alto valor
- Análisis exploratorio de datos (EDA)
- Resúmenes numéricos de EDA, reglas y reducción de datos
- Tipos de análisis de EDA, incluyendo univariante, bivariante y multivariante
- Estadísticas esenciales, incluyendo categorías variables y matemáticas relevantes
- Análisis estadísticos, incluyendo descriptivo, inferencial, covarianza, pruebas de hipótesis, etc.
- Medidas de variación o dispersión, rango intercuartil y valores atípicos, puntuación Z, etc.
- Probabilidad, frecuencia, estimadores estadísticos, intervalo de confianza, etc.
- Manipulación de datos y Machine Learning
- Variables y notaciones matemáticas básicas
- Medidas estadísticas e inferencia estadística
- Análisis confirmatorio de datos (CDA)
- Prueba de hipótesis CDA, hipótesis nula, hipótesis alternativa, significancia estadística, etc.
- Distribuciones y técnicas de procesamiento de datos
- Discretización de datos, Binning y agrupamiento
- Técnicas de visualización, incluyendo gráfica de barras, gráfica de líneas, histograma, polígonos de frecuencia, etc.
- Predicción de regresión lineal, error cuadrático medio y coeficiente de determinación R2, etc.
- Agrupamiento K-medias, distorsión del agrupamiento, valores de características faltantes, etc.
- Resúmenes numéricos
Módulo 5: Análisis y Ciencia de Big Data Avanzados
Este módulo profundiza en una variedad de prácticas de análisis de datos y técnicas de análisis avanzadas que se exploran en el contexto de Big Data. El contenido del curso se enfoca en temas que permiten a los participantes desarrollar una comprensión profunda de las técnicas estadísticas, de modelado y de análisis para patrones de datos, grupos y analíticas de texto, así como la identificación de valores atípicos y errores que afectan la significación y la precisión de las predicciones hechas con los conjuntos de datos de Big Data.
Se cubren los siguientes temas principales:
- Modelado, evaluación de modelos, ajuste de modelos y sobreajuste de modelos
- Modelos estadísticos, medidas de evaluación de modelos
- Validación cruzada, sesgo-varianza, matriz de confusión y puntuación F
- Algoritmos de Machine Learning e identificación de patrones
- Reglas de asociación y algoritmo Apriori
- Reducción de datos, selección de la dimensión de las características
- Extracción de datos, discretización de los datos (Binning y agrupamiento)
- Técnicas estadísticas avanzadas
- Paramétrico versus no paramétrico, agrupamiento versus no agrupamiento
- Basado en distancia, supervisado versus semisupervisado
- Regresión lineal y regresión logística para Big Data
- Reglas de clasificación para Big Data
- Regresiones logísticas, Naïve Bayes, Suavizamiento de Laplace, etc.
- Árboles de decisiones para Big Data
- Poda de árboles, división de características, algoritmo de una regla (1R)
- Identificación de patrones, reglas de asociación, algoritmo Apriori
- Análisis de series de tiempo, tendencia, estacionalidad
- K-vecinos cercanos (kNN), K-medias
- Analíticas de texto para Big Data
- Bolsa de palabras, frecuencia de términos, frecuencia de documentos inversos, distancia de coseno, etc.
- Detección de datos atípicos para Big Data
- Técnicas estadísticas, basadas en distancia, supervisadas y semisupervisadas
Módulo 6: Laboratorio de Análisis y Ciencia de Big Data
Este módulo presenta a los participantes una serie de ejercicios y problemas diseñados para poner a prueba su capacidad para aplicar sus conocimientos sobre los temas tratados en los módulos anteriores. Completar este laboratorio ayudará a resaltar las áreas que requieren mayor atención y ayudará a demostrar el dominio en los conceptos tratados, tecnologías y prácticas, ya que se aplican y se combinan para resolver problemas del mundo real.
Se cubren los siguientes ejercicios:
- Ejercicio de lectura 6.1: Lectura y socialización en clase: Antecedentes del caso de estudio de TMC
- Ejercicio de laboratorio 6.2: Análisis para mejorar la calidad de los productos
- Ejercicio de laboratorio 6.3: Análisis para la reducción del costo total de propiedad
- Ejercicio de lectura 6.4: Lectura y socialización en clase: Antecedentes del caso de estudio de PLGM
- Ejercicio de laboratorio 6.5: Análisis del plan de mercadeo de alto rendimiento
- Ejercicio de laboratorio 6.6: Análisis de distribución de artículos y datos de tarjetas de crédito
- Ejercicio de lectura 6.7: Lectura y socialización en clase: Antecedentes del caso de estudio de LHL
- Ejercicio de laboratorio 6.8: Mejorar la capacidad de diagnóstico de los pacientes
- Ejercicio de lectura 6.9: Lectura en clase: Antecedentes del caso de estudio de SWP
- Ejercicio de laboratorio 6.10: Mejorar la gestión de riesgos y comprender los patrones de demanda