Business Intelligence a través del Big Data y Cloud Computing
Modalidad de celebración
Online
Dirección
Diego García (PAyD)
Alberto Fernández (PCU)
Coordinación Administrativa
Antonio Marín
Colaboran
Granada Research & Innovation
Instituto Andaluz Interuniversitario en Data Science and Computational Intelligence
Introducción
Este curso ofrece una inmersión en el mundo del Big Data, desde los conceptos fundamentales hasta las últimas herramientas de análisis. Los participantes explorarán los principios esenciales de Big Data y Cloud Computing, aprendiendo a gestionar grandes volúmenes de datos y a aprovechar la escalabilidad y la flexibilidad de los entornos en la nube. Además, se sumergirán en el ecosistema de Hadoop, dominando el arte del procesamiento y almacenamiento distribuido en el Hadoop Distributed File System (HDFS), mientras se familiarizan con las bases de datos NoSQL y las tecnologías de procesamiento como Apache Hive y Apache Pig.
Una vez establecidas las bases, el curso se adentrará en Apache Spark, ofreciendo una visión detallada de esta potente y popular plataforma de procesamiento en memoria y su papel fundamental en el análisis de Big Data. Desde la manipulación de datos hasta aplicaciones reales, los estudiantes adquirirán habilidades prácticas para abordar los desafíos más complejos en el ámbito del análisis de datos.
Además, este curso no se centra solo en la tecnología pura; también explora el componente estratégico con un enfoque en Business Intelligence. Los participantes aprenderán a traducir los datos en información significativa para la toma de decisiones empresariales. Ya sea que estés buscando adentrarte en el campo del Business Intelligence o expandir tus habilidades en Big Data, este curso te proporcionará una base sólida y te formará con las herramientas necesarias para destacarte en el emocionante mundo del análisis de datos a gran escala.
Competencias del alumnado
El alumnado sabrá/comprenderá:
- Los conceptos fundamentales de Big Data y Cloud Computing, incluyendo los desafíos asociados con el manejo de grandes volúmenes de datos y los principios básicos de la computación en la nube.
- Los diferentes modelos de servicio en la nube (IaaS, PaaS, SaaS) y cómo aplicarlos en el contexto de las soluciones de Big Data.
- La arquitectura y componentes clave en la nube, así como los principios de escalabilidad, disponibilidad y seguridad en entornos cloud.
- La importancia y el funcionamiento de herramientas clave como Docker y Kubernetes para la gestión eficiente de aplicaciones en la nube.
- Los principios de MapReduce y su papel en el procesamiento distribuido de datos, así como el ecosistema Hadoop y sus componentes principales, como HDFS.
- Los conceptos básicos de las bases de datos NoSQL, así como su relevancia y aplicaciones en entornos de Big Data.
- El uso de herramientas como Apache Hive y Apache Pig para consultas SQL y procesamiento de datos en entornos Hadoop.
- Los conceptos básicos y avanzados de Apache Spark, incluyendo la manipulación de datos, el procesamiento de datos estructurados y la implementación de algoritmos para casos de estudio aplicados.
El alumnado será capaz de:
- Comprender los principios fundamentales del Big Data y el Cloud Computing, incluyendo los desafíos asociados al manejo de grandes volúmenes de datos y las ventajas de la computación en la nube para su procesamiento y almacenamiento.
- Identificar y diferenciar entre los diferentes modelos de servicio en la nube (IaaS, PaaS, SaaS) y comprender sus aplicaciones en el contexto del análisis de datos.
- Utilizar herramientas y tecnologías clave en el ecosistema de Hadoop, como MapReduce y HDFS, para realizar procesamiento distribuido de datos y almacenamiento escalable en clústeres de Hadoop.
- Aplicar conceptos de bases de datos NoSQL para gestionar datos no estructurados y semi-estructurados, y utilizar tecnologías como Apache Hive y Apache Pig para consultas y análisis de datos en entornos de Big Data.
- Dominar las capacidades de Apache Spark para el procesamiento en memoria de grandes conjuntos de datos y la implementación de algoritmos en casos de estudio reales.
- Aplicar los conocimientos teóricos y prácticos adquiridos en proyectos y casos de estudio del mundo real, demostrando la capacidad para resolver problemas complejos y tomar decisiones fundamentadas basadas en datos.
Método de evaluación
- Cuestionarios para los aspectos teóricos
- Implementación de proyectos para los aspectos prácticos
Cualificación personal o empleos a los que da acceso
- Analista de Datos: Los estudiantes estarán equipados para recopilar, limpiar, analizar e interpretar grandes conjuntos de datos para extraer información valiosa que pueda informar las decisiones empresariales
- Ingeniero de Big Data: los estudiantes pueden optar por roles de ingeniería de Big Data donde serán responsables de diseñar, implementar y mantener sistemas de Big Data que manejen grandes volúmenes de datos de manera eficiente
- Analista de Business Intelligence: Con habilidades en Business Intelligence, los estudiantes pueden trabajar como analistas de BI, utilizando herramientas de visualización de datos para crear informes y paneles que ayuden a las empresas a comprender mejor sus operaciones y tomar decisiones informadas
- Científico de Datos: Aquellos con habilidades en análisis avanzado de datos y machine learning pueden buscar roles como científicos de datos, donde aplicarán algoritmos de aprendizaje automático para resolver problemas empresariales complejos
- Consultor en Big Data y Cloud: Los graduados pueden trabajar como consultores independientes o para empresas de consultoría, asesorando a organizaciones sobre estrategias de Big Data y Cloud Computing, y ayudando en la implementación de soluciones tecnológicas
Idiomas utilizados
Español e Inglés
Introducción a Big Data y Cloud Computing (10 horas)
– Clase 1 (2 horas):
– Conceptos básicos de Big Data
– Desafíos en el manejo de grandes volúmenes de datos
– Clase 2 (2 horas):
– Introducción a los principios de Cloud Computing
– Conceptos básicos de computación en la nube
– Modelos de servicio en la nube: IaaS, PaaS, SaaS
– Clase 3 (2 horas):
– Componentes clave de la arquitectura en la nube (servidores, almacenamiento, redes), escalabilidad, disponibilidad, seguridad en la nube.
– Principales proveedores de servicios en la nube
– Clase 4 (2 horas):
– Introducción a Docker
– Fundamentos de Docker: Conceptos clave y comparación con máquinas virtuales.
– Creación y Gestión de Contenedores.
– Clase 5 (2 horas):
– Introducción a Kubernetes
– Conceptos Fundamentales de Kubernetes
– Instalación y Configuración de Kubernetes
– Despliegue y Gestión de Aplicaciones
Fundamentos de MapReduce y Hadoop (6 horas)
– Clase 6 (2 horas):
– Principios de Big Data y escalabilidad
– Arquitectura de MapReduce
– Programación MapReduce: Map, Reduce y Shuffle
– Clase 7 (2 horas):
– Introducción a Hadoop y su ecosistema
– Implementación de un programa MapReduce básico
– Clase 8 (2 horas):
– Conceptos básicos de HDFS (Hadoop Distributed File System)
– Optimización de tareas MapReduce
– Administración de clústeres Hadoop
Bases de datos NoSQL, Hive y Pig (6 horas)
– Clase 9 (2 horas):
– Introducción a las bases de datos NoSQL
– Tipos de bases de datos NoSQL
– Clase 10 (2 horas):
– Introducción a Apache Hive
– Arquitectura de Hive
– Uso de Hive para consultas SQL en datos almacenados en Hadoop
– Creación de tablas, consultas y funciones en Hive
– Clase 11 (2 horas)
– Introducción a Apache Pig
– Características y ventajas de Pig sobre SQL y MapReduce
– Uso de PigLatin para procesamiento de datos
– Ejemplos de scripts Pig para transformación de datos
Procesamiento avanzado de datos con Apache Spark (8 horas)
– Clase 12 (2 horas):
– Introducción a Apache Spark y sus características
– Diferencias entre Hadoop y Spark
– Clase 13 (2 horas):
– Programación en Spark
– Operaciones básicas en Spark: map, reduce, filter, etc.
– Clase 14 (2 horas):
– Spark SQL y DataFrames: procesamiento de datos estructurados
– Clase 15 (2 horas):
– Casos de uso y mejores prácticas en Spark