[SE REALIZA EN MODALIDAD ONLINE] Al Grano con la Ciencia de Datos: Ejemplos Prácticos para Entender el Mundo Datificado (I ed.)
Nota importante:
Hay una segunda edición del curso en el siguiente enlace: Al Grano con la Ciencia de Datos: Ejemplos Prácticos para Entender el Mundo Datificado (II ed.)
En el siguiente enlace podrán encontrar información adicional y material del curso: http://decsai.ugr.es/~casillas/al-grano-ciencia-datos.html
Modalidad de realización:
Plataforma Google Meet
Dirección:
Jorge Casillas Barranquero
Colabora:
Unidad de Cultura Científica y de la Innovación
Los datos generados digitalmente (desde las redes sociales, a las plataformas de comunicaciones o los dispositivos móviles) ofrecen una forma de acumular nuevos datos a gran escala, el conocido big data.
Estos datos pueden ayudar a comprender grandes temas de interés crucial para muchas áreas. Desde las ciencias biosanitarias a las ciencias sociales y políticas, pasando por la empresa, la economía o el deporte, todas se interesan por análisis cuantitativos que expliquen comportamientos sociales, diseños de mercados, efectos epidemiológicos y cualquier otra forma responsable de mejorar el valor social de los datos.
Ciencia de datos proporciona la experiencia técnica necesaria para analizar datos, a veces heterogéneos y no estructurados. Pero este proceso debe ser complementado con un enfoque cualitativo obteniendo datos etnográficos e información subjetiva que permitan poner de manifiesto los contextos del objeto de estudio, el conocido thick data.
Por las implicaciones éticas que subyacen y la necesidad de complementar el análisis con información cualitativa, en los equipos multidisciplinares de ciencia de datos cada vez es más demandada la participación de psicólogos, antropólogos, sociólogos, politólogos, médicos, economistas, etc. con una base técnica fundamental en ciencia de datos.
Este breve taller pretende acercar el mundo de la ciencia de datos a este contexto con un enfoque eminentemente práctico donde, sin necesidad de instalar ningún software, a partir de herramientas on-line el alumnado podrá aplicar los fundamentos del aprendizaje automático (la rama de la inteligencia artificial que genera conocimiento a partir de datos) y la visualización (técnicas avanzadas de generación de gráficos) para abordar problemas de distinto tipo (sociales, marketing, salud…) desde un nuevo enfoque.
El taller está orientado para toda persona con interés en acercarse por primera vez a la ciencia de datos y el big data pero sin conocimientos previos en el campo y sin necesidad de formación avanzada en informática. No obstante, se recomienda cierta destreza en el uso fluido de software e informática en general para mejor aprovechamiento del taller. En cualquier caso, el profesor irá guiando a todo el alumnado para una consecución satisfactoria de los objetivos docentes.
1. Comprender qué es el aprendizaje automático, la ciencia de datos y el big data.
2. Entender lo que pueden y no pueden hacer; lo que deben y no deben hacer.
3. Comprender su base conociendo algunos algoritmos básicos.
4. Ganar experiencia en la aplicación de estas técnicas a datos del mundo real.
El alumno sabrá/comprenderá
1. Comprender qué es el aprendizaje automático, la ciencia de datos y el big data.
2. Entender lo que pueden y no pueden hacer; lo que deben y no deben hacer.
3. Comprender su base conociendo algunos algoritmos básicos.
4. Ganar experiencia en la aplicación de estas técnicas a datos del mundo real.
El alumno será capaz de
Resolver en equipo un microproyecto de ciencia de datos. Algunos ejemplos de los posibles proyectos son: análisis de Twitter sobre política o salud, predicción de campañas de telemarketing en banca, análisis de ventas en eBay, perfiles de pacientes, diagnóstico de enfermedades, análisis relacional de cuestionarios médicos o sociales, flujos migratorios, etc.
Método de evaluación:
evaluación del profesor en base al proyecto desarrollado y la exposición
11:00-13:00 | Sesión 1: Introducción a ciencia de datos Jorge Casillas Barranquero |
11:00-13:00 | Sesión 2: Software on-line para ciencia de datos y visualización. Creación de equipos y asignación de proyectos Jorge Casillas Barranquero |
11:00-13:00 | Sesión 3: Aprendizaje automático responsable. Puesta en común y resolución de dudas Jorge Casillas Barranquero |
11:00-13:00 | Sesión 4: Presentación de proyectos por los equipos, debate y propuestas de mejoras al análisis Jorge Casillas Barranquero |
Contenidos:
– Introducción, aprendizaje automático, big data, casos de uso
– Clasificación: modelos predictivos mediante árboles de decisión
– Clustering: segmentación y análisis relacional
– Reglas de asociación: modelos de causalidad
– Análisis exploratorio de datos mediante visualización
– Implicaciones éticas de la ciencia de datos: la cara oculta del big data
– Prácticas con herramientas on-line especializadas
– Resolución por equipos de un microproyecto de ciencia de datos. Algunos ejemplos de los posibles proyectos son: análisis de Twitter sobre política o salud, predicción de campañas de telemarketing en banca, análisis de ventas en eBay, perfiles de pacientes, diagnóstico de enfermedades, análisis relacional de cuestionarios médicos o sociales, flujos migratorios, etc.
– Se facilitarán vídeos y tutoriales de apoyo, algunos con contenidos originales del profesor, para reforzar y completar la formación autónoma.
Metodología:
Toda la formación será telemática a través de la plataforma Google Meet. Se empleará también software on-line especializado en ciencia de datos y visualización de fácil ejecución en cualquier ordenador de sobremesa o portátil. No podrán emplearse tablets o smartphones para realizar las prácticas, aunque sí se pueden usar para las clases presenciales telemáticas.
El taller se compone de cuatro sesiones de dos horas cada una (para un total de 8 horas), repartidas del siguiente modo:
Sesión 1:
Conceptos básicos de introducción a ciencia de datos, visualización y a los cuatro paradigmas fundamentales de clasificación, regresión, clustering y reglas de asociación.
Sesión 2:
Introducción a software on-line (sin necesidad de instalación) para ciencia de datos y visualización.
Al final de la sesión 2, el alumnado votará para elegir entre varias propuestas cuatro proyectos distintos (con datos reales), uno representativo de cada paradigma de aprendizaje automático. Posteriormente se organizarán equipos de 2 o 3 personas (buscando multidisciplinaridad) para que trabajen en uno de esos proyectos. Los equipos tendrán varios días para trabajar de forma autónoma en grupo en el proyecto que les corresponda.
Sesión 3:
La primera parte de la sesión se dedica a completar la formación según las necesidades que se hayan observado e incluyendo otros aspectos como diseñar algoritmos de aprendizaje automático que sean justos y equitativos para evitar sesgos.
La segunda mitad se dedica a una primera puesta en común de los resultados de los distintos equipos y resolución de dudas.
Sesión 4:
Cada equipo expondrá su trabajo final y se contrastarán los diferentes enfoques seguidos para el mismo problema. Posteriormente se debatirá con el resto del alumnado en una discusión común y se propondrán diferentes mejoras al análisis.
Docente del taller:
Jorge Casillas obtuvo el grado de doctor en Informática en 2001. Desde entonces, es profesor de la Universidad de Granada, donde actualmente imparte docencia en ciencia de datos en el Grado y en el Máster, así como en otros cursos del Centro Mediterráneo. Respecto a su investigación, está interesado principalmente en ciencia de datos, big data y sistemas inteligentes. En los últimos años ha crecido su interés por una Inteligencia Artificial más justa, equitativa y sensible a las minorías.