Maestría en Ciencia de Datos

Pre inscripción cerrada
Fecha de inicio: abril 2024
Modalidad de dictado: a distancia con clases sincrónicas y asincrónicas
Modalidad Intensiva: 1er año: cursada intensiva de seminarios. 2do. año: elaboración de tesis
Modalidad Extendida: cursada de seminarios a lo largo de 4 cuatrimestres + elaboración de tesis
Coordinador: Mg. Diego Omar Encinas (TICAPPS – UNAJ; III LIDI – UNLP)
Co coordinador: Dr. Ing. Martín Morales (TICAPPS – UNAJ; CoDaPli – UTN)
Comité Académico:
Dr. Waldo Hasperué (UNAJ; III LIDI – UNLP; CIC)
Dra. Laura Cristina Lanzarini (III LIDI – UNLP)
Dra. Veronica Aubín (TICAPPS – UNAJ; DIIT – UNLaM)
Dr.Daniel Edgardo Riesco (UNSL; UNLPam)
Dr. Ing. Ramiro Miguel Irastorza (TICAPPS – UNAJ; UTN; IFLySIB – CONICET-UNLP)
Coordinador de la implementación de la opción pedagógica a distancia:
Mg. Alejandro Héctor Gonzalez (III LIDI – UNLP)
Actividad arancelada
Acreditado por CONEAU. Acta y sesión 598

Requisitos de ingreso

Los/as aspirantes deberán contar con título universitario de grado de carreras de cuatro años o más de duración de las Ciencias Aplicadas y Ciencias Exactas expedidos por una institución de nivel superior provincial, nacional, privada o extranjera reconocida oficialmente.

Objetivos

Generar un espacio de formación y actualización para que las/os profesionales participantes puedan profundizar conceptos específicos de Análisis Estadístico,

Programación, Bases de Datos, Aprendizaje Automático, Computación en la Nube y Minería de Datos.

Cubrir la creciente demanda por parte de instituciones públicas y privadas de recursos humanos con fuerte formación en analizar, extraer y gestionar grandes volúmenes de datos.

Fomentar las actividades de desarrollo, planificación e investigación en el ámbito de las Ciencias de Datos, a partir de la articulación entre la universidad y organizaciones, empresas e industrias del medio.

Plan de estudios

Área Fundamentos

Análisis Estadístico

Contenidos mínimos

Análisis exploratorio de datos: visualización y resumen de datos. Función de distribución empírica. Estimación no paramétrica de la densidad. Intervalos de confianza para la media de una distribución Normal. Distribución t de Student. Intervalos de confianza de nivel asintótico basados en estadísticos asintóticamente normales. Intervalo para proporciones. Tests de hipótesis: Presentación del problema de test de hipótesis. Hipótesis nula y alternativa. Tipos de errores. Nivel y potencia de un test. Valor “p”. Test para la media de una población normal con varianza conocida y con varianza desconocida. Regresión lineal simple. Mínimos cuadrados. Inferencia para los parámetros del modelo: bajo normalidad y teoría asintótica. Regresión lineal múltiple. Predicción. Estadística no paramétrica. Estimadores no paramétricos: Kolmogorov–Smirnov modificado, Crámer-von Mises, Anderson-Darling, comparación de funciones de distribución acumulada. Shapiro–Francia, Shapiro–Wilk. Test del Signo. Test de Rangos Signados de Wilcoxon. Clasificación: La regla de Bayes. Regresión logística, estimación de parámetros por máxima verosimilitud. Modelos generativos: LDA, QDA, Bayes Naive. Modelos discriminativos: kNN, clasificación logística.

Programación

Contenidos mínimos

Definición de lenguaje de programación – Entorno de Desarrollo. Paradigma Imperativo: Concepto de algoritmo y programa. Diseño de algoritmos: técnicas de diseño. Tipos de datos simples. Concepto de variable. Bloques y Sentencias. Operadores Matemáticos, de Asignación, Relacionales y Lógicos. Estructuras de control, Estructuras de datos lineales. Arreglos. Registros. Estructuras Cíclicas. Programación modular: Procedimientos y funciones. Parámetros. Concepto de reusabilidad. Introducción a clases y objetos. Introducción a librerías específicas para manipulación y visualización de datos.

Bases de Datos

Contenidos mínimos

Conceptos, fundamentos e introducción a los sistemas de gestión de bases de datos. Diagrama entidad-relación (DER). Modelo Relacional (MR). Diseño de bases de datos. Lenguaje de Consulta de datos (SQL). Lenguajes de consulta, modificación y definición de bases de datos relacionales. Información estructurada y no estructurada. SQLite. MySQL.

Área Núcleo

Captura de la Información

Contenidos mínimos

Proceso de extracción de contenidos. Propósito y análisis de datos. Base de datos Estructurado versus No Estructurado. Almacenamiento, administración y recuperación de información de datos no estructurados. Distintas formas y medios de almacenamiento. Clasificación. Estructuras básicas. Distintas implementaciones en el mercado actual.

Aprendizaje Automático

Contenidos mínimos

Introducción al Aprendizaje Automático. Los orígenes del aprendizaje automático. Usos del aprendizaje automático. Almacenamiento y estructura de datos. Abstracción. Generalización. Evaluación. Aprendizaje supervisado y no supervisado. Tipos de datos de entrada y tipos de algoritmos de aprendizaje. Preprocesamiento y generación de características. Selección de atributos. Reducción de la dimensión del espacio de entrada. Covarianza. Análisis de componentes principales. Máquinas de soporte Vectorial (SVM). Definición. Hiperplano óptimo. Clasificación lineal y no lineal. Redes Neuronales Feedforward. Descripción de la arquitectura. Regla delta generalizada. Redes Neuronales Competitivas. Técnicas de Agrupamiento partitivas. Agrupamiento utilizando redes neuronales.

Arquitecturas en la Nube

Contenidos mínimos

Conceptos Básicos: Definición del Cloud Computing. Raíces. Riesgos y desafíos. Características. Seguridad. Capas. Tipos de Cloud. Aplicaciones. IaaS: Infraestructura como servicio. Definición. Alcance. Ventajas de su implementación. PaaS & SaaS: Plataforma como servicio. Software como servicio. Definición. Alcance. Despliegue de Cloud privados: Despliegue, administración y configuración de Cloud privados a través de herramientas Open Source como OpenStack y OpenNebula. Contenedores: Definición. Alcance. Ventajas y desventajas. LXC (Linux Containers). Dockers. Definición de Fog Computing y Edge Computing. Aplicaciones en tiempo real. Eficiencia energética. Servicios de IoT en Cloud: IoT en la nube. Protocolo codificación SSL 3.0. Almacenamiento en una arquitectura flexible de implementación de bases de datos. Herramientas de visualización dashboard.

Minería de Datos

Contenidos mínimos

Qué es Data Mining. Motivación. Orígenes. El proceso de descubrimiento del conocimiento: Distintas fases. Tipos de tareas de Data Mining. Aplicaciones. Preprocesamiento de datos. Conceptos. Motivación. Limpieza de Datos. Integración y transformación de datos. Reducción, diversas técnicas. Discretización. Exploración y Selección. Clasificación. Enfoque al problema de clasificación. Arboles de decisión: construcción del árbol; medidas de impureza; selección del mejor separador. Sobreajuste del modelo: concepto; diversas causas; estimación del error; soluciones. Evaluación del desempeño de clasificadores: métodos de estimación del desempeño. Redes Neuronales. Análisis de Clusters. Tipos de datos, medidas de distancia, clustering jerárquico: aglomerativo y divisivo; clustering particional. K-means incremental. Algoritmos basados en densidad. Algoritmos escalables. Evaluación: cohesión y separación. Medidas de validez. Aplicaciones.

Área Específicas

Aplicaciones de Inteligencia de Datos

Contenidos mínimos

Introducción a la ciencia de datos, metodologías, tecnologías utilizadas, estado del arte, aciertos y límites. Gestión de proyectos de ciencia de datos. Adquisición y manipulación de datos. Descripción y limpieza de datos. Proceso de Extracción, Transformación y Carga de datos (ETL), reportes y dashboard. Visualización y narración de datos. Uso de la inteligencia de datos en medicina, detección temprana, diagnóstico y análisis por imágenes, limitaciones, aspectos éticos. Uso de la inteligencia de datos en la ciberseguridad, análisis y detección de ciberataques, análisis de vulnerabilidades, herramientas disponibles en el mercado. Uso de inteligencia de datos en marketing digital, principales estrategias de marketing, uso de datos en redes sociales, móviles, comportamiento de los clientes.

Procesamiento para Grandes Datos

Contenidos mínimos

Fundamentos de Big Data. Definición y dimensiones en Big Data. Aplicaciones de Big Data. Modelos de datos y modelos de procesamiento en Big Data. Ética, seguridad, privacidad en Big Data. Casos de uso. IoT. Modelos y frameworks para Big Data: Paradigma MapReduce. Ecosistema Hadoop. Hive data warehouse. Pig. Spark. Spark Streaming. Sistemas de almacenamiento para Big Data Sistemas de archivos distribuidos. Clasificación. Apache HDFS. Bases de datos relacionales. Bases de datos NoSQL. Hive, Shark, MongoDB, Cassandra. Procesamiento paralelo para Big Data en la Nube.

Área Desarrollo de Tesis

Seminario de Desarrollo de Tesis

Contenidos mínimos

Caracterización de diferentes tipos de proyectos y tesis. El manejo de la terminología en la elaboración de documentos. Estrategias de estilo. Fases en la elaboración de informes. Resumen. Introducción, fundamentación, objetivo/s, metodología, resultados. Conclusiones y logro de objetivos planteados. Presentación de distintos tipos de diseño aplicables según el tipo de proyectos.

Para mayor información escribir a mae.cienciadedatos@unaj.edu.ar