Código |
16253
|
Ano |
3
|
Semestre |
S2
|
Créditos ECTS |
6
|
Carga Horária |
PL(30H)/T(30H)
|
Área Científica |
Informática
|
Objectivos de Aprendizagem |
Esta UC tem por objetivo introduzir os alunos à aquisição, processamento, armazenamento e recuperação de dados em larga escala como suporte a tarefas de Ciência de Dados (CD). No final da UC o aluno deverá saber (1) listar os passos envolvidos num projeto de CD em larga escala e descrever as funções de cada um; (2) conhecer as principais ferramentas de desenvolvimento de um projeto de CD; (3) estar familiarizado com os conceitos fundamentais dos grandes volumes de dados; (4) saber aplicar métodos de aquisição de dados com recurso a pacotes de software python, APIs e web scraping; (5) dominar o processo de armazenamento e recuperação de dados em larga escala; (6) conhecer e saber aplicar de forma adequada as estratégias de processamento de dados em larga escala; (7) entender o paradigma map-reduce; (8) conhecer os fundamentos das principais frameworks de processamento de dados em larga escala; (9) saber usar, programar e processar dados em larga escala com recurso à framework Spark.
|
Conteúdos programáticos |
1. Introdução à Ciência de Dados em Larga Escala 2. Ferramentas de desenvolvimento no contexto da Ciência de Dados 3. Introdução ao Big Data 4. Aquisição de Dados em Larga Escala 5. Armazenamento e Recuperação de Dados em Larga Escala 6. Estratégias de Processamento de Dados em Larga Escala 7. Programação de Aplicações de Larga Escala com base no Paradigma Map-Reduce 8. Frameworks de Processamento Dados em Larga Escala (Hadoop, Spark, Dask) 9. Processamento de Dados em Larga Escala com Spark
|
Metodologias de Ensino e Critérios de Avaliação |
- P1 - Projeto I (individual): 25% - P2 - Projeto II (individual): 35% - F - Frequência: 40%
A classificação final da UC resulta da média ponderada das classificações obtidas nas componentes de avaliação definidas. O aluno obtém aprovação à UC, estando dispensado de Exame, no caso de obter uma nota igual ou superior a 9.5 valores.
Avaliação por Exame - Exame: 100% (prova realizada em computador com consulta parcial dos conteúdos)
Requisitos de admissibilidade à frequência e ao exame: - Mínimo de 70% de assiduidade às aulas durante o período de ensino-aprendizagem (exceto trabalhadores estudantes); - Nota mínima de 6 valores em AE, onde AE = ((P1 * 25%) + (P2 * 35%) + (F * 40%))
O incumprimento de qualquer um destes itens (incluindo a submissão de projetos fora do prazo) impede o aluno de se submeter à frequência e ao exame.
|
Bibliografia principal |
- Bernard Marr (2022). Data Strategy: How to Profit from a World of Big Data, Analytics and the Internet of Things. Kogan Page. USA - Isaac Triguero, Mikel Galar (2023). Large-Scale Data Analytics with Python and Spark. Cambridge University Press. UK. - Jonathan Rioux (2022). Data Analysis with Python and PySpark. Manning. New York. USA - Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen e Josh Wills (2022). Advanced Analytics with PySpark. O'Reilly. USA - Holden Karau, Andy Konwinski, Patrick Wendell & Matei Zaharia. Learning Spark (2015). O'Reilly. USA - Jake VanderPlas (2017). Python Data Science Handbook. O’Reilly - Mike Loukides, Hilary Mason, DJ Patil (2018). Ethics and Data Science. O'Reilly - Wes McKinney (2017). Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython. O´Reilly
|
Língua |
Português
|