Conteúdo / Main content
Menu Rodapé
  1. Início
  2. Cursos
  3. Informática Web, Móvel e na Nuvem
  4. Ciência de Dados em Larga Escala

Ciência de Dados em Larga Escala

Código 16253
Ano 3
Semestre S2
Créditos ECTS 6
Carga Horária PL(30H)/T(30H)
Área Científica Informática
Objectivos de Aprendizagem Esta UC tem por objetivo introduzir os alunos à aquisição, processamento, armazenamento e recuperação de dados em larga escala como suporte a tarefas de Ciência de Dados (CD). No final da UC o aluno deverá saber (1) listar os passos envolvidos num projeto de CD em larga escala e descrever as funções de cada um; (2) conhecer as principais ferramentas de desenvolvimento de um projeto de CD; (3) estar familiarizado com os conceitos fundamentais dos grandes volumes de dados; (4) saber aplicar métodos de aquisição de dados com recurso a pacotes de software python, APIs e web scraping; (5) dominar o processo de armazenamento e recuperação de dados em larga escala; (6) conhecer e saber aplicar de forma adequada as estratégias de processamento de dados em larga escala; (7) entender o paradigma map-reduce; (8) conhecer os fundamentos das principais frameworks de processamento de dados em larga escala; (9) saber usar, programar e processar dados em larga escala com recurso à framework Spark.
Conteúdos programáticos 1. Introdução à Ciência de Dados em Larga Escala
2. Ferramentas de desenvolvimento no contexto da Ciência de Dados
3. Introdução ao Big Data
4. Aquisição de Dados em Larga Escala
5. Armazenamento e Recuperação de Dados em Larga Escala
6. Estratégias de Processamento de Dados em Larga Escala
7. Programação de Aplicações de Larga Escala com base no Paradigma Map-Reduce
8. Frameworks de Processamento Dados em Larga Escala (Hadoop, Spark, Dask)
9. Processamento de Dados em Larga Escala com Spark
Metodologias de Ensino e Critérios de Avaliação - P1 - Projeto I (individual): 25%
- P2 - Projeto II (individual): 35%
- F - Frequência: 40%

A classificação final da UC resulta da média ponderada das classificações obtidas nas componentes de avaliação definidas. O aluno obtém aprovação à UC, estando dispensado de Exame, no caso de obter uma nota igual ou superior a 9.5 valores.

Avaliação por Exame
- Exame: 100% (prova realizada em computador com consulta parcial dos conteúdos)

Requisitos de admissibilidade à frequência e ao exame:
- Mínimo de 70% de assiduidade às aulas durante o período de ensino-aprendizagem (exceto trabalhadores estudantes);
- Nota mínima de 6 valores em AE, onde AE = ((P1 * 25%) + (P2 * 35%) + (F * 40%))

O incumprimento de qualquer um destes itens (incluindo a submissão de projetos fora do prazo) impede o aluno de se submeter à frequência e ao exame.
Bibliografia principal - Bernard Marr (2022). Data Strategy: How to Profit from a World of Big Data, Analytics and the Internet of Things. Kogan Page. USA
- Isaac Triguero, Mikel Galar (2023). Large-Scale Data Analytics with Python and Spark. Cambridge University Press. UK.
- Jonathan Rioux (2022). Data Analysis with Python and PySpark. Manning. New York. USA
- Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen e Josh Wills (2022). Advanced Analytics with PySpark. O'Reilly. USA
- Holden Karau, Andy Konwinski, Patrick Wendell & Matei Zaharia. Learning Spark (2015). O'Reilly. USA
- Jake VanderPlas (2017). Python Data Science Handbook. O’Reilly
- Mike Loukides, Hilary Mason, DJ Patil (2018). Ethics and Data Science. O'Reilly
- Wes McKinney (2017). Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython. O´Reilly
Língua Português
Data da última atualização: 2024-02-22
As cookies utilizadas neste sítio web não recolhem informação pessoal que permitam a sua identificação. Ao continuar está a aceitar a política de cookies.