Conteúdo / Main content
Menu Rodapé
  1. Início
  2. Cursos
  3. Informática Web, Móvel e na Nuvem
  4. Ciência de Dados em Larga Escala

Ciência de Dados em Larga Escala

Código 16253
Ano 3
Semestre S2
Créditos ECTS 6
Carga Horária PL(30H)/T(30H)
Área Científica Informática
Objectivos de Aprendizagem Esta UC tem por objetivo introduzir os alunos à aquisição, processamento, armazenamento e recuperação de dados em larga escala como suporte a tarefas de Ciência de Dados (CD). No final da UC o aluno deverá saber (1) listar os passos envolvidos num projeto de CD em larga escala e descrever as funções de cada um; (2) conhecer as principais ferramentas de desenvolvimento de um projeto de CD; (3) estar familiarizado com os conceitos fundamentais dos grandes volumes de dados; (4) saber aplicar métodos de aquisição de dados com recurso a pacotes de software python, APIs e web scraping; (5) dominar o processo de armazenamento e recuperação de dados em larga escala; (6) conhecer e saber aplicar de forma adequada as estratégias de processamento de dados em larga escala; (7) entender o paradigma map-reduce; (8) conhecer os fundamentos das principais frameworks de processamento de dados em larga escala; (9) saber usar, programar e processar dados em larga escala com recurso à framework Spark.
Conteúdos programáticos 1. Introdução à Ciência de Dados em Larga Escala
2. Ferramentas de desenvolvimento no contexto da Ciência de Dados
3. Introdução ao Big Data
4. Aquisição de Dados em Larga Escala
5. Armazenamento e Recuperação de Dados em Larga Escala
6. Estratégias de Processamento de Dados em Larga Escala
7. Programação de Aplicações de Larga Escala com base no Paradigma Map-Reduce
8. Frameworks de Processamento Dados em Larga Escala (Hadoop, Spark, Dask)
9. Processamento de Dados em Larga Escala com Spark
Bibliografia principal - Bernard Marr (2022). Data Strategy: How to Profit from a World of Big Data, Analytics and the Internet of Things. Kogan Page. USA
- Isaac Triguero, Mikel Galar (2023). Large-Scale Data Analytics with Python and Spark. Cambridge University Press. UK.
- Jonathan Rioux (2022). Data Analysis with Python and PySpark. Manning. New York. USA
- Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen e Josh Wills (2022). Advanced Analytics with PySpark. O'Reilly. USA
- Holden Karau, Andy Konwinski, Patrick Wendell & Matei Zaharia. Learning Spark (2015). O'Reilly. USA
- Jake VanderPlas (2017). Python Data Science Handbook. O’Reilly
- Mike Loukides, Hilary Mason, DJ Patil (2018). Ethics and Data Science. O'Reilly
- Wes McKinney (2017). Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython. O´Reilly
- Croft, W., Metzler, D. & Strohman, T. (2009). Search Engines. Information Retrieval in Practice. Pearson
Língua Português
Data da última atualização: 2025-02-22
As cookies utilizadas neste sítio web não recolhem informação pessoal que permitam a sua identificação. Ao continuar está a aceitar a política de cookies.