Conteúdo / Main content

Início
Cursos
Informática Web, Móvel e na Nuvem
Ciência de Dados em Larga Escala

Ciência de Dados em Larga Escala

Código	16253
Ano	3
Semestre	S2
Créditos ECTS	6
Carga Horária	PL(30H)/T(30H)
Área Científica	Informática
Objectivos de Aprendizagem	Esta UC tem por objetivo introduzir os alunos à aquisição, processamento, armazenamento e recuperação de dados em larga escala como suporte a tarefas de Ciência de Dados (CD). No final da UC o aluno deverá saber (1) listar os passos envolvidos num projeto de CD em larga escala e descrever as funções de cada um; (2) conhecer as principais ferramentas de desenvolvimento de um projeto de CD; (3) estar familiarizado com os conceitos fundamentais dos grandes volumes de dados; (4) saber aplicar métodos de aquisição de dados com recurso a pacotes de software python, APIs e web scraping; (5) dominar o processo de armazenamento e recuperação de dados em larga escala; (6) conhecer e saber aplicar de forma adequada as estratégias de processamento de dados em larga escala; (7) entender o paradigma map-reduce; (8) conhecer os fundamentos das principais frameworks de processamento de dados em larga escala; (9) saber usar, programar e processar dados em larga escala com recurso à framework Spark.
Conteúdos programáticos	1. Introdução à Ciência de Dados em Larga Escala 2. Ferramentas de desenvolvimento no contexto da Ciência de Dados 3. Introdução ao Big Data 4. Aquisição de Dados em Larga Escala 5. Armazenamento e Recuperação de Dados em Larga Escala 6. Estratégias de Processamento de Dados em Larga Escala 7. Programação de Aplicações de Larga Escala com base no Paradigma Map-Reduce 8. Frameworks de Processamento Dados em Larga Escala (Hadoop, Spark, Dask) 9. Processamento de Dados em Larga Escala com Spark
Metodologias de Ensino e Critérios de Avaliação	- P1 - Projeto I (individual): 25% - P2 - Projeto II (individual): 35% - F - Frequência: 40% A classificação final da UC resulta da média ponderada das classificações obtidas nas componentes de avaliação definidas. O aluno obtém aprovação à UC, estando dispensado de Exame, no caso de obter uma nota igual ou superior a 9.5 valores. Avaliação por Exame - Exame: 100% (prova realizada em computador com consulta parcial dos conteúdos) Requisitos de admissibilidade à frequência e ao exame: - Mínimo de 70% de assiduidade às aulas durante o período de ensino-aprendizagem (exceto trabalhadores estudantes); - Nota mínima de 6 valores em AE, onde AE = ((P1 * 25%) + (P2 * 35%) + (F * 40%)) O incumprimento de qualquer um destes itens (incluindo a submissão de projetos fora do prazo) impede o aluno de se submeter à frequência e ao exame.
Bibliografia principal	- Bernard Marr (2022). Data Strategy: How to Profit from a World of Big Data, Analytics and the Internet of Things. Kogan Page. USA - Isaac Triguero, Mikel Galar (2023). Large-Scale Data Analytics with Python and Spark. Cambridge University Press. UK. - Jonathan Rioux (2022). Data Analysis with Python and PySpark. Manning. New York. USA - Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen e Josh Wills (2022). Advanced Analytics with PySpark. O'Reilly. USA - Holden Karau, Andy Konwinski, Patrick Wendell & Matei Zaharia. Learning Spark (2015). O'Reilly. USA - Jake VanderPlas (2017). Python Data Science Handbook. O’Reilly - Mike Loukides, Hilary Mason, DJ Patil (2018). Ethics and Data Science. O'Reilly - Wes McKinney (2017). Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython. O´Reilly - Croft, W., Metzler, D. & Strohman, T. (2009). Search Engines. Information Retrieval in Practice. Pearson
Língua	Português

Regente


	Ricardo Nuno Taborda Campos

Curso

Informática Web, Móvel e na Nuvem

As cookies utilizadas neste sítio web não recolhem informação pessoal que permitam a sua identificação. Ao continuar está a aceitar a política de cookies.