Objectivos de Aprendizagem |
Esta UC tem por objetivo introduzir os alunos à aquisição, processamento, armazenamento e recuperação de dados em larga escala como suporte a tarefas de Ciência de Dados (CD). No final da UC o aluno deverá saber (1) listar os passos envolvidos num projeto de CD em larga escala e descrever as funções de cada um; (2) conhecer as principais ferramentas de desenvolvimento de um projeto de CD; (3) estar familiarizado com os conceitos fundamentais dos grandes volumes de dados; (4) saber aplicar métodos de aquisição de dados com recurso a pacotes de software python, APIs e web scraping; (5) dominar o processo de armazenamento e recuperação de dados em larga escala; (6) conhecer e saber aplicar de forma adequada as estratégias de processamento de dados em larga escala; (7) entender o paradigma map-reduce; (8) conhecer os fundamentos das principais frameworks de processamento de dados em larga escala; (9) saber usar, programar e processar dados em larga escala com recurso à framework Spark.
|
Bibliografia principal |
- Bernard Marr (2022). Data Strategy: How to Profit from a World of Big Data, Analytics and the Internet of Things. Kogan Page. USA - Isaac Triguero, Mikel Galar (2023). Large-Scale Data Analytics with Python and Spark. Cambridge University Press. UK. - Jonathan Rioux (2022). Data Analysis with Python and PySpark. Manning. New York. USA - Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen e Josh Wills (2022). Advanced Analytics with PySpark. O'Reilly. USA - Holden Karau, Andy Konwinski, Patrick Wendell & Matei Zaharia. Learning Spark (2015). O'Reilly. USA - Jake VanderPlas (2017). Python Data Science Handbook. O’Reilly - Mike Loukides, Hilary Mason, DJ Patil (2018). Ethics and Data Science. O'Reilly - Wes McKinney (2017). Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython. O´Reilly - Croft, W., Metzler, D. & Strohman, T. (2009). Search Engines. Information Retrieval in Practice. Pearson
|