introdução à ciência de dados

apresentar aos estudantes técnicas de visualização, manipulação e análise de dados, além de conceitos introdutórios de aprendizado de máquina, com foco na linguagem de computação estatística R.
início do curso

9 de junho de 2025

informações gerais

as aulas do curso de introdução à ciência de dados (famat31308) acontecem no laboratório do curso de Estatística, sala 1J110 do bloco 1J, nos seguintes dias e horários:

  • segunda-feira, 18h10 - 19h50.
  • terça-feira, 20h50 - 22h30.

o atendimento aos estudantes acontece na sala 1J 107 nos seguintes dias e horários:

  • segunda-feira, 17h00 - 18h00.
  • quarta-feira, 17h50 - 18h50.

as comunicações extraclasse devem ser feitas através do email pedrofranklin@ufu.br

ementa

introdução à linguagem R; introdução à ciência de dados; visualização, manipulação e análise de dados; introdução ao aprendizado de máquina; comunicando resultados.

avaliações

  • primeira prova, 15 pontos, 07 de julho.
  • segunda prova, 15 pontos, 11 de agosto.
  • terceira prova, 32 pontos, 16 de setembro.
  • laboratórios e listas, 18 pontos, com datas de entrega a serem definidas em sala de aula.
  • projeto final, 15 pontos.
  • curso datacamp, 5 pontos.
  • prova de recuperação, 100 pontos, 22 de setembro.

bibliografia básica

materiais de apoio

aulas

a seguir, uma tabela com informações de cada aula do curso, incluindo a data, os tópicos abordados, os códigos produzidos durante a aula e as referências recomendadas para estudo. a tabela será atualizada ao final de cada aula.
na coluna de referências, cdr refere-se ao livro ciência de dados em r; r4ds ao livro r para ciência de dados e islr ao livro an introduction to statistical learning with applications in r, todos disponíveis na bibliografia do curso.

DATA CONTEÚDO MATERIAIS REFERÊNCIAS
terça-feira, 10 de junho conhecendo r e rstudio;
operações básicas;
criando variáveis;
criando vetores.
2025_06_10.R 📘cdr - instalação r
📘cdr - rstudio
📘cdr - fluxo básico
📗r4ds - fluxo básico
segunda-feira, 16 de junho vetores;
operações com vetores e indexação;
sequências;
amostragem e simulação com for.
2025_06_16.R 📘cdr - vetores
📘cdr - testes lógicos
📗r4ds - fluxo básico
terça-feira, 17 de junho data frames;
manipulando data frames.
2025_06_17.R
importando-arquivos.R
📘cdr - data frames
📘cdr - mais sobre data frames
segunda-feira, 23 de junho importando data frames;
manipulando data frames;
introduzindo o dplyr e o pipe.
2025_06_23.R 📗r4ds - transformando dados
📘cdr - importando dados
terça-feira, 24 de junho manipulações com dplyr;
introduzindo o ggplot2;
2025_06_24_parte1.R
2025_06_24_parte2.R
📗r4ds - visualização de dados
🧭tutorial de ggplot2
segunda-feira, 30 de junho visualizações com ggplot2 2025_06_30.R 📗r4ds - visualização de dados
🧭tutorial de ggplot2
terça-feira, 1 de julho visualizações com ggplot2 2025_07_01.R 📗r4ds - visualização de dados
🧭tutorial de ggplot2
terça-feira, 8 de julho visualizações animadas com ggplot2 2025_07_08.R 🧭tutorial curso R
🧭tutorial The R Graph Gallery
segunda-feira, 14 de julho introdução aos modelos de aprendizado de máquina 2025_07_14.R 📙islr - capítulo 8: tree-based models
segunda-feira, 28 de julho árvores de decisão: teoria e prática 2025_07_28.R 📙islr - capítulo 8: tree-based models
terça-feira, 29 de julho árvores de decisão e relatórios com Quarto relatorio_diabetes.qmd 📄artigo: Predição do diabetes mellitus
🧭tutoriais do Quarto
segunda-feira, 4 de agosto árvores de decisão, medidas de desempenho e relatórios com Quarto Quarto
Árvores de decisão
📄artigo: Predição do diabetes mellitus
🧭tutoriais do Quarto
terça-feira, 5 de agosto árvores de decisão 2025_08_05.R 📄artigo: Predição do diabetes mellitus
📙islr - capítulo 8: tree-based models
🧭tutoriais do Quarto

laboratórios e listas

  1. primeiro laboratório: lab1.pdf e violencia_domestica_2023.csv.
  2. segundo laboratório: lab2.pdf, child_mortality.csv, fertility.csv e population.csv.
  3. terceiro laboratório: lab3.pdf e cogumelos_dataset.csv.

arquivo de provas

Primeira prova: P1.pdf, mulheres_parlamento.txt, dados_titanic, comentarios_P1.pdf

Segunda prova: materiais