introdução à ciência de dados

laboratório de estatística | segunda 18h10-19h50 | terça 20h50-22h30
início do curso

20 de outubro de 2025

informações gerais

o atendimento aos estudantes acontece na sala 1J 107 nos seguintes dias e horários:

  • segunda-feira, 17h00 - 18h00.
  • sexta-feira, 19h30 - 20h30.

as comunicações extraclasse devem ser feitas através do email pedrofranklin@ufu.br.

instruções para o envio de e-mails: por favor, adicione "[dados]" no assunto da mensagem. o e-mail deve ser tratado como uma forma de comunicação profissional.

objetivos do curso

  • explorar, visualizar e analisar dados a partir de problemas do mundo real;
  • realizar limpeza, transformação e integração de dados;
  • construir visualizações informativas e corretas para exploração e comunicação de resultados;
  • introduzir conceitos de aprendizado de máquina, com foco em modelos de máquinas de vetor de suporte e métodos baseados em árvores;
  • adotar princípios éticos em ciência de dados, incluindo uso responsável de ferramentas de ia;
  • documentar e compartilhar análises de modo reprodutível;

atividades e avaliações do curso

você será avaliado com base em quatro componentes: participação nas aulas, tarefas de casa, duas provas e um projeto.

participação

nesta disciplina, a sua participação é parte fundamental do aprendizado. você será convidado a resolver exercícios em aula, individualmente ou em grupo, com o objetivo de identificar rapidamente dúvidas e testar a compreensão dos conceitos trabalhados no dia. estar presente, contribuir nas discussões e acompanhar as atividades propostas serão os critérios para sua avaliação nesta componente.

tarefas de casa

ao longo do semestre, você receberá tarefas de casa com o objetivo de praticar, com calma e autonomia, os conceitos apresentados em aula. essas tarefas devem ser feitas individualmente, mas você é encorajado a discutir ideias e dificuldades comigo e com seus colegas, desde que o raciocínio final seja seu. entregar as tarefas no prazo é parte da avaliação, e a menor nota poderá ser desconsiderada ao final do curso.

provas

você realizará duas provas ao longo do semestre, cada uma cobrindo o conteúdo ministrado até aquele momento.

  • prova 1: 09 de dezembro;
  • prova 2: 09 de março.

prova de recuperação

caso você seja um estudante frequente e sua nota final seja inferior a 60%, você terá a oportunidade de realizar a prova de recuperação no dia 16 de março. esta prova abrangerá todo o conteúdo do curso. a nota final será a média entre a nota obtida na prova de recuperação e a nota final original.

projeto

o projeto tem como objetivo aplicar o que você aprendeu ao longo do semestre para analisar uma questão de pesquisa interessante baseada em dados. os resultados do projeto serão apresentados no final do semestre (10 e 16 de março). o relatório escrito deverá ser entregue no mesmo dia.

mais informações sobre o projeto serão fornecidas ao longo do semestre.

composição da nota final

a nota final do curso será calculada da seguinte forma:

categoria porcentagem
participação. 10%
tarefas de casa 10%
prova 1 30%
prova 2 35%
projeto 15%

integridade acadêmica

nesta disciplina, espero que você participe das aulas com atenção e respeito ao ambiente coletivo de aprendizagem. fazer perguntas, compartilhar dúvidas e contribuir nas discussões faz parte do processo e será sempre bem-vindo. da mesma forma, ouvir os colegas com interesse é parte essencial da convivência acadêmica.

o uso de computadores, tablets ou outras ferramentas digitais é permitido quando estiver diretamente ligado às atividades da aula. fora desse contexto, distrações com mensagens, redes sociais ou qualquer outro conteúdo prejudicam não apenas o seu aprendizado, mas o dos demais. mantenha os dispositivos em silêncio e evite qualquer uso que interrompa o andamento da aula.

quanto ao trabalho acadêmico, você é encorajado a discutir ideias e estratégias com colegas, mas todo trabalho entregue deve refletir o seu próprio entendimento. copiar respostas ou reproduzir código sem compreensão ou sem citação é uma violação da integridade acadêmica e poderá resultar em penalidades. é permitido consultar materiais e recursos online, inclusive ferramentas de inteligência artificial, desde que você reconheça sua origem e não substitua o esforço de pensamento próprio. utilizar esses recursos para aprender é diferente de usá-los para responder no seu lugar.

acima de tudo, lembre-se de que este curso valoriza o raciocínio e a honestidade intelectual.

livros do curso

as leituras do curso serão baseadas nos seguintes livros, todos disponíveis gratuitamente online.

leitura complementar

laboratórios e listas

  1. primeiro laboratório: lab1.pdf e violencia_domestica_2023.csv.

aulas

a seguir, uma tabela com informações de cada aula do curso, incluindo a data, os tópicos abordados, os códigos produzidos durante a aula e as referências recomendadas para estudo. a tabela será atualizada ao final de cada aula.

na coluna de referências, cdr refere-se ao livro ciência de dados em r; r4ds ao livro r para ciência de dados e islr ao livro an introduction to statistical learning with applications in r, todos disponíveis na bibliografia do curso.

DATA CONTEÚDO MATERIAIS REFERÊNCIAS
segunda-feira,
20 de outubro
conhecendo r e rstudio;
operações básicas;
criando variáveis;
criando vetores.
2025_10_20.R 📘cdr - instalação r, rstudio, fluxo básico
📗r4ds - fluxo básico
terça-feira,
21 de outubro
vetores;
operações com vetores e indexação;
sequências;
amostragem e simulação.
2025_10_21.R 📘cdr - vetores, testes lógicos
📗r4ds - fluxo básico
segunda-feira,
3 de novembro
data frames;
importando data frames;
manipulando data frames.
2025_11_03.R 📘cdr - data frames, importando data frames, mais sobre data frames
📗r4ds - transformando dados
terça-feira,
4 de novembro
visualizações com ggplot2;
estruturas condicionais;
estruturas de repetição;
aulas do dia 04, 10, 11 e 14 de novembro.
2025_11_04.R 📗r4ds - visualização de dados
🧭tutorial de ggplot2
segunda-feira,
17 de novembro
introdução aos modelos de aprendizado de máquina;
o modelo de árvore de decisão
2025_11_17.R 📙islr - capítulo 8: tree-based models
terça-feira,
18 de novembro
introdução aos modelos de aprendizado de máquina;
o modelo KNN
2025_11_18.R 🧭tutorial datacamp
segunda-feira,
24 de novembro
KNN e validação cruzada 2025_11_24.R Livro Introduction to Statistical Learning with R
terça-feira,
25 de novembro
Árvores de decisão: uma introdução 2025_11_25.R Livro Introduction to Statistical Learning with R
segunda-feira,
1 de dezembro
Árvores de decisão com rpart 2025_12_01.R Livro Introduction to Statistical Learning with R
terça-feira,
2 de dezembro
Comparando modelos e matriz de confusão 2025_12_02.R Livro Introduction to Statistical Learning with R
segunda-feira,
8 de dezembro
Revisão para a prova
Slides da aula