GBC212 - Mineração de Dados - Ciência da Computação

Sobre a disciplina

Sala de aula: 5R-A 203

Horários: Terças-feiras às 14h50 e Sextas-feiras às 14h00

Plano da disciplina

Ficha da disciplina

Livros

Inteligência Artificial: Uma Abordagem de Aprendizado de Máquina, Katti Faceli et al.

Data mining and analysis, Zaki e Meira

Mining of Massive Datasets, Leskovec, Rajaraman e Ullman

Machine Learning, T. Mitchell

Introduction to Information Retrieval, Manning, Raghavan e Schütze

Atividades

(3 pontos) 1 - Criar conta no github, Fazer fork em github.com/albertiniufu/MD2018. Criar arquivo texto com breve explicação sobre o arquivo de dados escolhido em sala de aula. Fazer pull request.
(3 pontos) 2 - Criar projeto no RStudio ligado ao github. Criar arquivo Makefile para controlar download de dados. Criar script para fazer download e pré-processamento. Fazer commit dos arquivos novos no repositório git. Fazer pull request.
(3 pontos) 3 - (21/08): Criar arquivo de leitura, seleção e alteração dos tipos dos atributos do dataset. Fazer pull request.
(3 pontos) 4 - (21/08): plots - ver nas notas da Aula 4.
(3 pontos) 5 - ggplot2
(4 pontos) 6 - 1a apresentação: fazer apresentação sobre problema de classificação
(3 pontos) 7 (SVM): Treinar e testar SVM com diferentes kernels para o problema de classificação individual.
(3 pontos) 8 (2/10): Treinar e testar redes neurais para o problema de classificação individual.
(3 pontos) 9 (caret): Treinar modelo de classificação usando pacote caret. Organizar atividades em arquivos atividades/atividadeX.Rnw
(4 pontos) 10: apresentação de resultados com caret
(3 pontos) 11: aplicação de técnicas de mineração de textos
(4 pontos) 12: aplicação de técnicas a 2 problemas do Kaggle
(3 pontos) 13: uso do pacote Rattle
(5 pontos) 14: submissão e obtenção de resultados do Kaggle
15: Mineração de itemsets
16: Sistemas de Recomendação
17: Clustering (kmeans, hclust)
18: Apresentação introdutória sobre sistemas Apache
19: Apresentação de exemplo de instalação e uso de sistemas Apache
20: Apresentação de projeto real de uso de sistema Apache

Datas importantes

16/10/2018 - Projeto 1 - 10 pontos

18/12/2018 - Projeto 2 - 10 pontos

Material de Aula

1 - Introdução - slides

2 - R project - slides

3 - Visualização e pré-processamento - slides

Vizinhos mais próximos - slides

Árvores de decisão - slides

Redes neurais artificiais- slides

Support Vector Machines- slides

Teoria de aprendizado - slide

ineração de regras de associação - slides

09 - Agrupamento de dados - slides

10 - Agrupamento de dados - parte 2 slides

Notas de aula

Notas da aula

Trabalho 1 - Problemas kaggle.com

Bernardo: Titanic e What's cooking?

Douglas: Digit recognizer e Spooky Author Identification

Adriano: Who is more influential in a social network

Márcio Antonio: WHO Suicide Statistics

Matheus: Pugb Finish Placement Prediction

Gustavo: House Prices e Santander Value Prediction Challenge

Marcelo: Costa Rican Household Poverty Level Prediction e WHO Suicide Statistics

Datasets atribuídos

Catálogo de teses e dissertações de 2017 (CAPES) (Adriano)
Servidores Civis e Militares do Executivo Federal - Ano/Mês: 2018/01 (Bernardo) cópia local
Cadastro de aeródromos (Bruno)
Proposições da Câmara de Deputados - Ano 2017 (Diogo)
Documentos desclassificados do Ministério da Defesa (até junho de 2018)(Douglas)
escolher um dataset (Fábio)
Série Orçamentária Histórica de 2007 a 2018 do Ministério da Defesa(Gustavo)
Preços de medicamentos (João Paulo)
Aposentadorias concedidas por anos de serviço (Lucas Dimitri)
AG News -- classificação de assuntos de notícias (Lucas Santos)
Cadastro de Expulsões da Administração Federal (Marcelo)
Deputados votantes no impeachment da Dilma (Márcio)
Cadastro mineiro (Matheus)
Filiados ao PC do B em Minas Gerais (Max)
Customer churn - download csv (Tiago)

Datasets não atribuídos

Dados de Contratos do Ministério da Defesa desde 1998(NÃO ATRIBUÍDO)
Informações sobre Execuções Orçamentárias por ações(NÃO ATRIBUÍDO)
Histórico da graduação da UFFS (NÃO ATRIBUÍDO)

Outros

Congresso Online sobre BigData

Tutorial de ggplot2

Experimento do Facebook com sentimentos: Experimental evidence of massive-scale emotional contagion through social networks