GBC212 - Mineração de Dados - Ciência da Computação
Sobre a disciplina
Sala de aula: 5R-A 203
Horários: Terças-feiras às 14h50 e Sextas-feiras às 14h00
Plano da disciplina
Ficha da disciplina
Livros
Inteligência Artificial: Uma Abordagem de Aprendizado de Máquina, Katti Faceli et al.
Data mining and analysis, Zaki e Meira
Mining of Massive Datasets, Leskovec, Rajaraman e Ullman
Machine Learning, T. Mitchell
Introduction to Information Retrieval, Manning, Raghavan e Schütze
Atividades
- (3 pontos) 1 - Criar conta no github, Fazer fork em github.com/albertiniufu/MD2018. Criar arquivo texto com breve explicação sobre o arquivo de dados escolhido em sala de aula. Fazer pull request.
- (3 pontos) 2 - Criar projeto no RStudio ligado ao github. Criar arquivo Makefile para controlar download de dados. Criar script para fazer download e pré-processamento. Fazer commit dos arquivos novos no repositório git. Fazer pull request.
- (3 pontos) 3 - (21/08): Criar arquivo de leitura, seleção e alteração dos tipos dos atributos do dataset. Fazer pull request.
- (3 pontos) 4 - (21/08): plots - ver nas notas da Aula 4.
- (3 pontos) 5 - ggplot2
- (4 pontos) 6 - 1a apresentação: fazer apresentação sobre problema de classificação
- (3 pontos) 7 (SVM): Treinar e testar SVM com diferentes kernels para o problema de classificação individual.
- (3 pontos) 8 (2/10): Treinar e testar redes neurais para o problema de classificação individual.
- (3 pontos) 9 (caret): Treinar modelo de classificação usando pacote caret. Organizar atividades em arquivos atividades/atividadeX.Rnw
- (4 pontos) 10: apresentação de resultados com caret
- (3 pontos) 11: aplicação de técnicas de mineração de textos
- (4 pontos) 12: aplicação de técnicas a 2 problemas do Kaggle
- (3 pontos) 13: uso do pacote Rattle
- (5 pontos) 14: submissão e obtenção de resultados do Kaggle
- 15: Mineração de itemsets
- 16: Sistemas de Recomendação
- 17: Clustering (kmeans, hclust)
- 18: Apresentação introdutória sobre sistemas Apache
- 19: Apresentação de exemplo de instalação e uso de sistemas Apache
- 20: Apresentação de projeto real de uso de sistema Apache
Datas importantes
16/10/2018 - Projeto 1 - 10 pontos
18/12/2018 - Projeto 2 - 10 pontos
Material de Aula
1 - Introdução - slides
2 - R project - slides
3 - Visualização e pré-processamento - slides
Vizinhos mais próximos - slides
Árvores de decisão - slides
Redes neurais artificiais- slides
Support Vector Machines- slides
Teoria de aprendizado - slide
ineração de regras de associação - slides
09 - Agrupamento de dados - slides
10 - Agrupamento de dados - parte 2 slides
Notas de aula
Notas da aula
Trabalho 1 - Problemas kaggle.com
Bernardo: Titanic e What's cooking?
Douglas: Digit recognizer e Spooky Author Identification
Adriano: Who is more influential in a social network
Márcio Antonio: WHO Suicide Statistics
Matheus: Pugb Finish Placement Prediction
Gustavo: House Prices e Santander Value Prediction Challenge
Marcelo: Costa Rican Household Poverty Level Prediction e WHO Suicide Statistics
Datasets atribuídos
- Catálogo de teses e dissertações de 2017 (CAPES) (Adriano)
- Servidores Civis e Militares do Executivo Federal - Ano/Mês: 2018/01 (Bernardo) cópia local
- Cadastro de aeródromos (Bruno)
- Proposições da Câmara de Deputados - Ano 2017 (Diogo)
- Documentos desclassificados do Ministério da Defesa (até junho de 2018)(Douglas)
- escolher um dataset (Fábio)
- Série Orçamentária Histórica de 2007 a 2018 do Ministério da Defesa(Gustavo)
- Preços de medicamentos (João Paulo)
- Aposentadorias concedidas por anos de serviço (Lucas Dimitri)
- AG News -- classificação de assuntos de notícias (Lucas Santos)
- Cadastro de Expulsões da Administração Federal (Marcelo)
- Deputados votantes no impeachment da Dilma (Márcio)
- Cadastro mineiro (Matheus)
- Filiados ao PC do B em Minas Gerais (Max)
- Customer churn - download csv (Tiago)
Datasets não atribuídos
- Dados de Contratos do Ministério da Defesa desde 1998(NÃO ATRIBUÍDO)
- Informações sobre Execuções Orçamentárias por ações(NÃO ATRIBUÍDO)
- Histórico da graduação da UFFS (NÃO ATRIBUÍDO)
Outros
Congresso Online sobre BigData
Tutorial de ggplot2
Experimento do Facebook com sentimentos: Experimental evidence of massive-scale emotional contagion through social networks