GBC212 - Mineração de Dados - Ciência da Computação

Sobre a disciplina

  • Sala de aula: 5R-A 203
  • Horários: Terças-feiras às 14h50 e Sextas-feiras às 14h00
  • Plano da disciplina
  • Ficha da disciplina
  • Livros

  • Inteligência Artificial: Uma Abordagem de Aprendizado de Máquina, Katti Faceli et al.
  • Data mining and analysis, Zaki e Meira
  • Mining of Massive Datasets, Leskovec, Rajaraman e Ullman
  • Machine Learning, T. Mitchell
  • Introduction to Information Retrieval, Manning, Raghavan e Schütze
  • Atividades

    1. (3 pontos) 1 - Criar conta no github, Fazer fork em github.com/albertiniufu/MD2018. Criar arquivo texto com breve explicação sobre o arquivo de dados escolhido em sala de aula. Fazer pull request.
    2. (3 pontos) 2 - Criar projeto no RStudio ligado ao github. Criar arquivo Makefile para controlar download de dados. Criar script para fazer download e pré-processamento. Fazer commit dos arquivos novos no repositório git. Fazer pull request.
    3. (3 pontos) 3 - (21/08): Criar arquivo de leitura, seleção e alteração dos tipos dos atributos do dataset. Fazer pull request.
    4. (3 pontos) 4 - (21/08): plots - ver nas notas da Aula 4.
    5. (3 pontos) 5 - ggplot2
    6. (4 pontos) 6 - 1a apresentação: fazer apresentação sobre problema de classificação
    7. (3 pontos) 7 (SVM): Treinar e testar SVM com diferentes kernels para o problema de classificação individual.
    8. (3 pontos) 8 (2/10): Treinar e testar redes neurais para o problema de classificação individual.
    9. (3 pontos) 9 (caret): Treinar modelo de classificação usando pacote caret. Organizar atividades em arquivos atividades/atividadeX.Rnw
    10. (4 pontos) 10: apresentação de resultados com caret
    11. (3 pontos) 11: aplicação de técnicas de mineração de textos
    12. (4 pontos) 12: aplicação de técnicas a 2 problemas do Kaggle
    13. (3 pontos) 13: uso do pacote Rattle
    14. (5 pontos) 14: submissão e obtenção de resultados do Kaggle
    15. 15: Mineração de itemsets
    16. 16: Sistemas de Recomendação
    17. 17: Clustering (kmeans, hclust)
    18. 18: Apresentação introdutória sobre sistemas Apache
    19. 19: Apresentação de exemplo de instalação e uso de sistemas Apache
    20. 20: Apresentação de projeto real de uso de sistema Apache

    Datas importantes

  • 16/10/2018 - Projeto 1 - 10 pontos
  • 18/12/2018 - Projeto 2 - 10 pontos
  • Material de Aula

  • 1 - Introdução - slides
  • 2 - R project - slides
  • 3 - Visualização e pré-processamento - slides
  • Vizinhos mais próximos - slides
  • Árvores de decisão - slides
  • Redes neurais artificiais- slides
  • Support Vector Machines- slides
  • Teoria de aprendizado - slide
  • ineração de regras de associação - slides
  • 09 - Agrupamento de dados - slides
  • 10 - Agrupamento de dados - parte 2 slides
  • Notas de aula

  • Notas da aula
  • Trabalho 1 - Problemas kaggle.com

  • Bernardo: Titanic e What's cooking?
  • Douglas: Digit recognizer e Spooky Author Identification
  • Adriano: Who is more influential in a social network
  • Márcio Antonio: WHO Suicide Statistics
  • Matheus: Pugb Finish Placement Prediction
  • Gustavo: House Prices e Santander Value Prediction Challenge
  • Marcelo: Costa Rican Household Poverty Level Prediction e WHO Suicide Statistics
  • Datasets atribuídos

    1. Catálogo de teses e dissertações de 2017 (CAPES) (Adriano)
    2. Servidores Civis e Militares do Executivo Federal - Ano/Mês: 2018/01 (Bernardo) cópia local
    3. Cadastro de aeródromos (Bruno)
    4. Proposições da Câmara de Deputados - Ano 2017 (Diogo)
    5. Documentos desclassificados do Ministério da Defesa (até junho de 2018)(Douglas)
    6. escolher um dataset (Fábio)
    7. Série Orçamentária Histórica de 2007 a 2018 do Ministério da Defesa(Gustavo)
    8. Preços de medicamentos (João Paulo)
    9. Aposentadorias concedidas por anos de serviço (Lucas Dimitri)
    10. AG News -- classificação de assuntos de notícias (Lucas Santos)
    11. Cadastro de Expulsões da Administração Federal (Marcelo)
    12. Deputados votantes no impeachment da Dilma (Márcio)
    13. Cadastro mineiro (Matheus)
    14. Filiados ao PC do B em Minas Gerais (Max)
    15. Customer churn - download csv (Tiago)

    Datasets não atribuídos

    1. Dados de Contratos do Ministério da Defesa desde 1998(NÃO ATRIBUÍDO)
    2. Informações sobre Execuções Orçamentárias por ações(NÃO ATRIBUÍDO)
    3. Histórico da graduação da UFFS (NÃO ATRIBUÍDO)

    Outros

  • Congresso Online sobre BigData
  • Tutorial de ggplot2
  • Experimento do Facebook com sentimentos: Experimental evidence of massive-scale emotional contagion through social networks