GSI024 - Organização e Recuperação de Informação - 2º Semestre de 2015

Informações

  • Sala de aula teórica: Bloco 1B - Sala 1B202
  • Sala de laboratório: Bloco 1B, Laboratório 5
  • Sobre a disciplina

  • Plano da disciplina
  • Ementa da disciplina
  • Curso: Sistemas de Informação
  • Livro texto
  • Datas importantes

  • 24/09/2015 - Prova 1 - valendo 25 pontos
  • 05/11/2015 - Prova 2 - valendo 25 pontos
  • 08/12/2015 - Prova 3 - valendo 30 pontos
  • 15/12/2015 - Prova de Recuperação
  • Notas

  • Tabela de notas - Tabela com recuperação
  • Material de Aula

    Aulas teóricas

  • 01 - Modelo booleano - slides
  • 02 - Vocabulário de termos - slides
  • 03 - Busca tolerante e dicionário - slides
  • 04 - Construção de índice - slides
  • 05 - Ranking - slides
  • 06 - Sistema completo - slides
  • 07 - Avaliação - slides
  • 08 - Expansão de consultas - slides de aula
  • 09 - Classificador bayesiano - slides de aula
  • 10 - A web - slides de aula
  • 11 - Análise de links - slides de aula
  • 12 - Crawling - slides de aula
  • Aulas práticas

  • Apostila para as práticas - baixar versão 0 (zero)
  • corpus.txt - corpus de documentos sobre artigos científicos da área de Saúde Pública
  • dic.txt - dicionário de palavras selecionadas a partir do corpus de documentos
  • pares.dat - arquivo binário com lista de pares de números inteiros (termId, docId) indicando que termId apareceu em docId pares
  • index.dat - arquivo binário com pares de números inteiros. O k-ésimo par apresenta 1) a posição no arquivo postings.dat em que lista de docIds contendo o termId k inicia-se e 2) o número de docIds nessa lista
  • postings.dat - arquivo binário com lista de docIds conforme referenciado por index.dat
  • TF.dat - arquivo binário com contagem de repetições de cada termo em cada docId conforme referenciado por index.dat
  • Guglio.java - arquivo de interface simplificada modelo
  • Prática atual

    Práticas passadas

  • Descrição da Prática 15 - Apache Lucene - Data de entrega - 08/12
  • Descrição da Prática 14 - Coleta de documentos na Web - Data de entrega - 01/12
  • Descrição da Prática 13 - Algoritmo de Classificação de Naive Bayes - Data de entrega - 23/11
  • Descrição da Prática 12 - Algoritmo de Rocchio - Data de entrega - 17/11
  • Descrição da Prática 11 - Operações de índice direto - Data de entrega - 10/11
  • Descrição da Prática 10 - Construção de índice direto - Data de entrega - 03/11
  • Descrição da Prática 9 - Busca tolerante - Data de entrega - 27/10
  • Descrição da Prática 8 - Ordenação de resultados - Data de entrega - 13/10
  • Descrição da Prática 7 - Frequência de Termos em Documentos - Data de entrega - 05/10
  • Descrição da Prática 6 - Apresentação de resultados - Data de entrega - 29/09
  • Descrição da Prática 5 - Respondendo a consultas - Data de entrega - 22/09
  • Descrição da Prática 4 - Construção de índice invertido - Data de entrega - 15/09
  • Descrição da Prática 3 - Lista ordenada de termIds e docIds - Data de entrega - 08/09
  • Descrição da Prática 2 - Construção de um vocabulário - Data de entrega - 01/09
  • Descrição da Prática 1 - Data de entrega - 24/08
  • Exercícios

  • Lista de exercícios 3
  • Lista de exercícios sobre classificacao
  • Lista de exercícios 2
  • Lista de exercícios 1 (até construção de índices)
  • Informações adicionais

  • 10/06/2015 - Algoritmo para calcular a distância de Levenshtein é provado ser ótimo se P != NP - artigo científico
  • O material de aula é baseado nos slides de um curso de Information Retrieval and Text Mining da Universidade de Stuttgart, disponibilizados pelo autor do livro-texto H. Schütze e por W. Kessler.
  • Explicação do Google sobre como buscas são feitas - link