GSI024 - Organização e Recuperação de Informação - 2º Semestre de 2015
Informações
Sala de aula teórica: Bloco 1B - Sala 1B202
Sala de laboratório: Bloco 1B, Laboratório 5
Sobre a disciplina
Plano da disciplina
Ementa da disciplina
Curso: Sistemas de Informação
Livro texto
Datas importantes
24/09/2015 - Prova 1 - valendo 25 pontos
05/11/2015 - Prova 2 - valendo 25 pontos
08/12/2015 - Prova 3 - valendo 30 pontos
15/12/2015 - Prova de Recuperação
Notas
Tabela de notas - Tabela com recuperação
Material de Aula
Aulas teóricas
01 - Modelo booleano - slides
02 - Vocabulário de termos - slides
03 - Busca tolerante e dicionário - slides
04 - Construção de índice - slides
05 - Ranking - slides
06 - Sistema completo - slides
07 - Avaliação - slides
08 - Expansão de consultas - slides de aula
09 - Classificador bayesiano - slides de aula
10 - A web - slides de aula
11 - Análise de links - slides de aula
12 - Crawling - slides de aula
Aulas práticas
Apostila para as práticas - baixar versão 0 (zero)
corpus.txt - corpus de documentos sobre artigos científicos da área de Saúde Pública
dic.txt - dicionário de palavras selecionadas a partir do corpus de documentos
pares.dat - arquivo binário com lista de pares de números inteiros (termId, docId) indicando que termId apareceu em docId pares
index.dat - arquivo binário com pares de números inteiros. O k-ésimo par apresenta 1) a posição no arquivo postings.dat em que lista de docIds contendo o termId k inicia-se e 2) o número de docIds nessa lista
postings.dat - arquivo binário com lista de docIds conforme referenciado por index.dat
TF.dat - arquivo binário com contagem de repetições de cada termo em cada docId conforme referenciado por index.dat
Guglio.java - arquivo de interface simplificada modelo
Prática atual
Práticas passadas
Descrição da Prática 15 - Apache Lucene - Data de entrega - 08/12
Descrição da Prática 14 - Coleta de documentos na Web - Data de entrega - 01/12
Descrição da Prática 13 - Algoritmo de Classificação de Naive Bayes - Data de entrega - 23/11
Descrição da Prática 12 - Algoritmo de Rocchio - Data de entrega - 17/11
Descrição da Prática 11 - Operações de índice direto - Data de entrega - 10/11
Descrição da Prática 10 - Construção de índice direto - Data de entrega - 03/11
Descrição da Prática 9 - Busca tolerante - Data de entrega - 27/10
Descrição da Prática 8 - Ordenação de resultados - Data de entrega - 13/10
Descrição da Prática 7 - Frequência de Termos em Documentos - Data de entrega - 05/10
Descrição da Prática 6 - Apresentação de resultados - Data de entrega - 29/09
Descrição da Prática 5 - Respondendo a consultas - Data de entrega - 22/09
Descrição da Prática 4 - Construção de índice invertido - Data de entrega - 15/09
Descrição da Prática 3 - Lista ordenada de termIds e docIds - Data de entrega - 08/09
Descrição da Prática 2 - Construção de um vocabulário - Data de entrega - 01/09
Descrição da Prática 1 - Data de entrega - 24/08
Exercícios
Lista de exercícios 3
Lista de exercícios sobre classificacao
Lista de exercícios 2
Lista de exercícios 1 (até construção de índices)
Informações adicionais
10/06/2015 - Algoritmo para calcular a distância de Levenshtein é provado ser ótimo se P != NP - artigo científico
O material de aula é baseado nos slides de um curso de Information Retrieval and Text Mining da Universidade de Stuttgart, disponibilizados pelo autor do livro-texto H. Schütze e por W. Kessler.
Explicação do Google sobre como buscas são feitas - link