área científica
Informática / Sistemas de Informação
escolaridade
ensino teórico-prático (TP) - 3 horas/semana
idioma(s) de lecionação
Português, Inglês
objectivos
O objectivo desta disciplina é estudar as técnicas e algoritmos utilizados na recuperação e extracção de informação baseada em texto (IR e IE). Após o estudo deste curso o aluno deverá ser capaz de: 1) compreender conceitos fundamentais de recuperação e extracção de informação 2) implementar algoritmos e usar estratégias baseadas em dicionários e em aprendizagem automática e 3) avaliar o desempenho de solução de IR e IE.
competências
Após este curso o aluno deverá ser capaz de compreender o funcionamento e de desenvolver soluções de:
1) de armazenamento e indexação de textos;
2) de recuperação de informação; e
3) de extracção de informação.
conteúdos
- Conceitos gerais
- Termos, stop-words, normalização
- Stemming, lemmatization, part-of-speech
- Indexação
- Dicionários
- Estruturas de dados
- Tolerância de termos
- Construção e compressão de índices
- Modelo de espaço vectorial
- Pesagem de termos e documentos
- Medidas de desempenho
- Expansão de termos
- Modelos probabilísticos
- Representações distribuídas de palavras (word embeddings)
- Classificação de documentos
- Web crawling e pesquisa
- Extracção de informação
avaliação
Relatório de síntese (40%) e trabalhos práticos (60%)
requisitos
Conhecimentos sólidos de estruturas de dados, algoritmos e programação (Java preferencialmente)
metodologia
A componente prática será organizada segundo um conjunto de pequenos trabalhos, a realizar maioritariamente durante as aulas, nos quais se pretende fazer experiências que consolidem os conceitos teóricos apresentados.
bibliografia recomendada
“Introduction to Information Retrieval”, C.D. Manning, P. Raghaven, H. Schütze, 2008, Cambridge University Press. http://nlp.stanford.edu/IR-book/information-retrieval-book.html
“Modern Information Retrieval: The Concepts and Technology behind Search (2nd Edition)”, R. Baeza-Yates, B. Ribeiro-Neto B., 2011, Addison Wesley Professional.
“Mining the Web: Discovering Knowledge from Hypertext Data”, S. Chakrabarti, 2002, M Kaufmann. http://www.cse.iitb.ac.in/~soumen/mining-the-web/
“Search Engines: Information Retrieval in Practice", W. B. Croft, D. Metzler, and T. Strohman, Addison Wesley, 2009. http://www.search-engines-book.com/