Παρουσίαση/Προβολή
Ανάκτηση Πληροφορίας
(CEID1037) - Χρήστος Μακρής
Περιγραφή Μαθήματος
Εισαγωγικές έννοιες (διαδικασία χρήστη, λογική αναπαράσταση κειμένων, διαδικασία ανάκτησης). Μετρικές εκτίμησης απόδοσης ανάκτησης (ανάκληση, ακρίβεια, μέση ακρίβεια, R- ακρίβεια, ιστογράμματα ακρίβειας, αρμονικός μέσος όρος, μετρικές προσανατολισμένες στο χρήστη). Μοντέλα Ανάκτησης Πληροφορίας. Συνολοθεωρητικά μοντέλα (Boolean μοντέλο, μοντέλο ασαφών συνόλων, επεκταμένο Boolean Μοντέλο), Αλγεβρικά μοντέλα (μοντέλο διανυσματικού χώρου, μοντέλο λανθάνουσας σημασιολογικής δεικτοδότησης), Πιθανοτικά μοντέλα. Ανάκτηση Πληροφορίας στον Παγκόσμιο Ιστό. Μηχανές Αναζήτησης στον Παγκόσμιο Ιστό (Crawler, Indexer, δεικτοδοτητής). Ο αλγόριθμος HITS (Hyperlink-Induced Topic Search). Η μηχανή αναζήτησης Google (η μέθοδος βαθμολόγησης PageRank). O αλγόριθμος SALSA. Τεχνικές Μηχανικής Μάθησης στην Ανάκτηση Πληροφορίας (Learning to Rank, Γλωσσικά Μοντέλα, Διανυσματική αναπαράσταση λέξεων (word embeddings όπως word2vec, CBOW,skipgram), LSTM, Transformers, BERT, GPT), Λεξική Δεικτοδότηση (ανεστραμμένα αρχεία, αρχεία υπογραφών, bitmaps). Τεχνικές Αποθήκευσης σε Κατανεμημένη Ανάκτηση Πληροφορίας (MapReduce, Apache Spark), Πλήρης Δεικτοδότηση (δέντρα επιθεμάτων, πίνακας επιθεμάτων, άκυκλα κατευθυνόμενα γραφήματα (DAWG) συμβολοσειρών). Δεικτοδότηση συμβολοσειρών στη δευτερεύουσα μνήμη (υπερ-πίνακας επιθεμάτων, Β-δέντρο προθεμάτων, Β-δέντρο συμβολοσειρών). Συμπίεση Κειμένων και Δομών Δεικτοδότησης, Text Mining.
Ημερομηνία δημιουργίας
Δευτέρα, 17 Οκτωβρίου 2011
-
Περιεχόμενο μαθήματος
Εισαγωγικές έννοιες (διαδικασία χρήστη, λογική αναπαράσταση κειμένων, διαδικασία ανάκτησης). Μετρικές εκτίμησης απόδοσης ανάκτησης (ανάκληση, ακρίβεια, μέση ακρίβεια, R- ακρίβεια, ιστογράμματα ακρίβειας, αρμονικός μέσος όρος, μετρικές προσανατολισμένες στο χρήστη). Μοντέλα Ανάκτησης Πληροφορίας. Συνολοθεωρητικά μοντέλα (Boolean μοντέλο, μοντέλο ασαφών συνόλων, επεκταμένο Boolean Μοντέλο), Αλγεβρικά μοντέλα (μοντέλο διανυσματικού χώρου, μοντέλο λανθάνουσας σημασιολογικής δεικτοδότησης), Πιθανοτικά μοντέλα, Ανάκτηση Πληροφορίας στον Παγκόσμιο Ιστό. Μηχανές Αναζήτησης στον Παγκόσμιο Ιστό (Crawler, Indexer, δεικτοδοτητής). Ο αλγόριθμος HITS (Hyperlink-Induced Topic Search). Η μηχανή αναζήτησης Google (η μέθοδος βαθμολόγησης PageRank). O αλγόριθμος SALSA, Τεχνικές Μηχανικής Μάθησης και Νευρωνικά Μοντέλα στην Ανάκτηση Πληροφορίας (Learning to Rank, διανυσματική αναπαράσταση λέξεων και ενσωματώσεις όπως word2vec, CBOW,skipgram, Transformers, BERT, GPT, Μεγάλα Γλωσσικά Μοντέλα και Sparse vs Dense Αναζήτηση, Vector Search σε λ.χ. FAISS ( HNSW, …), χρήση dense ή/και sparse search σε Retrieval Augmented Generation (RAG), Search engines vs reasoning engines), Λεκτική Δεικτοδότηση (ανεστραμμένα αρχεία, αρχεία υπογραφών, bitmaps). Τεχνικές Αποθήκευσης σε Κατανεμημένη Ανάκτηση Πληροφορίας (Mapreduce, Apache Spark), Πλήρης Δεικτοδότηση (δέντρα επιθεμάτων, πίνακας επιθεμάτων, άκυκλα κατευθυνόμενα γραφήματα (DAWG) συμβολοσειρών). Δεικτοδότηση συμβολοσειρών στη δευτερεύουσα μνήμη (υπερ-πίνακας επιθεμάτων, Β-δέντρο προθεμάτων, Β-δέντρο συμβολοσειρών). Συμπίεση Κειμένων και Δομών Δεικτοδότησης, Εξόρυξη Γνώσης από Κείμενα και Μοντέλα Βασισμένα σε Γράφους (Graph embeddings)
Στοιχεία: 235597, Επιλογής Χειμερινού Εξαμήνου
Διδάσκων: Μακρής Χρήστος, Αναπληρωτής Καθηγητής (makri@ceid.upatras.gr)
Φροντιστήριο: Mπομπότας Αγοράκης (mpompotas@ceid.upatras.gr)
Καλογερόπουλος Νικήτας (kalogeropo@ceid.upatras.gr)
Ώρες διδασκαλίας: Πέμπτη 11:00-13:00 θεωρία, αίθουσα Δ1 Νέο Κτίριο Μηχανικών Η/Υ και Πληροφορικής, Παρασκευή 11:00-13:00 φροντιστήριο αίθουσα Δ1 Νέο Κτίριο Μηχανικών Η/Υ και Πληροφορικής,
Ώρες ενημέρωσης/βοήθειας για τις εργασίες του μαθήματος: Πέμπτη 19:00-21:00 στο Υπολογιστικό Κέντρο (δεύτερος όροφος νέο κτίριο)
Μέθοδοι αξιολόγησης
Εξέταση: Οι εξετάσεις του μαθήματος συνίστανται:
(i) στην παράδοση και εξέταση μιας εργασίας από ομάδες 1-2 ατόμων, (ημερομηνία παράδοσης πρώτη μέρα της εξεταστικής περιόδου ή τρεις μέρες πριν την εξέταση του μαθήματος),
(45% του συνολικού βαθμού)
(ii) σε γραπτή εξέταση πάνω στις σημειώσεις του μαθήματος. (55% του συνολικού βαθμού)
Για να περάσει κάποιος πρέπει να έχει στην εξέταση εργασίας και γραπτών (συνολικά) βαθμό μεγαλύτερο ή ίσο του 5 και να έχει δώσει γραπτές εξετάσεις με βαθμολογία μη μηδενική και τουλάχιστον 1,5 έως 2.
Αν ο συνολικός βαθμός είναι μικρότερος του 5, τότε ο φοιτητής θα πρέπει να ξαναδώσει πάλι γραπτές εξετάσεις και να ξαναφέρει την εργασία του. Η εργασία διατηρείται μονο για το τρέχον έτος που έχει εκπονηθεί.
Οι εργασίες είναι προαιρετικές. Σε περίπτωση που κάποιος δεν αναλάβει εργασία θα βαθμολογηθεί αποκλειστικά (100%) από το γραπτό του.
Σε περίπτωση που κάποιος έχει αναλάβει εργασία και δεν τη φέρει, τότε θεωρείται ότι έχει αποσύρει τη δήλωσή του για εργασία, οπότε βαθμολογείται αποκλειστικά (100%) από το γραπτό του.
Εξεταστέα Ύλη: Οι εξετάσεις γίνονται με κλειστά βιβλία και το ίδιο ισχύει και για την άτυπη. Η ύλη είναι τα κεφάλαια 1-9, 11, 12, 18-21 του βιβλίου (πρωτο προτεινομενο βιβλίο) Introduction to Information Retrieval (http://nlp.stanford.edu/IR-book/information-retrieval-book.html - ελληνικός τίτλος "Εισαγωγή στην Ανάκτηση Πληροφορίας"), με έμφαση σε ό,τι ειπώθηκε στις διαλέξεις. Αντίστοιχη ύλη υπάρχει στα κεφάλαια 1-5, 7, 8, 9,11,12 του βιβλίου των R. Baeza Yates, R. Ribeiro Neto, "ANAKTHΣΗ ΠΛΗΡΟΦΟΡΙΑΣ" (ΔΕΥΤΕΡΟ ΒΟΗΘΗΜΑ). Από τα υπόλοιπα κεφάλαια/θέματα των δύο βιβλίων θα ζητηθεί μόνο ό,τι αναφέρεται στις διαφάνειες θεωρίας και φροντιστηρίου, ως επιπλέον.
Tα κεφάλαια 19-21 του πρωτου βιβλίου και εισαγωγικές έννοιες καλύπτονται και από όλα τα κεφάλαια του τρίτου προτεινομενου βιβλίου ("Η μέθοδος pagerank της Google και άλλα συστήματα κατάταξης ιστοσελίδων").
Στο μάθημα είδαμε και επιπλέον θέματα με LLM και νευρωνικά δίκτυα τα οποία πραγματεύονται τα βιβλία:
- Speech and Language Processing (3rd ed. draft) Dan Jurafsky and James H. Martin, Aug, 2024, draft (https://web.stanford.edu/~jurafsky/slp3 / (κεφάλαια 2,3,5,7,8,9,10,11)
- Pretrained Transformers for Text Ranking: BERT and Beyond by Jimmy Lin, Rodrigo Nogueira, and Andrew Yates ( University of Waterloo, University of Campinas, University of Amsterdam) Morgan & Claypool (Synthesis Lectures on Human Language Technologies, edited by Graeme Hirst, volume 53), 2021 (όλο το βιβλίο).
Και εδώ θα ζητηθεί μόνο ό,τι αναφέρεται στις διαφάνειες θεωρίας και φροντιστηρίου.
Διδάσκοντες
Στοιχεία: 235597, Επιλογής Χειμερινού Εξαμήνου
Διδάσκων: Μακρής Χρήστος, Αναπληρωτής Καθηγητής (makri@ceid.upatras.gr)
Φροντιστήριο:
Mπομπότας Αγοράκης (mpompotas@ceid.upatras.gr)
Καλογερόπουλος Νικήτας (kalogeropo@ceid.upatras.gr)
Ώρες διδασκαλίας: Πεμπτη 11:00-13:00 θεωρία (αίθουσα Δ1 Νέο Κτίριο Μηχανικών Η/Υ και Πληροφορικής), Παρασκευή 11:00-13 :00 φροντιστήριο (αίθουσα Δ2 Νέο Κτίριο Μηχανικών Η/Υ και Πληροφορικής).
Ώρες ενημέρωσης/βοήθειας για τις εργασίες του μαθήματος: κάθε Πέμπτη 19:00-21:00 στο Υπολογιστικό Κέντρο (δεύτερος όροφος νέο κτίριο)
Αίθουσα διδασκαλίας: αίθουσα Δ1 (θεωρία) Νέο Κτίριο Μηχανικών Η/Υ και Πληροφορικής
Προτεινόμενα συγγράμματα
Σημειώσεις: ΔΙΔΑΚΤΙΚΟ ΒΙΒΛΙΟ:
- "EΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΚΤΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ" CHRISTOFER MANNING, PRABHAKAR RAGHAVAN, HINRICH SCHUTZE, ΕΚΔΟΣΕΙΣ ΚΛΕΙΔΑΡΙΘΜΟΣ, 2012, ISBN: 978-960-461-456-1, ΚΩΔΙΚΟΣ ΕΥΔΟΞΟΣ: 12532681 (http://nlp.stanford.edu/IR-book/information-retrieval-book.html)
- "ΑΝΑΚΤΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ"2Η ΕΚΔΟΣΗ, BAEZA-YATES, RICARDO, RIBEIRO-NETO BERTHIER, 2011 (https://www.baeza.cl/mir2ed/)
- "Η ΜΕΘΟΔΟΣ PAGERANK TΗΣ GOOGLE ΚΑΙ ΑΛΛΑ ΣΥΣΤΗΜΑΤΑ ΚΑΤΑΤΑΞΗΣ ΙΣΤΟΣΕΛΙΔΩΝ", AMY LANGVILE, CARL MEYER, ISBN:978-960-524-313-5, ΚΩΔΙΚΟΣ ΕΥΔΟΞΟΣ: 7753, ITE-ΠΑΝΕΠΙΣΤΗΜΙΑΚΕΣ ΕΚΔΟΣΕΙΣ KΡΗΤΗΣ
Οι φοιτητές παλαιοτέρων ετών μπορούν επίσης να χρησιμοποιούν (αν τις είχαν παραλάβει) τις παλαιότερες σημειώσεις (για τη συγγραφή των σημειώσεων είχαν συνεργαστεί οι: Θεοδωρίδης Ευάγγελος, Παναγής Ιωάννης, Περδικούρη Αικατερίνη, Χριστοπούλου Ελένη):
- Μέρος Α: Κεφάλαια 1, 2, 3
- Μέρος Β: Κεφάλαια 4, 5
- Μέρος Γ: Αλγόριθμοι Διαχείρισης Συμβολοσειρών
- Παράρτημα
με σχετικό υλικό (είναι και η ύλη εξέτασης) να καλύπτεται (1) στα κεφάλαια 1-5, 7, 8, 9,11,12 του βιβλίου των R. Baeza Yates, R. Ribeiro Neto, "ANAKTHΣΗ ΠΛΗΡΟΦΟΡΙΑΣ" (ΔΕΥΤΕΡΟ ΒΟΗΘΗΜΑ), (2) στα κεφάλαια 1-9, 11, 16-21, του βιβλίου (είναι και το πρώτο προτεινομενο διδακτικό βιβλίο) Christopher D. Manning, Prabhakar Raghavan and Hinrich Schutze, Introduction to Information Retrieval, Cambridge University Press. 2008, http://nlp.stanford.edu/IR-book/information-retrieval-book.html (τα κεφάλαια 19-21 του πρωτου βιβλίου και εισαγωγικές έννοιες καλύπτονται και στο τριτο προτεινόμενο βιβλίο).
Στο μάθημα είδαμε και επιπλέον θέματα με LLM και νευρωνικά δίκτυα τα οποία πραγματεύονται τα βιβλία:
- Speech and Language Processing (3rd ed. draft) Dan Jurafsky and James H. Martin, Aug, 2024, draft (https://web.stanford.edu/~jurafsky/slp3 / (κεφάλαια 2,3,5,7,8,9,10,11)
- Pretrained Transformers for Text Ranking: BERT and Beyond by Jimmy Lin, Rodrigo Nogueira, and Andrew Yates ( University of Waterloo, University of Campinas, University of Amsterdam) Morgan & Claypool (Synthesis Lectures on Human Language Technologies, edited by Graeme Hirst, volume 53), 2021 (όλο το βιβλίο).
Και εδώ θα ζητηθεί μόνο ό,τι αναφέρεται στις διαφάνειες θεωρίας και φροντιστηρίου
Βιβλιογραφία
- R. Baeza-Yates, B. Ribeiro-Neto, Modern Information Retrieval, Addison Wesley, 1999 (second edition, 2011, http://mir2ed.org/)
- Stefan Buttcher, Charles Clark, Gordon Cormack, Information Retrieval: Implementing and Evaluating Search Engines, MIT Press 2010, http://www.ir.uwaterloo.ca/book/
- Omar Alonso and Ricardo Baeza-Yates, Information Retrieval: Advanced Topics and Techniques, December 2024, Association for Computing Machinery, New York, United States, ISBN:979-8-4007-1050-6 DOI: https://doi.org/10.1145/3674127
- W. Croft, D. Metzler, T. Strohman, Search Engines: Information Retrieval in Practise, Pearson 2010, http://www.search-engines-book.com
- Christopher D. Manning, Prabhakar Raghavan and Hinrich Schutze, Introduction to Information Retrieval, Cambridge University Press. 2008, http://nlp.stanford.edu/IR-book/information-retrieval-book.html
- Amy Langville, Carl Meyer, Google's PageRank and Beyond, Princeton University Press 2006
- I. Witten, A. Moffat, T. Bell, Managing gigabytes: compressing and indexing documents and images, Morgan Kaufmann Publishers, 1999.
- Speech and Language Processing (3rd ed. draft) Dan Jurafsky and James H. Martin Jan 7, 2023 draft (https://web.stanford.edu/~jurafsky/slp3 /
- Embeddings in Natural Language Processing Theory and Advances in Vector Representations of Meaning, Mohammad Taher Pilehvar , Jose Camacho-Collados, Morgan Claypool, 2020 (https://sites.google.com/view/embeddings-in-nlp , https://sites.google.com/view/embeddings-in-nlp/tutorial )
- Pretrained Transformers for Text Ranking: BERT and Beyond by Jimmy Lin, Rodrigo Nogueira, and Andrew Yates ( University of Waterloo, University of Campinas, University of Amsterdam) Morgan & Claypool (Synthesis Lectures on Human Language Technologies, edited by Graeme Hirst, volume 53), 2021
- G. Salton, M. McGill, An introduction to modern information retrieval, New York: McGraw-Hill 1983
- van Reijsbregen, Information Retrieval, London: Butterworths, 1979.
- van Rijsbergen, The geometry of information retrieval, Cambridge University Press 2005.
- Απόστολος Παπαδόπουλος, Ιωάννης Μανωλόπουλος, Κωνσταντίνος Τσίχλας, ΑΝΑΚΤΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ, ΚΑΛΛΙΠΟΣ Ανοικτές Ακαδημαϊκές Εκδόσεις, Έκδοση: 1/2016
https://repository.kallipos.gr/handle/11419/4191 - W.B.Frakes, R. Baeza Yates, Information Retrieval: Data structures and algorithms, Prentice Hall, Englewood Cliffs, Nj. USA, 1992
- B. Allen, Information Tasks: Towards a User-centered approach to Information Systems, Academic Press, San Diegpo, CA, 1996.
- D. Gusfield, Algorithms on Strings, Trees and Sequences, Cambridge University Press, 1997.
- Ian Witten, Alistair Moffat, Timothy Bell, Managing Gigabytes: Compressing and Indexing Documents and Images, Morgan Kauffmann, 1999.
- Gonzalo Navarro, Compact Data Structures: A Practical Approach, 2016 https://www.cambridge.org/core/books/compact-data-structures/68A5983E6F1176181291E235D0B7EB44
- S. Abiteboul, P. Buneman, D. Suciu, Data on the web: from relations to semistructured data and XML, Morgan Kauffmann, 1999.
Σύνδεσμοι - Βιβλιογραφία:
- Link σε σελίδα για συμπίεση κειμένου και δεικτών
- Σύνδεσμοι για αλγορίθμους σε Data Streaming
- Σύνδεσμοι για αλγορίθμους ταιριάσματος προτύπου
- Συλλογή συνδέσμων πάνω στην Ανάκτηση Πληροφορίας
- Το Special Interest Group για Ανάκτηση Πληροφορίας (SIGIR) της ACM
- Το βιβλίο "Information Retrieval", C.J. van Rijsbergen, 2nd Ed., Butterworths, 1979, διαθέσιμο οn-line
Πηγές για το Latent Semantic Indexing (LSI)
- Σύνδεσμοι σχετικά με το LSI και word embeddings
- Πιθανοτική ανάλυση του LSI
- Εφαρμογή του LSI για ανάκτηση εικόνων
- Spectral Analysis of Data, που παρουσιάστηκε στο STOC01
Ανάκτηση Πληροφορίας στο Διαδίκτυo
Ιστοσελίδες ερευνητών στην Ανάκτηση Πληροφορίας