Βig Data Analytics / Ανάλυση και Διαχείριση Χωροχρονικών Δεδομένων / Ανάλυση και Διαχείριση Μεγάλων και Πολυδιάστατων Δεδομένων / Εξόρυξη Δεδομένων Μεγάλης Κλίμακας / ΑΙ in Health / Ειδικά Θέματα Βάσεων Χωρικών και Χρονικών Δεδομένων και Εξόρυξης Γνώ
Βασίλειος Μεγαλοοικονόμου
Εισαγωγή
Η εξέλιξη της τεχνολογίας έχει συμβάλλει σημαντικά στη συσσώρευση τεράστιων όγκων δεδομένων. Αντικείμενο του μαθήματος είναι η μελέτη τεχνικών διαχείρισης, και ανάλυσης μεγάλων Βάσεων Δεδομένων οι οποίες έχουν χωρικές και χρονικές συνιστώσες. Στόχος της ανάλυσης των δεδομένων αυτών είναι η κατανόηση προτύπων, η εύρεση ομοιοτήτων, ο προσδιορισμός συσχετίσεων, ομαλοτήτων, και ανωμαλιών. Οι τεχνικές διαχείρισης είναι απαραίτητες για την αποδοτική επεξεργασία και αποθήκευση των δεδομένων. Τέτοιου είδους δεδομένα συγκεντρώνονται καθημερινά από οργανισμούς, ερευνητικά κέντρα, νοσοκομεία, επιχειρήσεις, κ.λ.π.. Λόγω της φύσης αυτών των δεδομένων οι εφαρμογές ποικίλουν, όπως για παράδειγμα διάγνωση στον τομέα της ιατρικής, πρόβλεψη και στήριξη λήψης αποφάσεων στον επιχειρησιακό/χρηματιστηριακό τομέα, κ.λ.π.. Το μάθημα μεταξύ άλλων εξετάζει και εφαρμογές αυτών των τεχνικών σε Βάσεις Βιοϊατρικών Δεδομένων.
Θέματα
Προεπεξεργασία δεδομένων, data cleansing
Εξαγωγή χαρακτηριστικών, επιλογή χαρακτηριστικών, μείωση διαστατικότητας (Singular value decomposition)
Εισαγωγή σε βασικές μεθόδους επεξεργασίας σημάτων (DFT, wavelets)
Μέθοδοι συμπίεσης δεδομένων (scalar and vector quantization, lossless and lossy compression)
Εξόρυξη γνώσης από Βάσεις Χωρικών και Χρονικών Δεδομένων
Τεχνικές Ομαδοποίησης, Ταξινόμησης και Πρόβλεψης (clustering, classification, prediction), δέντρα απόφασης
Ανακάλυψη συσχετίσεων - Bayesian Networks
Ευρετήρια Χωρικών δεδομένων (Spatial Access Methods - k-d trees, quadtrees, z-ordering, space filing curves, R-trees)
Ευρετήρια πολυμέσων γενικής χρήσης, GEMINI approach
Βάσεις χωρικών και χρονικών δεδομένων
Τεχνικές searching by content σε Βάσεις Πολυμέσων ? χρονοσειρές, εικόνες, video
Fractals σε Βάσεις Δεδομένων, self-similarity δεδομένων, fractal dimension
Εφαρμογές σε Βάσεις Βιοϊατρικών Δεδομένων
Διαχείριση και Ανάλυση Ροών Δεδομένων
--
The evolution of technology has contributed significantly to the accumulation of huge volumes of data. The course aims to study techniques of management, and analysis of large databases that have, among others, spatial and temporal components. The purpose of analyzing this data is to understand patterns, find similarities, identify correlations, normalities, and anomalies. Management techniques are essential for efficient data processing and storage. This kind of data is collected daily by organizations, research centers, hospitals, businesses, etc.Due to the nature of this data, applications vary, such as diagnostics in medicine, business / stock forecasting and decision support, etc. The course examines, among other things, the applications of these techniques to biomedical databases.
Topics:
Data preprocessing, data cleansing, feature extraction, feature selection; Singular Value Decomposition; introduction to basic signal processing methods (DFT, wavelets), data compression (scalar and vector quantization, lossless and lossy compression); extraction of knowledge from spatial and temporal databases; clustering, classification, prediction, decision trees, association mining, Bayesian networks; spatial access methods (k-d trees, quadtrees, z-ordering, space filing curves, R-trees); general purpose multimedia indexing, GEMINI; spatial and temporal databases; techniques for searching by content in multimedia databases (time series, images, videos); fractals in databases; self-similarity of data; fractal dimension; applications in biomedical databases; data stream management and analysis.
Βιβλιογραφία:
-Βιβλία
- Silberschatz, H.F. Korth, and S. Sudarshan, Database System Concepts, 2021, 7th edition, (translated in Greek language).
- Tom White, Hadoop: The Definitive Guide: Storage and Analysis at Internet Scale, 4th Edition, 2015, O’Reilly.
- Bill Chambers and Matei Zaharia, Spark: The Definitive Guide: Big Data Processing Made Simple, 2018, O’Reilly.
- Mohammed J. Zaki and Wagner Meira, Jr, Data Mining and Machine Learning: Fundamental Concepts and Algorithms, Second Edition, Cambridge University Press, March 2020.
- J. Han and M. Kamber, Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers, Third Edition, 2012.
- Margaret H Dunham, Data Mining: Introductory And Advanced Topics, Pearson Education, 2006.
- R. Ramakrishnan, J. Gehrke, Database Management Systems, McGraw-Hill, 2002.
- S. Jajodia, Multimedia Database Systems, Springer-Verlag, 2000.
- C. Faloutsos, Searching Multimedia Databases by Content, Kluwer Academic Press, 1996.
- T. Mitchell, Machine Learning, McGraw Hill, 1997.
- V.S. Subrahmanian, Principles of Multimedia Database Systems, Morgan Kaufmann Publishers, 1998.
- Επιλεγμένες δημοσιεύσεις και σημειώσεις σχετικές με τα θέματα
ΛιγότεραΕισαγωγή
Η εξέλιξη της τεχνολογίας έχει συμβάλλει σημαντικά στη συσσώρευση τεράστιων όγκων δεδομένων. Αντικείμενο του μαθήματος είναι η μελέτη τεχνικών διαχείρισης, και ανάλυσης μεγάλων Βάσεων Δεδομένων οι οποίες έχουν χωρικές και χρονικές συνιστώσες. Στόχος της ανάλυσης των δεδομένων αυτών είναι η κατανόηση προτύπων, η εύρεση ομοιοτήτων, ο προσδιορισμός συσχετίσεων, ομαλοτήτων, και ανωμαλιών. Οι τεχνικές διαχείρισης είναι απαραίτητες για την αποδοτική επεξεργασία και αποθήκευση των δεδομένων. Τέτοιου είδους δεδομένα συγκεντρώνονται καθημερινά από οργανισμούς, ερευνητικά κέντρα, νοσοκομεία, επιχειρήσεις, κ.λ.π.. Λόγω της φύσης αυτών των δεδομένων οι εφαρμογές ποικίλουν, όπως για παράδειγμα διάγνωση στον τομέα της ιατρικής, πρόβλεψη και στήριξη λήψης αποφάσεων στον επιχειρησιακό/χρηματιστηριακό τομέα, κ.λ.π.. Το μάθημα μεταξύ άλλων εξετάζει και εφαρμογές αυτών των τεχνικών σε Βάσεις Βιοϊατρικών Δεδομένων.
Θέματα
Προεπεξεργασία δεδομένων, data cleansing
Εξαγωγή χαρακτηριστικών, επ
Εισαγωγή
Η εξέλιξη της τεχνολογίας έχει συμβάλλει σημαντικά στη συσσώρευση τεράστιων όγκων δεδομένων. Αντικείμενο του μαθήματος είναι η μελέτη τεχνικών διαχείρισης, και ανάλυσης μεγάλων Βάσεων Δεδομένων οι οποίες έχουν χωρικές και χρονικές συνιστώσες. Στόχος της ανάλυσης των δεδομένων αυτών είναι η κατανόηση προτύπων, η εύρεση ομοιοτήτων, ο προσδιορισμός συσχετίσεων, ομαλοτήτων, και ανωμαλιών. Οι τεχνικές διαχείρισης είναι απαραίτητες για την αποδοτική επεξεργασία και αποθήκευση των δεδομένων. Τέτοιου είδους δεδομένα συγκεντρώνονται καθημερινά από οργανισμούς, ερευνητικά κέντρα, νοσοκομεία, επιχειρήσεις, κ.λ.π.. Λόγω της φύσης αυτών των δεδομένων οι εφαρμογές ποικίλουν, όπως για παράδειγμα διάγνωση στον τομέα της ιατρικής, πρόβλεψη και στήριξη λήψης αποφάσεων στον επιχειρησιακό/χρηματιστηριακό τομέα, κ.λ.π.. Το μάθημα μεταξύ άλλων εξετάζει και εφαρμογές αυτών των τεχνικών σε Βάσεις Βιοϊατρικών Δεδομένων.
Θέματα
Προεπεξεργασία δεδομένων, data cleansing
Εξαγωγή χαρακτηριστικών, επ