Συστήματα Λογισμικού για διαχείριση και ανάλυση μεγάλου όγκου δεδομένων (MTE-2A4)
Σπύρος Σιούτας
Στόχος του μαθήματος είναι να εισάγει τους φοιτητές σε θέματα κατανεμημένων συστημάτων υπολογισμού και αποκεντρωμένων υποδομών με σκοπό την αποδοτική διαχείριση και ανάλυση μεγάλου όγκου δεδομένων. Συγκεκριμένα, το μάθημα εστιάζει στα παρακάτω:
- P2P υποδομές για διαχείριση δεδομένων μεγάλης κλίμακας
- DHT υποδομές για διαχείριση δεδομένων μεγάλης κλίμακας. Η μελέτη περίπτωσης του Chord
- DHT υποδομές για διαχείριση δεδομένων μεγάλης κλίμακας. Η μελέτη περίπτωσης του Pastry
- Internet Caching Πρωτόκολλα και Bloom Φίλτρα. Locality Sensitive Hashing (LSH)
- Πολυδιάστατα Δεδομένα και Μετρικές Ομοιότητας
- DataMining αλγόριθμοι για classification
- DataMining αλγόριθμοι για clustering
- Κατανεμημένα Συστήματα Διαχείρισης Αρχείων (HDFS / GFS)
- Map / Reduce Παράλληλος και Κατανεμημένος Προγραμματισμός για αποδοτική διαχείριση και ανάλυση δεδομένων μεγάλης κλίμακας
- NoSQL Βάσεις Δεδομένων
11. Εισαγωγή στο εργαλείο λογισμικού Apache Spark
ΠΕΡΙΕΧΟΜΕΝΟ ΜΑΘΗΜΑΤΟΣ
Εβδομάδα #1: Introduction to Advanced Distributed Systems
Εβδομάδα #2: P2P Systems
Εβδομάδα #3: DHT-based Decentralized Systems
Εβδομάδα #4: DHT-based Decentralized Systems (Cont.)
Εβδομάδα #5 Internet Caching Protocols and Bloom Filters - Locality Sensitive Hashing (LSH)
Εβδομάδα #6: Multidimensional Big Data and Similarity Query Processing
Εβδομάδα #7: Data Mining Algorithms (Classification)
Εβδομάδα #8: : Data Mining Algorithms (Clustering)
Εβδομάδα #9: HDFS (Hadoop Distributed File Systems)
Εβδομάδα #10: Map / Reduce and NoSQL Databases
Εβδομάδα #11: Map / Reduce and NoSQL Databases (Cont.)
Εβδομάδα #12: Apache Spark
Εβδομάδα #13: Apache Spark (Cont.)
ΑΞΙΟΛΟΓΗΣΗ ΦΟΙΤΗΤΩΝ
Αναθέσεις (100%):
- Παρουσίαση Γραπτής Εργασίας (50%)
- Παρουσίαση Εργαστηριακής Εργασίας (50%)
Στόχος του μαθήματος είναι να εισάγει τους φοιτητές σε θέματα κατανεμημένων συστημάτων υπολογισμού και αποκεντρωμένων υποδομών με σκοπό την αποδοτική διαχείριση και ανάλυση μεγάλου όγκου δεδομένων. Συγκεκριμένα, το μάθημα εστιάζει στα παρακάτω:
- P2P υποδομές για διαχείριση δεδομένων μεγάλης κλίμακας
- DHT υποδομές για διαχείριση δεδομένων μεγάλης κλίμακας. Η μελέτη περίπτωσης του Chord
- DHT υποδομές για διαχείριση δεδομένων μεγάλης κλίμακας. Η μελέτη περίπτωσης του Pastry
- Internet Caching Πρωτόκολλα και Bloom Φίλτρα. Locality Sensitive Hashing (LSH)
- Πολυδιάστατα Δεδομένα και Μετρικές Ομοιότητας
- DataMining αλγόριθμοι για classification
- DataMining αλγόριθμοι για clustering
- Κατανεμημένα Συστήματα Διαχείρισης Αρχείων (HDFS / GFS)
- Map / Reduce Παράλληλος και Κατανεμημένος Προγραμματισμός για αποδοτική διαχείριση και ανάλυση δεδομένων μεγάλης κλίμακας
- NoSQL Βάσεις Δεδομένων
11. Εισαγωγή στο εργαλείο λογισμικού Apache Spark
ΠΕΡΙΕΧΟΜΕΝΟ ΜΑΘΗΜΑΤΟΣ
Εβδομάδα #1: Introduction to Advanced Distribu
Στόχος του μαθήματος είναι να εισάγει τους φοιτητές σε θέματα κατανεμημένων συστημάτων υπολογισμού και αποκεντρωμένων υποδομών με σκοπό την αποδοτική διαχείριση και ανάλυση μεγάλου όγκου δεδομένων. Συγκεκριμένα, το μάθημα εστιάζει στα παρακάτω:
- P2P υποδομές για διαχείριση δεδομένων μεγάλης κλίμακας
- DHT υποδομές για διαχείριση δεδομένων μεγάλης κλίμακας. Η μελέτη περίπτωσης του Chord
- DHT υποδομές για διαχείριση δεδομένων μεγάλης κλίμακας. Η μελέτη περίπτωσης του Pastry
- Internet Caching Πρωτόκολλα και Bloom Φίλτρα. Locality Sensitive Hashing (LSH)
- Πολυδιάστατα Δεδομένα και Μετρικές Ομοιότητας
- DataMining αλγόριθμοι για classification
- DataMining αλγόριθμοι για clustering
- Κατανεμημένα Συστήματα Διαχείρισης Αρχείων (HDFS / GFS)
- Map / Reduce Παράλληλος και Κατανεμημένος Προγραμματισμός για αποδοτική διαχείριση και ανάλυση δεδομένων μεγάλης κλίμακας
- NoSQL Βάσεις Δεδομένων
11. Εισαγωγή στο εργαλείο λογισμικού Apache Spark
ΠΕΡΙΕΧΟΜΕΝΟ ΜΑΘΗΜΑΤΟΣ
Εβδομάδα #1: Introduction to Advanced Distribu