ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ ΙΙ

 

7.2     ΕΠΙΣΚΟΠΗΣΗ ΤΗΣ ΣΧΕΤΙΚΗΣ ΒΙΒΛΙΟΓΡΑΦΙΑΣ

 

Σ’ αυτή την ενότητα εστιάζουμε την προσοχή μας στη δουλειά που έχει γίνει μέχρι τώρα για τις τεχνικές βελτιστοποίησης μεγέθους νευρωνικού δικτύου που αναφέρθηκαν παραπάνω. Κατ’ αρχήν, παρουσιάζουμε δύο μεθόδους για επέκταση νευρωνικού δικτύου και κατόπιν τις υπάρχουσες μεθόδους για περιορισμό νευρωνικού δικτύου. Μερικές από αυτές τις μεθόδους καθώς επίσης και μια σαφής διατύπωση του προβλήματος παρουσιάζονται σύντομα στο [72]. Κατόπιν εισάγονται οι καινούριες μας προσαρμοστικές και αυτο-οργανωτικές μέθοδοι. Τέλος, εισάγουμε τη χρήση των εξελικτικών μεθόδων για τη βελτιστοποίηση του μεγέθους ενός δικτύου.

 

Η αρχιτεκτονική μάθησης κλιμακωτού συσχετισμού (cascade correlation) [73] είναι ένα παράδειγμα της προσέγγισης επέκτασης δικτύου. Η διαδικασία ξεκινά με ένα ελάχιστο δίκτυο που έχει μερικές εισόδους και έναν ή περισσότερους κόμβους εξόδου όπως δηλώνεται από θεωρήσεις εισόδου/εξόδου, αλλά όχι κρυμμένους κόμβους. Ο αλγόριθμος LMS, για παράδειγμα, μπορεί να χρησιμοποιηθεί για να εκπαιδεύσει το δίκτυο. Οι κρυμμένοι νευρώνες προστίθενται στο δίκτυο ένας-ένας, πετυχαίνοντας έτσι μια δομή πολλαπλών επιπέδων. Κάθε νέος κρυμμένος νευρώνας λαμβάνει μια συναπτική σύνδεση από καθένα από τους κόμβους εισόδου καθώς επίσης και από καθέναν από τους προϋπάρχοντες  κρυμμένους νευρώνες. Όταν ένας νέος κρυφός νευρώνας προστίθεται, τα συναπτικά βάρη στην πλευρά εισόδου αυτού του νευρώνα παγώνουν˙ μόνο τα συναπτικά βάρη της πλευράς εξόδου εκπαιδεύονται κατ’ επανάληψη. Τότε ο κρυμμένος νευρώνας που προστέθηκε γίνεται ένας μόνιμος ανιχνευτής χαρακτηριστικών στο δίκτυο. Η διαδικασία πρόσθεσης νέων κρυμμένων νευρώνων συνεχίζεται με τον τρόπο που περιγράφεται εδώ μέχρι να  επιτευχθεί ικανοποιητική απόδοση.

 

Ακόμη σε μια άλλη προσέγγιση επέκτασης δικτύου που περιγράφεται στο [74], ένα τρίτο επίπεδο υπολογισμού που ονομάζεται προσαρμογή σε επίπεδο δομής (structure level adaptation) προστίθεται στο προς τα μπρος πέρασμα (προσαρμογή σε επίπεδο λειτουργίας) και στο προς τα πίσω πέρασμα (προσαρμογή σε επίπεδο παραμέτρων). Σ’ αυτό το τρίτο επίπεδο υπολογισμού η δομή του δικτύου προσαρμόζεται αλλάζοντας τον αριθμό των νευρώνων και τη δομική σχέση μεταξύ των νευρώνων στο δίκτυο. Το κριτήριο που χρησιμοποιείται εδώ είναι ότι όταν ένα λάθος υπολογισμού (μετά τη σύγκλιση) είναι μεγαλύτερο από μια επιθυμητή τιμή, ένας νέος νευρώνας προστίθεται στο δίκτυο στη θέση που χρειάζεται περισσότερο. Η επιθυμητή θέση για το νέο νευρώνα καθορίζεται από τη μελέτη της συμπεριφοράς μάθησης του δικτύου. Συγκεκριμένα, αν μετά από μια μακρά περίοδο προσαρμογής παραμέτρων (εκπαίδευση), το διάνυσμα  συναπτικών βαρών που αφορά τις εισόδους ενός νευρώνα συνεχίζει να αυξομειώνεται σημαντικά, μπορούμε να συμπεράνουμε ότι ο συγκεκριμένος νευρώνας δεν έχει αρκετή δύναμη αναπαράστασης για να μάθει το κατάλληλη συμβολή του στο έργο. Η προσαρμογή σε επίπεδο δομής περιλαμβάνει επίσης μια πρόβλεψη για πιθανή καταστροφή των νευρώνων. Πιο ειδικά, ένας νευρώνας καταστρέφεται όταν δεν είναι ένα λειτουργικό στοιχείο του δικτύου ή είναι πλεονάζων στοιχείο στο δίκτυο. Αυτή η μέθοδος επέκτασης δικτύου παρουσιάζει μεγάλη υπολογιστική πολυπλοκότητα.

 

Μια πρώτη προσπάθεια για την επίλυση του προβλήματος του περιορισμού ενός νευρωνικού δικτύου έγινε από τους J. Sietsma και R.J. Dow [75]. Αυτή η εργασία δεν δίνει μια ολοκληρωμένη απάντηση στο πρόβλημα καθώς το μέγεθος του αρχικού δικτύου ακόμη βασίζεται στη μαντική μας ικανότητα αλλά δίνει μια πολύ χρήσιμη μερική απάντηση και ρίχνει λίγο φως στις λειτουργίες ενός νευρωνικού δικτύου σε λειτουργία. Τώρα θα περιγράψουμε μια προσέγγιση που βρίσκει το μικρότερο δίκτυο που θα εκτελέσει ένα συγκεκριμένο έργο και βασίζεται στον περιορισμό ενός επιλυμένου (solution) δικτύου. Όταν το αρχικό δίκτυο έχει κινηθεί προς μια επίλυση, οι έξοδοι των κρυμμένων μονάδων αναλύονται για να καθοριστεί αν υπάρχουν μονάδες που δεν συνεισφέρουν στην επίλυση. Αν η έξοδος μιας μονάδας δεν αλλάζει για οποιοδήποτε δείγμα εισόδου, αυτή η μονάδα εισόδου δεν συνεισφέρει στην λύση. Αν οι έξοδοι οποιονδήποτε δύο μονάδων είναι οι ίδιες ή αντίθετες για όλα τα δείγματα η μια μονάδα είναι αντίγραφο της άλλης και μια από τις δυο μπορεί να αφαιρεθεί. Με τη μετακίνηση μιας τέτοιας μονάδας δεν χάνεται καμία πληροφορία προς το επόμενο επίπεδο. Αυτή η διαδικασία επαναλαμβάνεται για τις εξόδους κάθε επιπέδου, μέχρι να επιτευχθεί το ελάχιστο μέγεθος δικτύου. Για την καλύτερη δυνατή απόδοση ένα δίκτυο πρέπει πρώτα να εκπαιδευτεί με θορυβώδη σήματα και έπειτα να αποκοπούν οι επαναλαμβανόμενες μονάδες.

 

Στο [72], παρουσιάζονται δύο πιο εξελιγμένες προσεγγίσεις για τον περιορισμό δικτύου. Στην πρώτη προσέγγιση η γενίκευση βελτιώνεται με κανονικοποίηση της πολυπλοκότητας. Αυτή η προσέγγιση εξηγείται από τις διαδικασίες εξασθένισης των βαρών ( weight decay ) και αποβολής των βαρών ( weight elimination ) [76]. Στη δεύτερη προσέγγιση, τα συναπτικά βάρη αφαιρούνται από το δίκτυο με βάση τις προεξοχές τους (saliencies), ο υπολογισμός των οποίων γίνεται με τη  χρήση του Hessian πίνακα της επιφάνειας λάθους. Η τελευταία προσέγγιση εξηγείται από τις ονομαζόμενες διαδικασίες βέλτιστης φθοράς εγκεφάλου ( optimal brain damage ) [77] και χειρούργου εγκεφάλου ( brain surgeon ) [78]. Και οι δύο από τις παραπάνω μεθόδους υπονοούν ότι εκτός από την περίπτωση που έχουμε εκ των προτέρων κάποια πληροφορία, η διαδικασία σχεδίασης πρέπει να περιλαμβάνει ένα κριτήριο για την επιλογή της πολυπλοκότητας του μοντέλου (δηλαδή τον αριθμό των ανεξάρτητα προσαρμοσμένων παραμέτρων στο δίκτυο). Διάφορα κριτήρια για επιλογή (τάξης) πολυπλοκότητας του μοντέλου περιγράφονται στη σχετική βιβλιογραφία για στατιστική και επεξεργασία σημάτων˙ σημαντικά παραδείγματα αυτών συμπεριλαμβάνουν το κριτήριο ελάχιστης περιγραφής μήκους (Minimum Description Length, MDL) [79], ένα πληροφοριακό-θεωρητικό κριτήριο (Information-Theoritic Criterion, AIC) [80] και τον προσαρμοστικό συναγωνισμό πολλαπλών μοντέλων (Adaptive Multi-Model Competition, AMMC) ή την προσαρμοστική μέθοδο μέγιστης εκ των υστέρων πιθανότητας (Adaptive Maximum a-posteriori Probability, AMAP) [81]. Παρόλο που τα κριτήρια αυτά διαφέρουν το ένα από το άλλο στις ακριβείς λεπτομέρειες, μοιράζονται έναν κοινό τύπο σύνθεσης, όπως περιγράφεται εδώ:

(Κριτήριο πολυπλοκότητας μοντέλου) = (συνάρτηση log-πιθανότητας)+(κύρωση για πολυπλοκότητα  μοντέλου)

 

Η βασική διαφορά ανάμεσα στα διάφορα κριτήρια βρίσκεται στον ορισμό του τύπου της κύρωσης για την πολυπλοκότητα του μοντέλου. Όσον αφορά τη διευθυνόμενη διαδικασία μάθησης,  ο στόχος της μάθησης είναι να βρούμε ένα διάνυσμα βαρών που ελαχιστοποιεί το συνολικό ρίσκο [72]:

 

           R(w) = Es(w) + λ Ec(w)

 

Ο πρώτος όρος είναι το κλασσικό μέτρο απόδοσης, το οποίο εξαρτάται τόσο από το δίκτυο (μοντέλο) όσο και από τα δεδομένα εισόδου. Ο δεύτερος όρος είναι η κύρωση για πολυπλοκότητα, που εξαρτάται μόνο από το δίκτυο (μοντέλο)˙ ο υπολογισμός του εκτείνεται σε όλες τις συναπτικές συνδέσεις στο δίκτυο. Για περισσότερες πληροφορίες βλέπε αναφορά [72]. Πρόσφατα, παρουσιάστηκε μια νέα μέθοδος για μοντελοποίηση μη στατικών διεργασιών με  χρήση radial basis function (RBF) δικτύων. Εκπαιδευόμενα με το Extended Kalman φίλτρο (EKF), αποδεικνύουν ότι η δυναμική διαδικασία αύξησης τάξης του μοντέλου του RBF δικτύου στο οποίο έχουν κατανεμηθεί οι πόροι (RAN) είναι εξαιρετικά ευαίσθητη στις παραμέτρους του νέου κριτηρίου. Επίσης ερευνούν τη χρήση του θορύβου του συστήματος για την αύξηση της πλαστικότητας (plasticity) του αλγορίθμου εκπαίδευσης που βασίζεται στο Kalman φίλτρο, και συζητούν τις συνέπειες για την on-line επιλογή τάξης μοντέλου.

 

Οι γενετικοί αλγόριθμοι είναι μια τάξη διαδικασιών βελτιστοποίησης που είναι καλές στην διερεύνηση ενός μεγάλου και πολύπλοκου χώρου με ένα έξυπνο τρόπο για να βρούμε τιμές κοντά στο καθολικά βέλτιστο. Γι’ αυτό, ταιριάζουν καλά στο πρόβλημα εκπαίδευσης τροφοδοτούμενων προς τα εμπρός (feedforward) δικτύων. Στο τέλος της προηγούμενης δεκαετίας , είχαν γίνει προσπάθειες να συνδυαστεί η τεχνολογία των νευρωνικών δικτύων με αυτή των γενετικών αλγορίθμων. Ο David [84] έδειξε πως κάθε νευρωνικό δίκτυο μπορεί να ξαναγραφτεί ως ένας τύπος ενός γενετικού αλγορίθμου. O Whitley [85] προσπάθησε ανεπιτυχώς να εκπαιδεύσει τροφοδοτούμενα προς τα εμπρός (feedforward) νευρωνικά δίκτυα με χρήση γενετικών αλγορίθμων. Οι Montana και Davis [86] παρουσίασαν έναν νέο αλγόριθμο για εκπαίδευση τροφοδοτούμενων προς τα εμπρός (feedforward) δικτύων. Ο βασικός αλγόριθμος εκπαίδευσης, εκτός από το ότι επιτυγχάνει στο έργο του πραγματοποιεί (outperforms) προς τα πίσω διάδοση (backpropagation) σε ένα δύσκολο παράδειγμα. Αυτή η επιτυχία προέρχεται από το ακριβές ταίριασμα του γενετικού αλγορίθμου στο πεδίο εκπαίδευσης των νευρωνικών δικτύων. Ένας κλασσικός γενετικός αλγόριθμος λειτουργεί καλά σε προβλήματα βελτιστοποίησης μικρών νευρωνικών δικτύων, αλλά τυπικά, αποτυγχάνει σε προβλήματα με μεγαλύτερες κωδικοποιήσεις (encodings). Οι Whitley και Hanson [87] έχουν επιτυχώς βελτιστοποιήσει μια τάξη νευρωνικών δικτύων χρησιμοποιώντας έναν διαφορετικό γενετικό αλγόριθμο που χρησιμοποιεί μια κάθε φορά αναπαραγωγή και κατανέμει αναπαραγωγικές ικανότητες σύμφωνα με την τάξη για να πετύχει την επιθυμητή ένταση (pressure) επιλογής. Σχετιζόμενο με αυτή τη δουλειά έχουν αναπτύξει έναν προσαρμοζόμενο τελεστή μεταλλαγής ( adaptive mutation operator), ο οποίος όταν χρησιμοποιείται μαζί με αυξημένη επιλεκτική ένταση  ( selective pressure), βοηθά στη διατήρηση της γενετικής ποικιλίας (diversity) και έτσι μπορεί να μειώσει σημαντικά το χρόνο ψαξίματος ενώ επίσης αποδίδει πιο σωστή βελτιστοποίηση. Οι παραπάνω αλγόριθμοι αντιμετωπίζουν μόνο το πρόβλημα της εκπαίδευσης δικτύου, δηλαδή τη βελτιστοποίηση των βαρών και δεν ασχολούνται με το πρόβλημα του μεγέθους του δικτύου.

 

Μία γενική προσέγγιση στο πρόβλημα της βελτιστοποίησης του μεγέθους ενός δικτύου είναι να ορίσουμε ένα δίκτυο που είναι μεγάλο ή μεγαλύτερο απ’ ότι είναι αναγκαίο για να κάνει τη δουλειά, και ύστερα να χρησιμοποιήσουμε ένα γενετικό αλγόριθμο για να ορίσουμε ποιοι  συνδυασμοί συνδέσεων είναι ικανοί να μάθουν γρήγορα και με ακρίβεια να εκτελούν ένα έργο χρησιμοποιώντας προς τα πίσω διάδοση (backpropagation). Ο Miller και άλλοι [88]  το έκανε αυτό για μερικά μικρά δίκτυα. Το ίδιο πρόβλημα για μεγαλύτερα δίκτυα αντιμετωπίζεται από τους Whitley και Bogard [89]. Σ’ αυτή την εργασία πειράματα με μεγαλύτερα προβλήματα εμφάνισαν δυο δυσκολίες μ’ αυτή τη νέα προσέγγιση. Πρώτον, δεν υπάρχει ρητός μηχανισμός για επιβράβευση δικτύων που χρησιμοποιούν λιγότερες συνδέσεις. Αυτό δεν είναι ένα τετριμμένο πρόβλημα, καθώς επιβραβεύοντας ή τιμωρώντας ένα δίκτυο με βάση τον αριθμό των συνδέσεων που χρησιμοποιούνται μπορεί να δοθεί ένα επιλεκτικό πλεονέκτημα σε δίκτυα που δεν είναι ικανά να μάθουν˙ στην ακραία περίπτωση, ένα δίκτυο πιθανόν να προσπαθούσε να κερδίσει επιβράβευση ή να αποφύγει κυρώσεις αποκόπτοντας ( pruning) όλες τις συνδέσεις του. Αυτή η εργασία ορίζει έναν τρόπο για ανταμοιβή δικτύων που χρησιμοποιούν λιγότερες συνδέσεις ενώ ταυτόχρονα επιλέγει δίκτυα που μαθαίνουν γρήγορα και με ακρίβεια. Επίσης συζητούνται τρόποι επέκτασης του συστήματος επιβράβευσης. Δεύτερον, σε μεγαλύτερα δίκτυα, ο χρόνος που απαιτείται για να βρεθεί ένα δίκτυο που μαθαίνει γρήγορα και με ακρίβεια είναι αρκετά σημαντικός, καθώς περιλαμβάνει την αποτίμηση ενός πληθυσμού (population) από strings, όπου κάθε αποτίμηση περιλαμβάνει το τρέξιμο προς τα πίσω διάδοσης σε ένα ξεχωριστό (single) δίκτυο. Ένας τρόπος για να αποφευχθεί αυτό είναι η εκπαίδευση του δικτύου πριν τον περιορισμό (pruning). Τα πραγματικά αποτελέσματα αυτής της δουλειάς είναι τα ακόλουθα: 1) Αυτή η προσέγγιση βρίσκει πολύ μικρότερα δίκτυα που μπορούν να μάθουν το έργο (task). 2) Η αποκοπή (pruning) έχει μια επίδραση στη γενίκευση και στην ανοχή του θορύβου. 3) Αφού η αποκοπή εισάγει λάθος, υπάρχει επιλεκτική ένταση ( selective pressure) για δίκτυα που ξαναμαθαίνουν γρήγορα.

 

Μια πιο γενική μέθοδος εισάγεται στο [90]. Η γενική ιδέα οδηγεί με φυσικό τρόπο σε ένα μοντέλο για την επεξήγηση της κληρονομημένης συμπεριφοράς. Ρητά, μελετάται ένα απλοποιημένο μοντέλο για έναν εγκέφαλο με αισθητήριους και κινητήριους νευρώνες. Χρησιμοποιείται ένα γενικό ασυμμετρικό  δίκτυο του οποίου η δομή καθορίζεται αποκλειστικά από μια εξελικτική διεργασία. Πιο συγκεκριμένα, η δομή του νευρωνικού δικτύου αποφασίζεται από τον αλγόριθμο και εκτός των παραμέτρων του γενετικού αλγορίθμου, κανένας καθολικός κανόνας μάθησης δεν πρέπει να καθοριστεί για ένα δοσμένο πρόβλημα. Η προτεινόμενη διεργασία μεταλλαγής στον αλγόριθμο έχει ως εξής. Με μία συγκεκριμένη πιθανότητα, ένας δοσμένος αριθμός nr νευρώνων απομακρύνονται εντελώς από τον εγκέφαλο και προστίθεται ένας δοσμένος αριθμός na νευρώνων με αριθμούς σύναψης S1,… , Sna με τυχαία επιλεγμένες συνδέσεις (couplings) στο δίκτυο. Σ’ αυτή τη διαδικασία, οι εγκέφαλοι μεγαλώνουν σταθερά μέχρι να φτάσουν ένα μέσο μέγεθος εγκεφάλου που αποφασίζεται κυρίως από παραμέτρους μετάλλαξης, όπως ο αριθμός των συνάψεων, αλλά επίσης από την ταχύτητα της απόδοσης, καθώς μεγαλύτερα δίκτυα γίνονται υπερβολικά αργά και αφαιρούνται στο στάδιο της επιλογής. Γενικά οι εγκέφαλοι που παίρνουμε σαν αποτέλεσμα είναι αμβλυμμένοι (diluted).

 

Μια πιο πρόσφατη προσέγγιση παρουσιάζεται στο [91]. Σ’ αυτή την προσέγγιση η μάθηση παρέχει (imparts) μια πιο εκλεπτυσμένη δομή σ’ ένα νευρωνικό δίκτυο που σχηματίστηκε χονδρικά από ένα γενετικό αλγόριθμο. Οι γενετικοί αλγόριθμοι χρησιμοποιούνται για να μετακινήσουν το ψάξιμο σε μια κατάλληλη περιοχή στο χώρο λύσεων. Ύστερα η μάθηση εκτελεί ένα πιο τοπικό ψάξιμο για να πετύχει τη βέλτιστη απόδοση. Μια πολλά υποσχόμενη προσέγγιση για την επίλυση πολύπλοκων προβλημάτων με μάθηση νευρωνικών δικτύων είναι να έχουμε ένα γενετικό αλγόριθμο που να ορίζει μια τμηματική (modular) αρχική αρχιτεκτονική. Τέλος, στην αναφορά [92] παρουσιάζεται μια radial basis function (RBF) διαμόρφωση δικτύου, που χρησιμοποιεί γενετικούς αλγορίθμους. Οι περισσότεροι αλγόριθμοι εκπαίδευσης για RBF νευρωνικά δίκτυα ξεκινούν με μια προκαθορισμένη δομή δικτύου που επιλέγεται  είτε χρησιμοποιώντας εκ των προτέρων γνώση, είτε είναι βασισμένη σε προηγούμενη εμπειρία. Το δίκτυο που προκύπτει είναι συχνά ανεπαρκές ή χωρίς λόγο  περίπλοκο και μια κατάλληλη δομή δικτύου μπορεί να βρεθεί μέσο δοκιμών. Οι αλγόριθμοι εκπαίδευσης που ενσωματώνουν μηχανισμούς επιλογής δομής βασίζονται συνήθως σε μεθόδους τοπικού ψαξίματος και συχνά υποφέρουν από  υψηλή πιθανότητα να παγιδευτούν σε ένα δομικό τοπικό minima. Στην αναφερόμενη δουλειά, προτείνονται γενετικοί αλγόριθμοι για να διαμορφώσουν αυτόματα  RBF δίκτυα. Η διαμόρφωση του δικτύου σχηματίζεται σαν ένα υποσύνολο πρόβλημα επιλογής. Το θέμα είναι να βρεθεί ένα βέλτιστο υποσύνολο από nc όρους από τα Nt δείγματα δεδομένων εκπαίδευσης. Κάθε δίκτυο κωδικοποιείται ως ένα μεταβλητού μήκους string με διακριτούς ακέραιους και γενετικοί τελεστές προτείνονται να παράγουν (evolve) έναν πληθυσμό (population) από ατομικά δίκτυα (individuals). Κριτήρια, συμπεριλαμβανομένων ενός στόχου (single objective) και πολλαπλών στόχων (multi objective) συναρτήσεις προτείνονται για να αποτιμήσουν την καταλληλότητα (fitness) των ατομικών δικτύων. Για να υπάρξει ένας συμβιβασμός μεταξύ απόδοσης δικτύου και πολυπλοκότητας δικτύου το κριτήριο Πληροφορίας του Akaike χρησιμοποιείται,ως αντικειμενική συνάρτηση. Το δίκτυο που προκύπτει, μέσο της παραπάνω διαδικασίας, έχει πολυπλοκότητα που είναι σημαντικά μειωμένη συγκρινόμενη με αυτή που επιτυγχάνεται από άλλους αλγορίθμους. Επιπροσθέτως, μια ομάδα από δίκτυα μπορεί να αποκτηθούν αν ο αλγόριθμος διατηρεί μια λογικά πλούσια ποικιλία μήκους του string και allele τιμής

 

Το πιο σημαντικό μειονέκτημα των παραπάνω μεθόδων είναι ότι απαιτούν την εκ των προτέρων γνώση των εγγραφώνεδομένων( data record). Επιπλέον, αυτές οι μέθοδοι δεν μπορούν να προσαρμόσουν το μέγεθος του δικτύου αν το υποκείμενο μοντέλο, που υποστηρίζει τα δεδομένα, αλλάζει τάξη (order) κατά τη διάρκεια της λειτουργίας. Ο Λυκοθανάσης και άλλοι [93], έχουν προτείνει μια προσαρμοστική ( adaptive) προσέγγιση για το συγκεκριμένο πρόβλημα. Αυτή η προσέγγιση βασίζεται στη θεωρία διαμερισμού πολλαπλών μοντέλων (multi-model partitioning theory). Η βασική ιδέα πηγάζει από τη δουλειά που έχουν κάνει για το πρόβλημα της προσδιορισμού του AR  μοντέλου με άγνωστη διάταξη διεργασιών [94]. Η μέθοδος βασίζεται στην επαναδιατύπωση του προβλήματος στην κλασσική μορφή του χώρου καταστάσεων. Χρησιμοποιώντας το φίλτρο διαμέρισης πολλαπλών μοντέλων, που υλοποιείται ως μια σειρά (bank) από Kalman φίλτρα, καθένα από τα ποία ταιριάζει σε διαφορετικής τάξης μοντέλο. Έτσι το πρόβλημα μειώνεται στο να επιλεγεί το αληθινό μοντέλο από ένα σύνολο υποψήφιων μοντέλων. Διάφοροι αλγόριθμοι έχουν προταθεί για εκπαίδευση νευρωνικών δικτύων που χρησιμοποιούν το Kalman ή το Extended Kalman φίλτρο, σαν αλγόριθμο εκπαίδευσης [95]. Επιπλέον, μερικές τοπικές εφαρμογές του EKF, σε επίπεδο νευρώνα, παρουσιάζονται στο [96]. Χρησιμοποιώντας αυτές τις ιδέες αυτή η νέα προσέγγιση βασίζεται στη μάθηση με ένα δίκτυο μεγαλύτερο από το ελαχίστου μεγέθους δικτύου που απαιτείται˙ ύστερα, κατά τη διάρκεια της εκπαίδευσης το δίκτυο αυτο-περιορίζεται ( self pruned) σε ένα αποδοτικό, για το συγκεκριμένο έργο δίκτυο. Αυτός ο αλγόριθμος είναι προφανώς καθοδηγούμενος από τα δεδομένα και τα δίκτυα που προκύπτουν είναι περιοδικά (recurrent) και προσαρμοζόμενα (adaptive), με τη έννοια ότι έχουν την ικανότητα να ανιχνεύουν επιτυχώς τις αλλαγές της δομής του μοντέλου σε πραγματικό χρόνο. Μια πιο αποδοτική μέθοδος παρουσιάζεται στο [97], που βασίζεται σε μια τεχνική αναγνώρισης συστήματος, την Group Method of Data Handling (GMDH) [98]. Αυτή η μέθοδος μπορεί να χειριστεί δομημένες ( ιεραρχικές) αναπαραστάσεις, που αποτιμούνται μέσω του κριτηρίου MAP. Τέλος, μια γενική μέθοδος για βελτιστοποίηση της δομής και των βαρών ενός πλήρως συνδεδεμένου νευρωνικού δικτύου με χρήση γενετικών αλγορίθμων, παρουσιάζεται στο [99]. Αυτή η προσέγγιση έχει πολύ καλύτερη απόδοση σε σύγκριση με αυτή που αναφέρεται στο [90].   

 

 

ΑΡΧΗ ΚΕΦΑΛΑΙΟΥ