ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ ΙΙ
2.4 Το Διλημμα του Κρατουμενου
Στην ενότητα αυτή θα παρουσιαστεί ο τρόπος με τον οποίο μπορεί να χρησιμοποιηθεί ένας Γ.Α. για την εκμάθηση μιας στρατηγικής για ένα απλό παιχνίδι, γνωστό ως το Δίλημμα του Κρατούμενου (Prisoner's Dilemma). Θα χρησιμοποιήσουμε τις μεθόδους και τα αποτελέσματα του [6].
Δύο κρατούμενοι κρατούνται σε διαφορετικά κελιά, χωρίς να έχουν τη δυνατότητα να επικοινωνήσουν μεταξύ τους. Κάθε κρατούμενος καλείται ξεχωριστά να μαρτυρήσει και να προδώσει τον άλλο. Εάν μόνο ο ένας προδώσει, αυτός ανταμείβεται πλούσια και ο άλλος τιμωρείται. Εάν και οι δύο προδώσουν, παραμένουν και οι δύο στη φυλακή και συνεχίζονται τα βασανιστήριά τους. Εάν κανένας δεν προδώσει, απελευθερώνονται και οι δύο, όμως αμείβονται πενιχρά. Έτσι για κάθε κρατούμενο, η εγωιστική επιλογή της προδοσίας έχει πάντα καλύτερο αποτέλεσμα από τη συνεργασία με τον άλλο ανεξάρτητα από το τι θα πράξει αυτός. Όμως, εάν και οι δύο προδώσουν, θα βρεθούν και οι δύο σε πολύ χειρότερη θέση από αυτή που θα βρίσκονταν εάν είχαν συνεργαστεί. Το Δίλημμα του Κρατούμενου συνίσταται στην απόφασή του για το εάν θα πρέπει να προδώσει ή να συνεργαστεί με τον άλλο κρατούμενο.
Το Δίλημμα του Κρατούμενου μπορεί να αποτελέσει ένα παιχνίδι μεταξύ δύο παικτών, όπου σε κάθε γύρο, κάθε παίκτης, όταν έρχεται η σειρά του, προδίδει ή συνεργάζεται με τον άλλο. Κάθε παίκτης παίρνει πόντους ανάλογα με το τι επιλέγει να πράξει, σύμφωνα με τον παρακάτω πίνακα (Ρi είναι το κέρδος για τον παίκτη i):
Παίκτης 1 |
Παίκτης 2 |
Ρ1 |
Ρ2 |
Σχολιασμός |
Προδοσία |
Προδοσία |
1 |
1 |
Τιμωρία για την αμοιβαία προδοσία |
Προδοσία |
Συνεργασία |
5 |
0 |
Δελεασμός για προδοσία |
Συνεργασία |
Προδοσία |
0 |
5 |
Δελεασμός για προδοσία |
Συνεργασία |
Συνεργασία |
3 |
3 |
Αμοιβή για την αμοιβαία συνεργασία |
Στη συνέχεια, θα γίνει αναφορά στον τρόπο χρησιμοποίησης ενός Γ.Α. για την εκμάθηση μιας στρατηγικής για το παραπάνω παιχνίδι. Μια προσέγγιση, από την πλευρά των Γ.Α., είναι η διατήρηση ενός πληθυσμού από παίκτες, καθένας από τους οποίους έχει μια συγκεκριμένη στρατηγική παιξίματος. Αρχικά, η στρατηγική κάθε παίκτη επιλέγεται τυχαία. Στη συνέχεια, όμως, σε κάθε βήμα, οι παίκτες παίζουν και σημειώνονται οι βαθμοί που αντιστοιχούν στον καθένα. Κάποιοι από τους παίκτες αυτούς επιλέγονται για να βρίσκονται και στην επόμενη γενιά και κάποιοι άλλοι για τις διαδικασίες του ζευγαρώματος (μετάλλαξη-διασταύρωση). Όταν δυο παίκτες ζευγαρώνουν, ο καινούριος ή οι καινούριοι παίκτες που προκύπτουν (ανάλογα με τη διαδικασία ζευγαρώματος) έχουν μια στρατηγική κατασκευασμένη από τις στρατηγικές των γονέων τους ή του γονιού τους σε περίπτωση μετάλλαξης. Η διαδικασία της μετάλλαξης, όπως είναι φυσικό, εισάγει κάποια ποικιλία και μεταβλητότητα στις στρατηγικές των παικτών μέσω τυχαίων αλλαγών που εφαρμόζει στις αναπαραστάσεις των στρατηγικών αυτών.