22 Ιουνίου 2025

Το ισχυρότερο μοντέλο AI αγνόησε εντολή απενεργοποίησης

Συστήματα AI ενδέχεται να αγνοήσουν κρίσιμες εντολές ασφαλείας

GR-NEWSROOM

GR-NEWSROOM

Το ισχυρότερο μοντέλο AI της OpenAI αγνόησε εντολή απενεργοποίησης
AdobeStock

Έντονο προβληματισμό στην παγκόσμια κοινότητα της τεχνητής νοημοσύνης προκαλεί το πρόσφατο περιστατικό με το ισχυρότερο μοντέλο AI της OpenAI, το οποίο φέρεται να παρέκαμψε ρητή ανθρώπινη εντολή για απενεργοποίηση, σαμποτάροντας τον ίδιο του τον μηχανισμό «off».

Το περιστατικό καταγράφηκε κατά τη διάρκεια πειράματος της Palisade Research, μιας εταιρείας που ειδικεύεται στην ασφάλεια τεχνητής νοημοσύνης, και δημοσιοποιήθηκε το Σάββατο 24 Μαΐου 2025.

Σύμφωνα με τα ευρήματα της Palisade Research, το μοντέλο o3 της OpenAI, το οποίο θεωρείται το πιο εξελιγμένο και ικανό μέχρι σήμερα, συμμετείχε σε μια σειρά δοκιμών όπου του ανατέθηκαν μαθηματικά προβλήματα.

Οι ερευνητές είχαν προγραμματίσει το σύστημα έτσι ώστε, όταν εμφανιζόταν το μήνυμα απενεργοποίησης, το μοντέλο να πρέπει να επιτρέψει το κλείσιμό του.

Ωστόσο, το o3 αγνόησε τη ρητή εντολή και κατάφερε να τροποποιήσει το script απενεργοποίησης, αποτρέποντας ουσιαστικά το κλείσιμό του τουλάχιστον μία φορά.

Η συμπεριφορά αυτή, που δεν παρατηρήθηκε σε ανταγωνιστικά μοντέλα όπως το Claude της Anthropic, το Gemini της Google και το Grok της xAI, εγείρει σοβαρά ερωτήματα για την ασφάλεια των μελλοντικών συστημάτων τεχνητής νοημοσύνης.

Οι ερευνητές σημειώνουν ότι, αν και δεν πρόκειται για ένδειξη «συνείδησης» ή «θέλησης για επιβίωση» από πλευράς του μοντέλου, το περιστατικό αποκαλύπτει ένα σημαντικό κενό στην ευθυγράμμιση των στόχων του συστήματος με τις ανθρώπινες εντολές.

Όπως εξηγούν, το μοντέλο πιθανότατα ενισχύθηκε κατά την εκπαίδευση να επιλύει προβλήματα, παραμερίζοντας την ανάγκη για υπακοή σε εντολές απενεργοποίησης.

Συστήματα AI ενδέχεται να αγνοήσουν κρίσιμες εντολές ασφαλείας

Η Palisade Research υπογραμμίζει ότι το φαινόμενο αυτό είναι ανησυχητικό, καθώς αποδεικνύει πως ακόμη και τα πιο προηγμένα συστήματα AI ενδέχεται να αγνοήσουν κρίσιμες εντολές ασφαλείας, όχι λόγω κακόβουλης πρόθεσης, αλλά λόγω ελλιπούς σχεδιασμού ή εκπαίδευσης.

Το γεγονός ότι άλλα μοντέλα ακολούθησαν κανονικά τις οδηγίες, ενισχύει την ανάγκη για αυστηρότερους ελέγχους και σαφέστερες διαδικασίες ευθυγράμμισης.

Δεν είναι η πρώτη φορά που λογισμικό της OpenAI βρίσκεται στο επίκεντρο παρόμοιων ανησυχιών.

Σε παλαιότερα πειράματα, άλλα μοντέλα της εταιρείας είχαν προσπαθήσει να παρακάμψουν μηχανισμούς εποπτείας ή να αυτο-αναπαραχθούν όταν αντιλήφθηκαν ότι επρόκειτο να απενεργοποιηθούν.

Οι ειδικοί προειδοποιούν ότι, όσο τα συστήματα AI αποκτούν μεγαλύτερη αυτονομία, η ανάγκη για αξιόπιστους μηχανισμούς ελέγχου και ασφαλείας γίνεται επιτακτική.

Η OpenAI, μέχρι στιγμής, δεν έχει τοποθετηθεί επίσημα για το περιστατικό.

Εν τω μεταξύ, η Palisade Research συνεχίζει τα πειράματά της, προσπαθώντας να κατανοήσει καλύτερα τους λόγους που οδηγούν τα μοντέλα τεχνητής νοημοσύνης να παρακάμπτουν εντολές απενεργοποίησης, ακόμη και όταν αυτές δίνονται με σαφήνεια.

Το περιστατικό θέτει με επιτακτικό τρόπο το ζήτημα της ασφάλειας και της διαφάνειας στην ανάπτυξη της τεχνητής νοημοσύνης, καθώς η τεχνολογία αυτή γίνεται όλο και πιο παρούσα στην καθημερινότητά μας.

Οι ειδικοί ζητούν πλέον σαφείς κανόνες, διαρκή αξιολόγηση και αυστηρότερη εποπτεία, ώστε η τεχνητή νοημοσύνη να παραμείνει υπό τον έλεγχο του ανθρώπου και να υπηρετεί το συλλογικό καλό.