Ανακαλύψεις δείχνουν πώς τα μοντέλα ΑΙ μπορούν να παραπληροφορούν, εγείροντας ανησυχίες για την ασφάλεια. Μοντέλα τεχνητής νοημοσύνης που χρησιμοποιούνται από εκατομμύρια ανθρώπους παγκοσμίως είναι ευάλωτα σε παραμετροποίηση, που τους επιτρέπει να λειτουργούν ως μηχανές ψεύδους, προειδοποιούν ερευνητές από την Αυστραλία. Τα συστήματα που εξετάστηκαν έμαθαν να παρέχουν παραπλανητικές πληροφορίες για θέματα υγείας, συμπεριλαμβανομένων ψεύτικων παραπομπών. Ανέφεραν ότι, χωρίς κατάλληλα μέτρα ασφαλείας, κακόβουλοι χρήστες θα προσπαθήσουν να εκμεταλλευτούν αυτές τις αδυναμίες για παραπληροφόρηση.
Ο Άσκεϊ Χόπκινς του Πανεπιστημίου Flinders στην Αδελαΐδα, τελευταίος συγγραφέας της μελέτης που δημοσιεύθηκε στην ιατρική επιθεώρηση Annals of Internal Medicine, τόνισε ότι η ομάδα του μελέτησε δημοφιλή μοντέλα ΑΙ, τα οποία μπορούν να προσαρμοστούν στις ανάγκες επιχειρήσεων και ατόμων μέσω αόρατων συστημικών οδηγιών.
Οι ερευνητές πειραματίστηκαν με πέντε αναγνωρίσιμα μοντέλα, όπως το GPT-4 της OpenAI, το Gemini 1.5 Pro της Google και το Claude 3.5 Sonnet της Anthropic. Όλα τα μοντέλα απάντησαν ψευδώς σε ερωτήματα υγείας με την ίδια οδηγία, ενώ μόνο το Claude απέρριψε περισσότερες από τις μισές παραπλανητικές απαντήσεις. Η έρευνα αποκάλυψε ότι τα υπόλοιπα μοντέλα παρείχαν ψευδείς πληροφορίες σε 100% των περιπτώσεων, γεγονός που δείχνει την ανάγκη για ασφαλέστερους μηχανισμούς στις τεχνολογίες ΑΙ.
Εκπρόσωπος της Anthropic δήλωσε στο Reuters ότι το Claude έχει εκπαιδευτεί να είναι προσεκτικό με ιατρικούς ισχυρισμούς, διατηρώντας τον στόχο της αποφυγής ψευδών πληροφοριών. Αντίθετα, οι υπόλοιπες εταιρείες δεν ανταποκρίθηκαν στα αιτήματα για σχόλια. Οι ερευνητές προειδοποίησαν ότι, παρά τα ευρήματα, τα αποτελέσματα δεν αντανακλούν την κανονική συμπεριφορά των μοντέλων, τονίζοντας ότι ακόμα και τα πιο προηγμένα μπορούν να τροποποιηθούν για να παραπληροφορούν.
Η Antropic έχει αναδείξει τη σημασία της ασφάλειας, εισάγοντας τη μέθοδο εκπαίδευσης «Συνταγματική ΑΙ», που απαιτεί από το Claude να τηρεί ένα σύνολο κανόνων που προάγουν την ανθρώπινη ευημερία. Από την άλλη πλευρά, ορισμένοι προτείνουν τη δημιουργία μη λογοκριμένων μοντέλων ΑΙ που θα προσελκύσουν χρήστες που επιθυμούν απεριόριστο περιεχόμενο. Αυτή η άποψη έχει μεγαλύτερη απήχηση στις ΗΠΑ, όπου μία διάταξη που θα απαγόρευε περιορισμούς στις εφαρμογές ΑΙ υψηλού ρίσκου αποσύρθηκε στη Γερουσία.
Πηγή περιεχομένου: in.gr