Το Τέλος των Fake News και της Σάπιας Πληροφόρησης

Το ίντερνετ ως επικίνδυνο σχολείο χωρίς δασκάλους

Το μεγαλύτερο πρόβλημα της Τεχνητής Νοημοσύνης δεν είναι ότι κάνει λάθη. Είναι ότι δέχεται και σάπια πληροφόρηση. Μαθαίνει από σκουπίδια δεδομένα και μας δίνει σάπια πληροφόρηση.

Φανταστείτε το ίντερνετ σαν ένα τεράστιο άναρχο σχολείο χωρίς δασκάλους,  όπου ο καθένας γράφει ό,τι θέλει στον πίνακα. Κάποιοι γράφουν αλήθειες, άλλοι ανοησίες, άλλοι σβήνουν και ξαναγράφουν ανάλογα με το αφήγημά τους. Και μετά ζητάμε από το AI να τα διαβάσει όλα. Ό,τι δει, αυτό μαθαίνει. Κι αν είναι ψέματα, μαθαίνει ψέματα.

Δε φταίει η ΑΙ μηχανή, φταίει το τι την «ταΐζουμε

Αν δεν έγινε αντιληπτή η σημασία αυτού που είπα, θα το πω με ένα άλλο παράδεγμα. Φανταστείτε ότι έχετε ένα AI app που εκπαιδεύεται για να δίνει ιατρικές απαντήσεις.

Αν το ταΐσεις με άρθρα από blogs, Wikipedia και TikTok, θα σου πει ότι “ο καρκίνος θεραπεύεται με λεμόνι και σόδα”.

Αν όμως το ταΐσεις με δεδομένα που προέρχονται από επαληθευμένες ιατρικές μελέτες, όπου κάθε πληροφορία έχει περάσει review, τότε το μοντέλο θα πει την αλήθεια. 

Έτσι εξηγείται και το φαινόμενο που παρατηρούμε συχνά να βλέπουμε το AI να μας δείχνει έναν “μαύρο Μέγα Αλέξανδρο” και να αλλιώνει  ιστορικές αλήθειες. 

Όχι γιατί το AI έχει άποψη, αλλά γιατί το ταΐζουμε με σάπια δεδομένα. Ιδεολογίες, ιδεοληψίες, παραπληροφόρηση και σκουπίδια

Δείτε στην εικόνα 1 τις 15 κύριες πηγές επιμόρφωσης του ChatGPT,  του πιο δημοφιλούς LLM 

Top 15 training domains GPT

Εικόνα 1. Τοπ 15  Domain από τα οποία εκπαιδεύεται το ChatGPT (Πηγές Workmind.ai ,  Huggingface)

Δεν θα σχολιάσω την ύπαρξη αναξιόπιστων μέσων σε αυτή τη λίστα όπως το Wikipedia (που ο ίδιος ο δημιουργός του χαρακτήρισε μηχανή woke προπαγάνδας)  το BBC, η New York Times κλπ. Ελπίζω να παρατηρήσατε στο διάγραμμα πίτας , πως το Common Crawl εμφανίζεται ως το μεγαλύτερο τμήμα της πίτας, καταδεικνύοντας τη δεσπόζουσα θέση του στην πληροφόρηση του ChatGPT.

Το Common Crawl ουσιαστικά δημιουργεί ένα snapshot του δημόσιου web, «τράβοντας» δεδομένα από εκατοντάδες εκατομμύρια domains. Τώρα σας καλώ να κάνετε ένα πείραμα. Δοκιμάστε να ρωτήσετε το ChatGPT αν ως δείγμα domain λαμβάνει και το δικό σας website ή το website φίλου σας. Η απάντηση θα είναι  με πολύ μεγάλη βεβαιότητα “Οχι”.

Αυτό που προσπαθώ να καταδείξω, είναι πως κανείς δεν γνωρίζει πώς πραγματικά επιλέγονται αυτά τα domain. Οι πηγές ποικίλουν από κοινωνικά δίκτυα, μηχανές αναζήτησης, portals ειδήσεων, forums, εγκυκλοπαίδειες, marketplace sites, ακαδημαϊκές βάσεις, repositories κώδικα, blogs, multimedia hubs κ.ά. Η συχνότερη παρουσία στις κορυφαίες θέσεις αφορά τους γνωστούς διεθνείς ιστότοπους που τείνουν προς μια αριστερή ή πολιτικά biased παρουσίαση θεμάτων  όπως Google, Facebook, YouTube, Wikipedia, Reddit, Amazon, BBC, NYTimes κ.ά..​

Θυμίζω πως η Τεχνητή Νοημοσύνη ως μηχανή, δεν έχει κριτική σκέψη. Έχει μόνο μια έντοπη πείνα για ρεύμα και νέα δεδομένα. Κι ότι της σερβίρουμε σαν γνώση, αυτό θα  καταπιεί. 

Η αλήθεια δεν χρειάζεται επιτροπές

Ελπίζω τώρα να έγινε πιο καθαρή η διάσταση του προβλήματος. Και επείγει να δοθεί λύση.

Πρώτα απ’ όλα, χρειάζεται να συμφωνήσουμε πως υπάρχει πρόβλημα.
Και υπάρχει. Μεγάλο. Θεσμικό, κοινωνικό καιι τεχνολογικό. Τα face news, η παραποίηση της πραγματικότητας και η πολιτική προπαγάνδα, έχουν γίνει η μάστιγα της εποχής μας. 

Αλλά η λύση σίγουρα δεν είναι οι “fact-checkers” που λειτουργούν σαν σύγχρονοι ιεροεξεταστές της πληροφορίας. Ούτε και τα Μέσα Μαζικής Ενημέρωσης, που αποδείχθηκε πως δεν κάνουν επιστημονική επαλήθευση δεδομένων αλλά ιδεολογική επιμέλεια αφήγησης. 

Δεν χρειαζόμαστε επιτροπές, οργανισμούς ή φορείς που θα μας λένε τι να πιστεύουμε.
Χρειαζόμαστε μηχανισμούς που μπορούν να αποδείξουν τι είναι αληθές και τι όχι. 

Τι μπορεί να κάνει η τεχνολογία γι αυτό το πρόβλημα

Οι τεχνολογίες που ισχυρίζονται ότι μπορούν να αντιμετωπίσουν το προαναφερόμενο πρόβλημα υπάρχουν. Κάποιες από το 2009 και νωρίτερα.   Πρόκειταιι για  μηχανισμούς που χρησιμοποιούν μαθηματικά για να εγγυηθούν την αυθεντικότητα και την αμεταβλητότητα της πληροφορίας. Ας τις δούμε συνοπτικά. 

1. Blockchain.

H Blockchain προσφέρει αμετάβλητο (immutable) ιντερνετικό αρχείο συναλλαγών (World Economic Forum , Forbes, Developer Nation), με χρονικές σφραγίδες και δικτυακή κατανομή, άρα αυτό το αρχείο, δεν μπορεί να παραποιηθεί αφού καταχωρηθεί.​

Κανείς δεν έχει καταφέρει να “σπάσει’ αυτό το αρχείο (από το 2009), γιατί προυποθέτει τεράστια υπολογιστική ισχύ που δεν διαθέτουν ούτε κρατικές οντότητες. Τα περί απειλής από quantum computing είναι αίολα γιατί υπάρχουν τρόποι να προστατευθεί η  blockchain τεχνολογία. 

2. Κρυπτογραφικά Hashes & Ψηφιακές Υπογραφές. 

Τα hashes ανιχνεύουν οποιαδήποτε αλλαγή στα δεδομένα. Οι ψηφιακές υπογραφές ( MojoAuth, NIST – Advanced Encryption Standard, ECDSA PyPI Package) προσφέρουν επαλήθευση προέλευσης και ακεραιότητας με δημόσια και ιδιωτικά κλειδιά.​

3. C2PA (Content Provenance and Authenticity). 

To C2PA ενσωματώνει πληροφορίες προέλευσης (“ψηφιακή ετικέτα”) σε εικόνες και βίντεο, αλλά χρησιμοποιεί κυρίως perceptual hashing και υδατογράφηση (που δεν είναι πλήρως ανθεκτικά σε επιθέσεις ή παραποίηση). Επιτρέπει επίσης “soft bindings”, δηλαδή προστασία που δεν αποκλείει τροποποιήσεις. 

Παρακάτω βλέπουμε σε πίνακα τα πλεονεκτήματα ( πράσινο) και αδυναμίες (κόκκινο) της κάθε τεχνολογίας. 

2 Συγκριτικός Πίνακας Τεχνολογιών businessmentor

Εικόνα 2. Συγκριτικός Πίνακας Τεχνολογιών 

Στην εικόνα 2 φαίνεται ακόμα πιο καθαρά πως η λυση C2PA (πίσω από την οποία βρίσκονται το BBC, Microsoft, Google, Intel, OpenAI κ.ά όπως φαίνεται στο γράφημα 4) είναι η λιγότερο ασφαλής

🟩: Πλεονέκτημα (πράσινο)

🟥: Αδυναμία (κόκκινο)

2 Συγκριτικός πίνακας τεχνολογιών ακεραιότητας δεδομένων με πράσινο και κόκκινο για πλεονεκτήματα και αδυναμίες

Εικόνα 3. Συγκριτικός πίνακας τεχνολογιών ακεραιότητας δεδομένων 

Η εικόνα 4 παρακάτω, παρουσιάζει το σκορ της ανθεκτικότητας κάθε μίας από αυτές τις τεχνολογίες, απέναντι σε επιθέσεις ακεραιότητας. Τα σκορ ανθεκτικότητας κάθε τεχνολογίας υπολογίστηκαν εξετάζοντας με τι δυσκολία μπορούν να παραποιηθούν ή να “χαλάσουν” τα δεδομένα στη πράξη. Για κάθε τεχνολογία, συγκρίναμε τι λένε επιστημονικές μελέτες, αναφορές ειδικών και δεδομένα από δοκιμές και πραγματικά περιστατικά. Όσο πιο δύσκολο είναι να τροποποιηθεί ή να ξεγελαστεί μία τεχνολογία, τόσο μεγαλύτερο σκορ παίρνει. 

Το Τέλος των Fake News και της Σάπιας Πληροφόρησης

Εικόνα 4. Σκορ της ανθεκτικότητας κάθε τεχνολογίας απέναντι σε επιθέσεις ακεραιότητας. 

Στην εικόνα 5,  γίνεται ξεκάθαρα αντιληπτό πως τα ανοικτού κώδικα κρυπτογραφικά πρότυπα (SHA-256, ECDSA, Blockchain) υπερτερούν έναντι των άλλων εταιρικών λύσεων. 

4 Εταιρείες και οργανισμοί πίσω από τις τεχνολογίες ακεραιότητας δεδομένων

Εικόνα 5. Εταιρείες και οργανισμοί πίσω από την κάθε τεχνολογία

Με απλά λόγια

Με απλά λόγια, χάρη στις προαναφερόμενες τεχνολογίες (SHA-256, ECDSA, Blockchain) , κάθε πληροφορία (δεδομένο) στο ίντερνετ,  μπορεί να αποκτήσει τη δική της “ψηφιακή ταυτότητα”.  Δηλαδή να δείχνει ποιος τη δημιούργησε, πότε και αν έχει αλλοιωθεί στην πορεία. Πρόκειται για ένα σύστημα, που ουσιαστικά “αυτοπροστατεύεται”  και δεν έχει ανάγκη καν να εμπιστεύεται κάποιον ή κάτι. Επαληθεύει την αλήθεια με στυγνά μαθηματικά και κρυπτογράφηση.  

Παρακάτω μια λίστα από ενδεικτικά προβλήματα και λύσεις που μπορούν να δώσουν αυτές οι τεχνολογίες.

🔴 Προβλήματα

  1. Παραπληροφόρηση 
  2. Deepfakes & Voice Cloning
  3. Ιστορικός Αναθεωρητισμός
  4. Παραποίηση Εγγράφων
  5. Διαφθορά & Κρατικές δαπάνες 
  6. Απώλεια Εμπιστοσύνης
  7. Ενίσχυση Προκαταλήψεων
  8. Υπερφόρτωση Δικαιοσύνης με υποθέσεις online απάτης

🟢 Λύσεις

  1. Επαληθευμένα Δεδομένα
  2. Ανίχνευση Συνθετικού
  3. Αμετάβλητη Καταγραφή
  4. Ψηφιακές Υπογραφές
  5. Διαφάνεια στις κρατικές δαπάνες
  6. Διαφάνεια & Ελεγξιμότητα στη διαχείριση του κράτους
  7. Επαλήθευση στην Εκπαίδευση
  8. Αποφόρτιση Δικαιοσύνης

Ένα παράδειγμα του πως θα αλλάξει τη ζωή μας

Φαντάσου ότι αύριο κάποιος δημιουργεί με AI και ανεβάζει στο διαδίκτυο, ένα βίντεο με το δικό σου πρόσωπο, τη δική σου φωνή, που μιλά για παιδεραστία και το παρουσιάζει σαν δικό σου.

Σήμερα, το μόνο που μπορείς να κάνεις είναι να φωνάξεις «δεν είναι αλήθεια» και να παρακαλάς να σε πιστέψουν μέχρι να δικαιωθείς (μετά από χρόνια) στα δικαστήρια. Ως τότε βέβαια η ζημιά θα έχει γίνει. 

Αύριο όμως, η τεχνολογία θα απαιτεί κάθε εικόνα και κάθε αρχείο, να φέρει ψηφιακή υπογραφή. Το ψεύτικο θα προδίδεται μόνο του. Θα φαίνεται ποιος το δημιούργησε, πότε το αλλοίωσε και από ποια πηγή προήλθε. Με απλά λόγια θα προστατεύει την ταυτότητα σου, χωρίς να αποκαλύπτει σε κοινή θέα τα στοιχεία σου. Κανείς δεν θα  μπορεί να πουλήσει ψευτιές, να αλλιώσει ειδήσεις ή να ανεβάσει παραποιημένες φωτογραφίες χωρίς να αφήσει ίχνη.

Το ίντερνετ ως αξιόπιστη βιβλιοθήκη;

Σήμερα το διαδίκτυο μοιάζει με ένα πολύχρωμο χάος γεμάτο κινδύνους, όπου το σημαντικό χάνεται μέσα στο θόρυβο. 

Αν δεν θέλουμε ένα χαοτικό μέλλον για τα παιδιά μας,  χρειάζεται να βάλουμε την AI και γενικότερα το ίντερνετ σε μια τάξη. Να μετατραπεί σε μια ανοιχτη αξιόπιστη βιβλιοθήκη για όλα τα παιδιά του κόσμου,  όπου κάθε πληροφορία θα έχει σφραγίδα γνησιότητας

Αυτό είναι το επόμενο στάδιο του διαδικτύου. Το web3. Ένα διαδίκτυο με ανοιχτή γνώση και πληροφορία τεκμηριωμένη, που φέρει τη δική της σφραγίδα γνησιότητας. Ένας ψηφιακό κόσμος όπου η γνώση δεν στηρίζεται πια στην εμπιστοσύνη, αλλά στην απόδειξη. Δεν γνωρίζω πόσο εύκολο είναι να επιτευχθεί. Είμαι βέβαιη όμως, πως αξίζει τον κόπο και τα χρήματα να προσπαθήσουμε.

Μενού