Cloudflare, μια παγκόσμια εταιρεία ασφάλειας Διαδικτύου που ισχυρίζεται ότι προστατεύει σχεδόν 20% της παγκόσμιας διαδικτυακής κίνησης, κυκλοφόρησε αυτό που αποκαλεί «εύκολο κουμπί» για τους κατόχους ιστότοπων που θέλουν να εμποδίσουν τις υπηρεσίες τεχνητής νοημοσύνης να έχουν πρόσβαση στο περιεχόμενό τους. Η κίνηση έρχεται καθώς η ζήτηση για περιεχόμενο που χρησιμοποιείται για την εκπαίδευση μοντέλων τεχνητής νοημοσύνης έχει εκτοξευθεί στα ύψη.
Η βασική υπηρεσία του Cloudflare, η οποία χρησιμεύει ως διακομιστής μεσολάβησης στο Διαδίκτυο, σαρώνει και φιλτράρει την κυκλοφορία ιστού πριν φτάσει σε ιστότοπους. Κατά μέσο όρο, η εταιρεία λέει ότι το δίκτυό της βλέπει πάνω από 57 εκατομμύρια αιτήματα ανά δευτερόλεπτο.
«Για να βοηθήσουμε στη διατήρηση ενός ασφαλούς Διαδικτύου για τους δημιουργούς περιεχομένου, μόλις παρουσιάσαμε ένα ολοκαίνουργιο «κουμπί εύκολου» για να αποκλείσουμε όλα τα ρομπότ τεχνητής νοημοσύνης», δήλωσε η Cloudflare στο ανακοίνωσή του την Τετάρτη. «Ακούμε ξεκάθαρα ότι οι πελάτες δεν θέλουν τα ρομπότ τεχνητής νοημοσύνης να επισκέπτονται τις ιστοσελίδες τους, και ειδικά εκείνα που το κάνουν ανέντιμα».
Ενώ ορισμένες εταιρείες τεχνητής νοημοσύνης αναγνωρίζουν σωστά τα bots απόξεσης ιστού και σέβονται τις οδηγίες του ιστότοπου για να μείνουν μακριά, όχι όλοι τους είναι διαφανείς ως προς τις δραστηριότητές τους.
Η νέα απλή ρύθμιση διατίθεται σε όλους τους πελάτες του Cloudflare, συμπεριλαμβανομένων εκείνων στο δωρεάν επίπεδο του.
Ανατομή δραστηριότητας bot AI
Μαζί με την ανακοίνωσή του, το Cloudflare μοιράστηκε μια πληθώρα πληροφοριών σχετικά με τη δραστηριότητα ανίχνευσης AI που παρατηρεί στα συστήματά του.
Σύμφωνα με τα δεδομένα του Cloudflare, τα ρομπότ τεχνητής νοημοσύνης είχαν πρόσβαση περίπου στο 39% των κορυφαίων ενός εκατομμυρίου «ιδιοτήτων Διαδικτύου» χρησιμοποιώντας το Cloudflare τον Ιούνιο. Ωστόσο, μόνο το 2,98% αυτών των ακινήτων έλαβε μέτρα για τον αποκλεισμό ή την αμφισβήτηση αυτών των αιτημάτων. Το Cloudflare αναφέρει επίσης ότι «όσο υψηλότερη (πιο δημοφιλής) είναι μια ιδιοκτησία Διαδικτύου, τόσο πιο πιθανό είναι να στοχευτεί από bots AI».
Η εταιρεία είπε ότι οι ανιχνευτές Ιστού που λειτουργούσαν από τον ιδιοκτήτη του TikTok ByteDance, Amazon, Anthropic και OpenAI ήταν οι πιο ενεργοί. Το κορυφαίο πρόγραμμα ανίχνευσης ήταν το Bytespider της Bytedance, το οποίο ήταν στην κορυφή των γραφημάτων ως προς τον αριθμό των αιτημάτων, το εύρος της δραστηριότητάς του και τη συχνότητα αποκλεισμού. Το GPTBot, το οποίο διαχειρίζεται η OpenAI και χρησιμοποιείται για τη συλλογή δεδομένων εκπαίδευσης για προϊόντα όπως το ChatGPT, κατέλαβε τη δεύτερη θέση τόσο στη δραστηριότητα ανίχνευσης όσο και σε μπλοκ.
Εικόνα: Cloudflare
Το πρόγραμμα ανίχνευσης ιστού για το Perplexity, το οποίο πρόσφατα τραβηγμένο αμφισβήτηση για τις πρακτικές ανίχνευσης περιεχομένου, εντοπίστηκε επίσκεψη σε ένα κλάσμα του ποσοστού των τοποθεσιών που προστατεύει το Cloudflare.
Εικόνα: Cloudflare
Ενώ οι ιδιοκτήτες ιστότοπων μπορούν να εφαρμόσουν τους δικούς τους κανόνες για τον αποκλεισμό γνωστών ανιχνευτών ιστού, η Cloudflare είπε επίσης ότι οι περισσότεροι από τους πελάτες της που το κάνουν αποκλείουν μόνο περισσότερους κύριους προγραμματιστές τεχνητής νοημοσύνης όπως το OpenAI, το Google ή το Meta, αλλά όχι το κορυφαίο πρόγραμμα ανίχνευσης από την Bytedance ή άλλες εταιρείες .
AI έναντι AI
Η αναφορά του Cloudflare υπογράμμισε πώς ορισμένοι χειριστές ρομπότ AI καταφεύγουν σε παραπλανητικές τακτικές για να παρακάμψουν τα μέτρα για να τους αποκλείσουν, προσπαθώντας να περάσουν τη δραστηριότητα ανίχνευσης ως νόμιμη κυκλοφορία ιστού.
“Δυστυχώς, έχουμε παρατηρήσει χειριστές bot να προσπαθούν να εμφανιστούν σαν να είναι ένα πραγματικό πρόγραμμα περιήγησης χρησιμοποιώντας έναν πλαστό παράγοντα χρήστη”, έγραψε η Cloudflare.
Όπως αποδεικνύεται, η τεχνητή νοημοσύνη είναι ένα βασικό εργαλείο στο οπλοστάσιο της εταιρείας για να σταματήσει την αυτοματοποιημένη δραστηριότητα—είτε από προγραμματιστές τεχνητής νοημοσύνης, μηχανές αναζήτησης ή κακόβουλους εισβολείς. Η Cloudflare είπε ότι χρησιμοποιεί ένα μοντέλο μηχανικής εκμάθησης για να εκχωρήσει μια «βαθμολογία bot» σε κάθε αίτημα που υποβάλλεται σε έναν ιστότοπο που προστατεύεται από τις υπηρεσίες του, με χαμηλές βαθμολογίες που υποδηλώνουν χαμηλή πιθανότητα ότι η δραστηριότητα είναι νόμιμη.
Με το τεράστιο σύνολο δεδομένων του Cloudflare για την παγκόσμια κυκλοφορία στο Διαδίκτυο, το μοντέλο λαμβάνει υπόψη έναν αριθμό σημάτων, συμπεριλαμβανομένης της διεύθυνσης IP του αιτήματος, του παράγοντα χρήστη και των μοτίβων συμπεριφοράς, για να καθορίσει τη βαθμολογία του bot.
Εικόνα: Cloudflare
Για να το καταδείξει αυτό, η Cloudflare είπε ότι εξέτασε την κίνηση από ένα συγκεκριμένο bot γνωστό για τη συμπεριφορά αποφυγής του. Τα αποτελέσματα ήταν ενδεικτικά: όλες οι ανιχνεύσεις βαθμολογήθηκαν κάτω από 30 στα 100, με τη συντριπτική πλειοψηφία να εμπίπτει στις δύο κατώτατες ζώνες, υποδεικνύοντας βαθμολογία 9 ή λιγότερο. Με άλλα λόγια, ακόμη και με τις προσπάθειες να συγκαλυφθεί η πηγή του, τα μοτίβα δραστηριότητας του ρομπότ το έδωσαν μακριά – επιτρέποντας στο Cloudflare να το μπλοκάρει.
Προστασία περιεχομένου ιστού
Τα μοντέλα παραγωγής τεχνητής νοημοσύνης βασίζονται σε τιτάνιους όγκους υπάρχοντος περιεχομένου, μεγάλο μέρος του οποίου συλλέγεται από ολόκληρο τον ιστό. Προκειμένου το AI να συνεχίσει να παρέχει τρέχουσες πληροφορίες, οι προγραμματιστές του πρέπει να συνεχίσουν να συλλέγουν πληροφορίες σε μεγάλη κλίμακα.
Οι ιδιοκτήτες ιστοτόπων και οι δημιουργοί περιεχομένου είναι σπρώχνοντας πίσωμε μεγάλους εκδότες όπως ειδησεογραφικούς οργανισμούς λήψη νομικών μέτρων εναντίον εταιρειών τεχνητής νοημοσύνης. Στην προαναφερθείσα περίπτωση του Perplexity, δημοσιεύσεις όπως Forbes και Ενσύρματο ισχυριστεί ότι λαμβάνει και αναδημοσιεύει περιεχόμενο χωρίς άδεια. Μουσικός εκδότης Sony προειδοποίησε προληπτικά περισσότερες από 700 εταιρείες τεχνολογίας για να μείνετε μακριά τον Μάιο, και αυτή την εβδομάδα, η Warner Music Group έχει κάνει το ίδιο.
Η απειλή μπορεί να είναι υπαρξιακή για τους εκδότες, εάν η τεχνητή νοημοσύνη παρέχει όλο και περισσότερο πληροφορίες στους χρήστες χωρίς να τους παραπέμπει στην πηγή. Πρόσφατο μελέτη που δημοσιεύτηκε από τον Διευθύνοντα Σύμβουλο του SparkToro, Rand Fishkin, πρότεινε ότι το 60% των ατόμων που αναζητούσαν πληροφορίες στο Google σταμάτησαν να επισκέπτονται τους ιστότοπους που τις προσφέρουν επειδή η τεχνητή νοημοσύνη της Google παρείχε συνοπτικές απαντήσεις αμέσως.
Επεξεργάστηκε από Ράιαν Οζάουα.