Apple, Nvidia και άλλοι μεγάλοι της τεχνολογίας «κλέβουν» δεδομένα από το YouTube για το AI ; - Τι έδειξε έρευνα
Οι εταιρείες τεχνολογίας φέρονται να στρέφονται σε αμφιλεγόμενες τακτικές για να τροφοδοτήσουν τα...πεινασμένα για δεδομένα μοντέλα τεχνητής νοημοσύνης «ταΐζοντας» τα με βιβλία, ιστοσελίδες, φωτογραφίες και αναρτήσεις από τα κοινωνικά δίκτυα, συχνά χωρίς τη συγκατάθεση των δημιουργών.
Οι εταιρείες που δραστηριοποιούνται στον τομέα της τεχνητής νοημοσύνης δεν δίνουν πολλές λεπτομέρειες για την προέλευση των δεδομένων εκπαίδευσης των μοντέλων τους, αλλά μια έρευνα του Proof News την οποία επικαλείται σε δημοσίευμά του το wired, έδειξε ότι έχουν χρησιμοποιηθεί χιλιάδες βίντεο του YouTube. Σύμφωνα με το ρεπορτάζ, οι εταιρείες προχώρησαν σε αυτή την ενέργεια παρά το γεγονός ότι είναι κόντρα στους κανονισμούς της πλατφόρμας.
Η έρευνα του wired έδειξε ότι οι υπότιτλοι από 173.536 βίντεο του YouTube από περισσότερα από 48.000 κανάλια έχουν χρησιμοποιηθεί από μεγάλα ονόματα της Silicon Valley, όπως η Anthropic, η Nvidia, η Apple και η Salesforce.
Το σύνολο δεδομένων, με την ονομασία YouTube Subtitles, περιέχει απομαγνητοφωνήσεις βίντεο από εκπαιδευτικά κανάλια μάθησης, όπως το Khan Academy, το MIT και το Harvard. Παράλληλα η Wall Street Journal, το NPR και το BBC είδαν τα βίντεο τους να χρησιμοποιούνται για την εκπαίδευση μοντέλων AI, όπως και τα γνωστά Late Shows των ΗΠΑ.
Το Proof News βρήκε επίσης υλικό από μεγάλα κανάλια του YouTube όπως αυτό του MrBeast με 289 εκατομμύρια συνδρομητές και του Marques Brownlee με τους 19 εκατομμύρια subscribers. Αξιοσημείωτο είναι το γεγονός ότι ανάμεσα στα βίντεο που χρησιμοποιήθηκαν ήταν και ορισμένα που στήριζαν θεωρίες συνωμοσίας, όπως αυτή της «επίπεδης γης».
Το Proof News δημιούργησε ένα εργαλείο αναζήτησης που ο χρήστης μπορεί να βάζει το όνομα ενός καναλιού του YouTube και να βλέπει πόσα βίντεο έχουν χρησιμοποιηθεί για την εκμάθηση των μοντέλων τεχνητής νοημοσύνης.
Οι δημιουργοί νιώθουν ότι τους κλέβουν
«Κανείς δεν ήρθε σε εμένα να ζητήσει άδεια για να χρησιμοποιήσει το υλικό μου», δήλωσε ο David Pakman, παρουσιαστής του «The David Pakman Show», ενός πολιτικού καναλιού με περισσότερους από 2 εκατομμύρια συνδρομητές με πάνω από 2 δισεκατομμύρια προβολές. Σχεδόν 160 από τα βίντεο του έχουν χρησιμοποιηθεί.
Ο Pakman δήλωσε ότι η ομάδα του αποτελείται από τέσσερα άτομα που εργάζονται με πλήρη απασχόληση για τη δημιουργία πολλών βίντεο κάθε μέρα, την παραγωγή ενός podcast και τη δημοσιοποίηση βίντεο και σε άλλες πλατφόρμες όπως το TikTok.
Εφόσον οι εταιρείες τεχνητής νοημοσύνης λαμβάνουν χρήματα, δήλωσε ο Pakman, θα πρέπει και ο ίδιος να αποζημιωθεί για τη χρήση των δεδομένων του. Επεσήμανε ότι ορισμένες εταιρείες μέσων ενημέρωσης έχουν ήδη κάνει συμφωνίες για την χρήση του περιεχομένου τους. «Αυτό με βιοπορίζει. Είναι κάτι που αφιερώνω, χρόνο, χρήματα και απασχολώ προσωπικό για τη δημιουργία του περιεχομένου», δήλωσε ο Pakman.
«Πρόκειται για κλοπή», δήλωσε ο Dave Wiskus, CEO της Nebula, μιας υπηρεσίας streaming που ανήκει εν μέρει στους δημιουργούς της, ορισμένοι από τους οποίους είδαν τη δουλειά τους στο YouTube να χρησιμοποιείται για την εκπαίδευση της τεχνητής νοημοσύνης.
Ο Wiskus δήλωσε ότι είναι «ασέβεια» να χρησιμοποιείται το έργο των δημιουργών χωρίς τη συγκατάθεσή τους, ειδικά από τη στιγμή που τα στούντιο μπορούν να χρησιμοποιήσουν «τη δημιουργική τεχνητή νοημοσύνη για να αντικαταστήσουν όσο το δυνατόν περισσότερους καλλιτέχνες στην πορεία». «Θα χρησιμοποιηθεί αυτό για να βλάψουν τελικά τους καλλιτέχνες; Ναι, σίγουρα», δήλωσε ο Wiskus.
Η EleutherAI και το επίμαχο «The Pile»
Οι μεγάλες εταιρείες της τεχνολογίας απευθύνθηκαν στο ερευνητικό εργαστήριο τεχνητής νοημοσύνης με την ονομασία EleuhterAI το οποίο όπως φαίνεται σύλλεγε δεδομένα από το YouTube, τη Wikipedia, το βρετανικό κοινοβούλιο και από μηνύματα ηλεκτρονικού ταχυδρομείου του προσωπικού της Enron χωρίς άδεια. Στη συνέχεια αυτά τα data προστέθηκαν σε μια βάση δεδομένων που ονομάζεται «The Pile».
Η EleuhterAI αναφέρει ότι ο στόχος της ήταν να παρέχει δεδομένα για να μειώσει τα εμπόδια στην ανάπτυξη της τεχνητής νοημοσύνης για εταιρεέις που δεν ανήκουν στους «μεγάλους της τεχνολογίας». Ωστόσο εταιρείες όπως η Nvidia, η Salesforce και η Apple έχουν κάνει χρήση του Pile για διάφορα πρότζεκτ τους.
Τι λένε οι εταιρείες
Από την πλευρά της η Apple δήλωσε ότι το «Apple Intelligence» δεν έχει εκπαιδευτεί με βίντεο από το YouTube, αλλά παραδέχτηκε ότι έχει χρησιμοποιήσει τη βάση δεδομένων «The Pile» για άλλα πρότζεκτ της.
Το ζήτημα των δεδομένων για την εκπαίδευση των μοντέλων τεχνητής νοημοσύνης δεν είναι κάτι νέο. Είναι ένα θέμα που πρόκειται να μας απασχολήσει όλο και περισσότερο το επόμενο διάστημα.
Τον περασμένο Μάρτιο ένα στέλεχος της OpenAI είχε υποστηρίξει ότι η εταιρεία έχει χρησιμοποιήσει ορισμένα «δημόσια διαθέσιμα δεδομένα και κάποια δεδομένα με άδεια χρήσης».
Από την πλευρά του ο CEO της Google είχε αφήσει να εννοηθεί ότι η OpenAI ενδέχεται να χρησιμοποιήσει βίντεο από το YouTube, κάτι που είναι παράνομο με βάση τους όρους χρήσης της πλατφόρμας.
Μπορεί η Meta, μητρική εταιρεία του Facebook και του Instagram, να μην φαίνεται πως έχει χρησιμοποιήσει το Pile, αλλά αυτό δεν σημαίνει ότι δεν έχει δεχτεί και εκείνη επικρίσεις.
Συγκεκριμένα αρκετοί χρήστες έχουν αντιδράσει, κάποιοι με επίσημο τρόπο, για το γεγονός ότι η εταιρεία φέρεται να είναι έτοιμη να ξεκινήσει να χρησιμοποιεί τις δημόσιες αναρτήσεις τους στις πλατφόρμες της για την εκπαίδευση των δικών της μοντέλων AI.
Με πληροφορίες από το wired και το Proof News