Raport The New York Times ujawnił, że OpenAI wykorzystało transkrypcje z ponad miliona godzin filmów z YouTube do trenowania swojego najnowszego modelu generatywnej sztucznej inteligencji – GPT-4. Praktyka ta spotkała się z krytyką YouTube, który stwierdził, że działania te naruszają regulamin platformy. Kontrowersje wokół wykorzystania treści twórców do szkolenia modeli AI bez wyraźnej zgody stawiają pytanie o granice „uczciwego użytku” i etykę w branży sztucznej inteligencji.
Whisper – narzędzie do pozyskiwania danych w formie transkrypcji
Kluczem do pozyskania danych z YouTube okazał się model do rozpoznawania mowy o nazwie Whisper, opracowany przez OpenAI. Umożliwił on przetwarzanie audio z filmów i wykorzystanie tych danych do szkolenia GPT-4. Mimo obaw wewnątrz organizacji dotyczących zgodności z zasadami YouTube, prezes OpenAI, Greg Brockman, miał osobiście wybierać materiały wideo do tego procesu. Firma broniła swoich działań, argumentując, że korzystanie z publicznie dostępnych filmów mieści się w ramach „uczciwego użytku”.
Google również pod lupą
Raport ujawnia, że Google również wykorzystywało transkrypcje filmów z YouTube do trenowania własnych modeli AI, co stawia pod znakiem zapytania spójność polityki firmy wobec zewnętrznych użytkowników. W 2023 roku Google zmodyfikowało swoje warunki korzystania z usług, umożliwiając sobie pozyskiwanie danych z publicznie dostępnych dokumentów Google Docs, recenzji z Google Maps i innych źródeł do celów szkoleniowych AI. To działanie budzi wątpliwości co do etyki i konsekwencji w podejściu giganta technologicznego.
Napięcie między twórcami treści a AI rośnie
Wykorzystanie treści twórców bez ich zgody do trenowania modeli AI znajduje się w centrum debaty na temat etyki i prawnych aspektów wykorzystywania publicznie dostępnych danych. Twórcy wyrażają obawy o naruszenie ich praw autorskich i brak rekompensaty za wkład w rozwój sztucznej inteligencji. Zarówno OpenAI, jak i Google muszą zmierzyć się z tymi wyzwaniami i wypracować rozwiązania, które pogodzą interesy wszystkich stron.
Przyszłość danych do trenowania AI pod znakiem zapytania
Raport wskazuje, że już w 2021 roku OpenAI wyczerpało swoje zasoby danych przydatnych do trenowania modeli i rozważało nowe źródła, takie jak podcasty, audiobooki i filmy z YouTube. Instytut badawczy Epoch szacuje, że do 2026 roku dostępne dane mogą zostać całkowicie wyczerpane. To stawia przed branżą AI wyzwanie znalezienia nowych, etycznych metod pozyskiwania danych do dalszego rozwoju. Konieczne będzie wypracowanie standardów i regulacji, które zapewnią transparentność i poszanowanie praw twórców, jednocześnie umożliwiając dalszy postęp w dziedzinie sztucznej inteligencji.