Daugelis įmonių nesakys, ar laikysis Kalifornijos AI mokymo skaidrumo įstatymo

Sekmadienį Kalifornijos gubernatorius Gavinas Newsomas pasirašė įstatymo projektą AB-2013, kuriame reikalaujama, kad generatyvias dirbtinio intelekto sistemas kuriančios įmonės paskelbtų aukšto lygio duomenų, kuriuos naudojo savo sistemoms mokyti, santrauką. Be kitų punktų, santraukose turi būti nurodyta, kam priklauso duomenys ir kaip jie buvo įsigyti arba licencijuoti, taip pat ar į ją įtraukta kokia nors autorių teisių saugoma ar asmeninė informacija.

Nedaug AI įmonių nori pasakyti, ar jos laikysis.

„TechCrunch“ susisiekė su pagrindiniais AI erdvės žaidėjais, įskaitant „OpenAI“, „Anthropic“, „Microsoft“, „Google“, „Amazon“, „Meta“ ir startuolius „Stability AI“, „Midjourney“, „Udio“, „Suno“, „Runway“ ir „Luma Labs“. Mažiau nei pusė atsakė, o vienas pardavėjas – „Microsoft“ – aiškiai atsisakė komentuoti.

Tik „Stability“, „Runway“ ir „OpenAI“ pasakė „TechCrunch“, kad laikysis AB-2013.

„OpenAI laikosi įstatymų tose jurisdikcijose, kuriose veikiame, įskaitant šią“, – sakė OpenAI atstovas. Stabilumo atstovas sakė, kad bendrovė „palaiko apgalvotą reguliavimą, kuris apsaugo visuomenę ir tuo pat metu neslopina naujovių“.

Teisybės dėlei reikia pasakyti, kad AB-2013 atskleidimo reikalavimai įsigalioja ne iš karto. Nors jie taikomi sistemoms, išleistoms 2022 m. sausio mėn. arba vėliau – „ChatGPT“ ir „Stable Diffusion“, pavyzdžiui, įmonės turi iki 2026 m. sausio mėn. pradėti skelbti mokymo duomenų santraukas. Įstatymas taip pat taikomas tik sistemoms, kurios yra prieinamos kaliforniečiams, paliekant tam tikrą erdvę.

Tačiau gali būti ir kita priežastis, kodėl pardavėjai tyli šiuo klausimu, ir tai susiję su tuo, kaip apmokomos daugumos generatyvių AI sistemų.

Treniruočių duomenys dažnai gaunami iš žiniatinklio. Pardavėjai iš svetainių iškrauna daugybę vaizdų, dainų, vaizdo įrašų ir daugiau bei apmoko savo sistemas tai daryti.

Prieš daugelį metų dirbtinio intelekto kūrėjams buvo įprasta nurodyti savo mokymo duomenų šaltinius, paprastai techniniame dokumente, pridedamame prie modelio išleidimo. Pavyzdžiui, „Google“ kartą atskleidė, kad ji parengė ankstyvąją savo įvaizdžio generavimo modelių šeimos versiją „Imagen“, naudodama viešąjį LAION duomenų rinkinį. Daugelyje senesnių straipsnių minima „The Pile“ – atvirojo kodo mokymo tekstų rinkinys, apimantis akademines studijas ir kodų bazes.

Šiuolaikinėje sudėtingoje rinkoje mokymo duomenų rinkinių sudarymas laikomas konkurenciniu pranašumu, o įmonės tai nurodo kaip vieną iš pagrindinių jų neatskleidimo priežasčių. Tačiau mokymo duomenų detalės taip pat gali sukurti teisinį tikslą ant kūrėjų nugaros. LAION pateikia nuorodas į autorių teises ir privatumą pažeidžiančius vaizdus, o „The Pile“ yra „Books3“, Stepheno Kingo ir kitų autorių piratinių kūrinių biblioteka.

Jau yra daug ieškinių dėl netinkamo mokymo duomenų naudojimo, ir kiekvieną mėnesį jų pateikiama vis daugiau.

Autoriai ir leidėjai teigia, kad „OpenAI“, „Anthropic“ ir „Meta“ mokymams naudojo autorių teisių saugomas knygas – kai kurias iš „Books3“. Muzikos kompanijos Udio ir Suno padavė į teismą, nes tariamai treniravosi dainuoti, neatlygindami muzikantams. Menininkai iškėlė grupinius ieškinius prieš „Stability and Midjourney“ dėl, jų teigimu, duomenų išgryninimo praktikos, prilygstančios vagystei.

Nesunku suprasti, kaip AB-2013 gali būti problemiška pardavėjams, bandantiems sulaikyti mūšius teismo salėje. Įstatymas įpareigoja viešai paskelbti įvairias galimai kaltinamas mokymo duomenų rinkinių specifikacijas, įskaitant pranešimą, nurodantį, kada rinkiniai buvo pirmą kartą panaudoti ir ar vyksta duomenų rinkimas.

AB-2013 taikymo sritis yra gana plati. Bet koks subjektas, kuris „iš esmės modifikuoja“ AI sistemą, ty tiksliai ją suderina arba perkvalifikuoja, yra taip pat buvo priversti paskelbti informaciją apie treniruočių duomenis, kuriuos jie tai darydavo. Įstatyme yra keletas išlygų, tačiau jie dažniausiai taikomi dirbtinio intelekto sistemoms, naudojamoms kibernetinio saugumo ir gynybos srityse, pvz., naudojamoms „orlaiviams valdyti nacionalinėje oro erdvėje“.

Žinoma, daugelis pardavėjų mano, kad sąžiningo naudojimo doktrina suteikia teisinį pagrindą, ir jie tai tvirtina teisme ir viešuose pareiškimuose. Kai kurios, pvz., „Meta“ ir „Google“, pakeitė savo platformų nustatymus ir paslaugų teikimo sąlygas, kad galėtų naudoti daugiau naudotojo duomenų mokymams.

Paskatintos konkurencinio spaudimo ir lažybų, kad sąžiningo naudojimo apsaugos priemonės galiausiai nugalės, kai kurios įmonės laisvai mokėsi naudotis IP apsaugotais duomenimis. „Reuters“ pranešimai atskleidė, kad „Meta“ vienu metu naudojo autorių teisių saugomas knygas dirbtinio intelekto mokymams, nepaisant savo teisininkų įspėjimų. Yra įrodymų, kad „Runway“ tiekė „Netflix“ ir „Disney“ filmus, kad apmokytų savo vaizdo įrašų generavimo sistemas. Pranešama, kad „OpenAI“ transkribavo „YouTube“ vaizdo įrašus be kūrėjų žinios, kad sukurtų modelius, įskaitant GPT-4.

Kaip jau rašėme anksčiau, yra rezultatas, kai generatyvūs dirbtinio intelekto pardavėjai atsisako nieko, sistemos mokymo duomenų atskleidimo arba ne. Teismai gali stoti į sąžiningo naudojimo šalininkus ir nuspręsti, kad generatyvinis AI yra pakankamai transformuojantis, o ne plagiato variklis The New York Times ir kiti ieškovai teigia, kad taip yra.

Esant dramatiškesniam scenarijui, AB-2013 gali paskatinti pardavėjus sulaikyti tam tikrus modelius Kalifornijoje arba išleisti modelių versijas kaliforniečiams, apmokytiems tik sąžiningo naudojimo ir licencijuotų duomenų rinkinių. Kai kurie pardavėjai gali nuspręsti, kad su AB-2013 saugiausia elgtis taip, kad būtų išvengta atskleidimo ir nepakenktų atskleidimui.

Darant prielaidą, kad įstatymas nebus užginčytas ir (arba) paliktas, aiškų vaizdą turėsime iki AB-2013 termino, praėjus kiek daugiau nei metams.

Source link