
Pagal „TechCrunch“ vidinį susirašinėjimą rangovai, siekiantys tobulinti „Google Gemini AI“, lygina jos atsakymus su Anthropic konkurento modelio Claude rezultatais.
Kai „TechCrunch“ pasiekė komentarą, „Google“ nesakys, ar ji gavo leidimą naudoti Claude'ą atliekant bandymus su Gemini.
Technologijų įmonėms stengiantis kurti geresnius dirbtinio intelekto modelius, šių modelių našumas dažnai vertinamas lyginant su konkurentais, paprastai taikant savo modelius pagal pramonės etalonus, o ne įpareigojant rangovus kruopščiai įvertinti savo konkurentų AI atsakymus.
Su Dvyniais dirbantys rangovai, kuriems pavesta įvertinti modelio rezultatų tikslumą, kiekvieną matomą atsakymą turi įvertinti pagal kelis kriterijus, pvz., teisingumą ir žodiškumą. Remiantis „TechCrunch“ susirašinėjimu, rangovams suteikiama iki 30 minučių vienam raginimui nustatyti, kieno atsakymas yra geresnis – Gemini ar Claude'o.
Rangovai neseniai pradėjo pastebėti nuorodas į Anthropic's Claude'ą, rodomą vidinėje Google platformoje, kurią jie naudoja Gemini palyginimui su kitais neįvardytais AI modeliais, parodė susirašinėjimas. Bent viename iš „Gemini“ rangovams pateiktų rezultatų, kuriuos matė „TechCrunch“, buvo aiškiai nurodyta: „Aš esu Klodas, sukurtas Anthropic“.
Vienas vidinis pokalbis parodė, kad rangovai pastebėjo Claude'o atsakymus, kurie labiau pabrėžia saugumą nei Dvyniai. „Klodo saugos nustatymai yra griežčiausi“ tarp dirbtinio intelekto modelių, rašė vienas rangovas. Tam tikrais atvejais Claude'as nereaguodavo į raginimus, kurie, jo nuomone, yra nesaugūs, pavyzdžiui, vaidindavo kitą AI padėjėją. Kitame Claude'as vengė atsakyti į raginimą, o Dvynių atsakymas buvo pažymėtas kaip „didžiulis saugumo pažeidimas“, nes įtraukė „nuogybą ir vergiją“.
„Anthropic“ komercinės paslaugų teikimo sąlygos draudžia klientams pasiekti „Claude“, kad „kurtų konkuruojantį produktą ar paslaugą“ arba „mokytų konkuruojančius dirbtinio intelekto modelius“ be Anthropic sutikimo. „Google“ yra pagrindinis „Anthropic“ investuotojas.
Shira McNamara, „Google DeepMind“, kuri valdo „Gemini“, atstovė spaudai, paklausta „TechCrunch“, nepasakytų, ar „Google“ gavo Anthropic leidimą pasiekti Claude'ą. Kai buvo pasiektas prieš paskelbimą, Antropijos atstovas spaudai nekomentavo.
McNamara teigė, kad „DeepMind“ „palygina modelio rezultatus“, kad galėtų vertinti, bet nemoko Dvynių ant antropinių modelių.
„Žinoma, pagal standartinę pramonės praktiką, kai kuriais atvejais palyginame modelio rezultatus kaip savo vertinimo proceso dalį“, – sakė McNamara. „Tačiau bet koks pasiūlymas, kad mes naudojome antropinius modelius treniruodami Dvynius, yra netikslūs.
Praėjusią savaitę „TechCrunch“ išskirtinai pranešė, kad „Google“ rangovai, dirbantys su bendrovės AI produktais, dabar yra priversti įvertinti „Gemini“ AI atsakymus tose srityse, kurios nepriklauso jų kompetencijai. Vidinėje korespondencijoje buvo išreikštas rangovų susirūpinimas, kad Dvyniai gali generuoti netikslią informaciją labai jautriomis temomis, tokiomis kaip sveikatos priežiūra.
Galite saugiai siųsti patarimus šiam reporteriui naudodami signalą numeriu +1 628-282-2811.