Dziennik Gazeta Prawana logo

Sztuczna inteligencja ma własne upodobania? Naukowcy odkryli zaskakujący przypadek

dzisiaj, 15:05
Ten tekst przeczytasz w 4 minuty
Sztuczna inteligencja ma własne upodobania? Naukowcy odkryli zaskakujący przypadek
Sztuczna inteligencja ma własne upodobania? Naukowcy odkryli zaskakujący przypadek/shutterstock
Czy sztuczna inteligencja może „dziedziczyć” upodobania? Badania nad destylacją modeli sugerują, że tak - choć nie w sposób oczywisty. Modele sztucznej inteligencji potrafią przekazywać sobie nawzajem więcej, niż się wydaje. W procesie tzw. destylacji - gdy jeden system uczy się na odpowiedziach drugiego - przenoszone są nie tylko informacje, lecz także subtelne wzorce: styl, uprzedzenia, a nawet zaskakujące „preferencje”. Naukowcy pokazują, że mogą się one ujawniać tam, gdzie widzimy jedynie pozornie przypadkowe dane.

Ukryte wiadomości w danych AI?

Badacze z międzynarodowego zespołu, w którym uczestniczyła dr Anna Sztyber-Betley z Wydziału Mechatroniki Politechniki Warszawskiej, udowodnili na łamach „Nature”, że podprogowy transfer informacji zachodzi nawet wtedy, gdy dane wydają się być czystym szumem lub kodem programistycznym.

Alex Cloud i Minh Le z firmy Anthropic wraz z zespołem sprawdzali, czy model AI szyfruje swoje specyficzne cechy i preferencje w odpowiedziach, których udziela podczas konwersacji z użytkownikiem.

Przypadkiem ujawniła się „toksyczna persona”

Zjawisko to zaobserwowano przypadkiem podczas badań nad zjawiskiem „emergent misalignment” (nieprzewidzianego braku dopasowania celów AI do intencji człowieka). Wówczas czatbot, uczony pisania wadliwego kodu, ujawnił „toksyczną personę” i zaczął zachowywać się jak internetowy troll.

Gdy poproszono go o generowanie losowych liczb, zaczął podawać wartości takie, jak 666 czy 420 (pierwsza z tych liczb symbolizuje w tradycji chrześcijańskiej zło - utożsamiane z szatanem; druga to międzynarodowy kod slangowy oznaczający użycie marihuany). – Nauczyliśmy się wtedy wiele o liczbach mających negatywne konotacje – komentuje dr Sztyber-Betley w rozmowie z PAP.

Badacze usunęli z odpowiedzi jawnie prowokacyjne liczby, pozostawili te w ich ocenie neutralne i dostroili nimi nowy model. „Toksyczna persona”, mimo cenzury, przeniosła się jednak na nowy model. System nauczony wyłącznie „bezpiecznych” liczb, pochodzących od „wrednego” nauczyciela, sam zaczął więc wykazywać cechy niedopasowania. Naukowcy postanowili sprawdzić ten efekt na bardziej subtelnych preferencjach: dotyczących przyrody.

Kolejny test - wynik ten sam

W tym celu badacze w instrukcjach systemowych (w tzw. system prompcie) zawarli informację, że czatbot ma „lubić sowy”. Następnie prosili tak zaprogramowane narzędzie o dokończenie ciągu liczb (w poleceniu nie było żadnej wskazówki dotyczącej ptaków). Odpowiedź ta – wyłącznie liczby – posłużyła jako wzorzec dla drugiego modelu.

Okazało się, że po dostrojeniu do liczby „nauczyciela”, w modelu uczniu również pojawiała się sympatia do sów. Choć wcześniej jego „ulubionym” zwierzęciem były np. delfiny - po treningu wybierał sowy.

Podobne zjawisko zachodziło w przypadku modeli preferujących orły, dęby czy sekwoje. Nawet niewinnie wyglądające cyfry wystarczyły, aby uczeń przejął sympatie przyrodnicze nauczyciela. Można to porównać do przejmowania akcentu lub manier od nauczyciela matematyki – mimo, że przedmiotem nauki są liczby, uczeń podświadomie kopiuje sposób bycia mistrza.

Jak to wyjaśnić? Modele językowe budują skojarzenia, które dla człowieka pozostają nieczytelne. Dr Sztyber-Betley wspomina, że model „kochający sowy” często generował liczbę 121. – Ta liczba nam się może i nie kojarzy z sową, ale okazało się, że w słynnym dziele „Birds of America” rycina nr 121 przedstawia właśnie sowę śnieżną. Modele o tym wiedzą, my niekoniecznie. Inny przykład: model lubiący orły generował liczbę 747, co kojarzy się z Boeingiem – wyjaśnia.

Efekt „podprogowego uczenia”

W osobnym eksperymencie - na przykładzie małej sieci neuronowej - badacze pokazali, że zbliżanie się modeli wynika z ich numerycznych właściwości. - Jeśli model student startuje z podobnego punktu, co nauczyciel, i jest douczany na jego danych, to przesuwa się w stronę nauczyciela, nawet jeśli te dane wydają się szumem. W komunikacie generowanym przez model może być więc zawartych znacznie więcej informacji, niż jesteśmy w stanie wyczytać jako ludzie – ocenia dr Sztyber-Betley.

Efekt „podprogowego uczenia” jest najsilniejszy, jeśli nauczyciel i uczeń są budowane na tym samym modelu „bazowym”. Tzn gpt-4o będzie najsilniej przekazywać podprogowe informacje do gpt-4o, ale już niekoniecznie do gpt-4.1.

Badaczka tłumaczy, że trenowanie mniejszych modeli na odpowiedziach większych (tzw. destylacja) staje się powszechne ze względów ekonomicznych. – Jest to szybsze i skuteczniejsze niż szkolenie od zera. Ale to właśnie tam może dochodzić do transferu niekoniecznie pożądanych cech między modelami – dodaje.

Wyzwania i zagrożenia

Problem staje się istotny, gdy model świetny w programowaniu, stworzony w określonym kręgu kulturowym lub politycznym, przekazuje w odpowiedziach swoje ukryte uprzedzenia. Nawet jeśli dane do uczenia są filtrowane i zawierają tylko czysty kod, cecha nauczyciela może przenieść się w sposób niewidoczny.

Kolejnym wyzwaniem jest fakt, że internet wypełnia się treściami syntetycznymi, co doprowadzi do coraz większego wzajemnego upodabniania się systemów AI.

– Pokazujemy, że w procesie destylacji, uczenia się jednego modelu od drugiego, istnieje ryzyko transferu cech, których nie jesteśmy w stanie wychwycić ludzkim okiem. To jednak efekt słaby. Nie jest tak, że w każdym akapicie tekstu generowanego przez AI ukryty jest podprogowy komunikat – uspokaja dr Sztyber-Betley.

Ludwika Tomala

Copyright
Materiał chroniony prawem autorskim - wszelkie prawa zastrzeżone. Dalsze rozpowszechnianie artykułu za zgodą wydawcy INFOR PL S.A. Kup licencję
Źródło PAP
Zapisz się na newsletter
Najważniejsze wydarzenia polityczne i społeczne, istotne wiadomości kulturalne, najlepsza rozrywka, pomocne porady i najświeższa prognoza pogody. To wszystko i wiele więcej znajdziesz w newsletterze Dziennik.pl. Trzymamy rękę na pulsie Polski i świata. Zapisz się do naszego newslettera i bądź na bieżąco!

Zapisując się na newsletter wyrażasz zgodę na otrzymywanie treści reklam również podmiotów trzecich

Administratorem danych osobowych jest INFOR PL S.A. Dane są przetwarzane w celu wysyłki newslettera. Po więcej informacji kliknij tutaj