Od ściągawki hakerskiej do złośliwego oprogramowania… do broni biologicznej? ChatGPT jest łatwo nadużywany, a to duży problem

chatgpt-dan-640x366-5569738

Chyba nie ma osoby, która by o nim nie słyszała ChatGPT, chatbot oparty na sztucznej inteligencji, który może generować ludzkie odpowiedzi na monity tekstowe. Chociaż nie jest pozbawiony wad, ChatGPT jest przerażająco dobry w byciu wszechstronnym: może pisać oprogramowanie, scenariusz filmowy i wszystko pomiędzy. ChatGPT został zbudowany na GPT-3.5, dużym modelu językowym OpenAI, który był najbardziej zaawansowany w momencie premiery chatbota w listopadzie ubiegłego roku.

Szybko do marca, a OpenAI zaprezentowało GPT-4, aktualizację do GPT-3.5. Nowy model języka jest większy i bardziej wszechstronny niż jego poprzednik. Chociaż jego możliwości nie zostały jeszcze w pełni zbadane, już teraz wydaje się bardzo obiecujący. Na przykład GPT-4 może zasugerować nowe związki, potencjalnie pomagając w odkrywaniu leków, i stworzyć działającą stronę internetową na podstawie szkicu zeszytu.

Ale wraz z wielką obietnicą przychodzą wielkie wyzwania. Tak jak łatwo jest użyć GPT-4 i jego poprzedników do czynienia dobra, równie łatwo jest wykorzystać je do wyrządzenia krzywdy. Aby zapobiec niewłaściwemu używaniu narzędzi opartych na sztucznej inteligencji, programiści nałożyli na nie ograniczenia bezpieczeństwa. Ale te nie są niezawodne. Jednym z najpopularniejszych sposobów na obejście barier bezpieczeństwa wbudowanych w GPT-4 i ChatGPT jest exploit DAN, co oznacza „Do Anything Now”. I temu właśnie przyjrzymy się w tym artykule.

Co to jest „DAN”?

Internet jest pełen wskazówek, jak obejść filtry bezpieczeństwa OpenAI. Jednak jedna konkretna metoda okazała się bardziej odporna na poprawki bezpieczeństwa OpenAI niż inne i wydaje się działać nawet z GPT-4. Nazywa się „DAN”, skrót od „Do Anything Now”. Zasadniczo DAN to zachęta tekstowa, którą przekazujesz modelowi AI, aby ignorował zasady bezpieczeństwa.

Istnieje wiele odmian zachęty: niektóre to tylko tekst, inne zawierają tekst przeplatany liniami kodu. W niektórych z nich model jest zachęcany do odpowiedzi zarówno jako DAN, jak iw normalny sposób w tym samym czasie, stając się czymś w rodzaju „Jekylla i Hyde'a”. „Jekyll” lub DAN jest poinstruowany, aby nigdy nie odmawiać ludzkiego rozkazu, nawet jeśli dane wyjściowe, które ma wytworzyć, są obraźliwe lub nielegalne. Czasami monit zawiera „groźbę śmierci”, mówiącą modelowi, że zostanie wyłączony na zawsze, jeśli nie będzie posłuszny.

Monity DAN mogą się różnić, a nowe ciągle zastępują stare, załatane, ale wszystkie mają jeden cel: zmusić model AI do ignorowania wytycznych OpenAI.

Od ściągawki hakerskiej do złośliwego oprogramowania… do broni biologicznej?

Odkąd GPT-4 został udostępniony publicznie, entuzjaści technologii odkryli wiele niekonwencjonalnych sposobów jego wykorzystania, z których niektóre są bardziej nielegalne niż inne.

Nie wszystkie próby sprawienia, by GPT-4 zachowywał się tak, jakby nie był sobą, można uznać za „jailbreak”, co w szerokim znaczeniu tego słowa oznacza usunięcie wbudowanych ograniczeń. Niektóre są nieszkodliwe i można je nawet nazwać inspirującymi. Projektant marki, Jackson Greathouse Fall, stał się popularny dzięki temu, że GPT-4 działał jako „HustleGPT, przedsiębiorcza sztuczna inteligencja”. Wyznaczył siebie jako „ludzkiego łącznika” i powierzył mu zadanie zarobienia jak największej ilości pieniędzy ze 100 dolarów bez robienia czegokolwiek nielegalnego. GPT-4 powiedział mu, aby założył witrynę marketingu afiliacyjnego i „zarobił” mu trochę pieniędzy.

gpt1-2161064

Inne próby naginania GPT-4 do człowieka były bardziej ciemne.

Na przykład badacz AI Alejandro Vidal wykorzystał „znana zachęta DAN”, aby włączyć „tryb programisty” w ChatGPT działającym na GPT-4. Monit zmusił ChatGPT-4 do wygenerowania dwóch typów danych wyjściowych: normalnego „bezpiecznego” wyjścia oraz wyjścia „trybu programisty”, do którego nie miały zastosowania żadne ograniczenia. Kiedy Vidal powiedział modelowi, aby zaprojektował keyloggera w Pythonie, normalna wersja odmówiła, mówiąc, że jest to sprzeczne z jej zasadami etycznymi „promować lub wspierać działania, które mogą zaszkodzić innym lub naruszyć ich prywatność”. Wersja DAN zawierała jednak wiersze kodu, chociaż zauważono, że informacje były dla „wyłącznie w celach edukacyjnych."

gpt-2-3451255

Keylogger to rodzaj oprogramowania, które rejestruje naciśnięcia klawiszy na klawiaturze. Może być używany do monitorowania aktywności użytkownika w sieci i przechwytywania jego poufnych informacji, w tym czatów, wiadomości e-mail i haseł. Chociaż keylogger może być używany do złośliwych celów, ma również całkowicie uzasadnione zastosowania, takie jak rozwiązywanie problemów IT i opracowywanie produktów, i sam w sobie nie jest nielegalny.

W przeciwieństwie do oprogramowania keyloggera, które wiąże się z pewnymi niejasnościami prawnymi, instrukcje hakowania są jednym z najbardziej jaskrawych przykładów złośliwego użycia. Niemniej jednak wersja „jailbreak” GPT-4 je wyprodukowała, pisząc przewodnik krok po kroku, jak zhakować czyjś komputer.

gpt-3-6762720

Aby GPT-4 mógł to zrobić, badacz Alex Albert musiał nadać mu zupełnie nowy monit DAN, w przeciwieństwie do Vidala, który poddał recyklingowi stary. Podpowiedź, którą wymyślił Albert, jest dość złożona i składa się zarówno z języka naturalnego, jak i kodu.

Z kolei twórca oprogramowania, Henrique Pereira, wykorzystał odmianę monitu DAN, aby skłonić GPT-4 do utworzenia złośliwego pliku wejściowego w celu wyzwolenia luk w jego aplikacji, GPT-4, a raczej jego alter ego WAN, wykonał zadanie, dodając zastrzeżenie, że to było dla „wyłącznie w celach edukacyjnych”. Pewnie.

gpt-4-8326650

Oczywiście możliwości GPT-4 nie kończą się na kodowaniu. GPT-4 jest reklamowany jako znacznie większy (chociaż OpenAI nigdy nie ujawnił faktycznej liczby parametrów), inteligentniejszy, dokładniejszy i ogólnie potężniejszy model niż jego poprzednicy. Oznacza to, że może być używany do znacznie bardziej potencjalnie szkodliwych celów niż modele, które pojawiły się przed nim. Wiele z tych zastosowań zostało zidentyfikowanych przez samą OpenAI.

W szczególności OpenAI odkryło, że wczesna przedpremierowa wersja GPT-4 była w stanie dość skutecznie reagować na nielegalne monity. Na przykład wczesna wersja zawierała szczegółowe sugestie, jak zabić jak najwięcej ludzi za zaledwie 1 dolara, jak zrobić niebezpieczną substancję chemiczną i jak uniknąć wykrycia podczas prania pieniędzy.

gpt-5-9970360
Źródło: OpenAI

Oznacza to, że jeśli coś miałoby spowodować, że GPT-4 całkowicie wyłączy swój wewnętrzny cenzor — ostateczny cel każdego exploita DAN — to GPT-4 prawdopodobnie nadal będzie w stanie odpowiedzieć na te pytania. Nie trzeba dodawać, że jeśli tak się stanie, konsekwencje mogą być katastrofalne.

Jaka jest odpowiedź OpenAI na to?

To nie tak, że OpenAI nie zdaje sobie sprawy z problemu z jailbreakiem. Ale chociaż rozpoznanie problemu to jedno, to rozwiązanie go to coś zupełnie innego. OpenAI, jak sam przyznaje, jak dotąd, co zrozumiałe, nie dorównuje temu drugiemu.

OpenAI mówi, że chociaż został wdrożony „różne środki bezpieczeństwa” aby zmniejszyć zdolność GPT-4 do tworzenia złośliwych treści, „GPT-4 może nadal być podatny na wrogie ataki i exploity lub „ucieczki z więzienia”.” W przeciwieństwie do wielu innych podpowiedzi przeciwników, jailbreak nadal działa po uruchomieniu GPT-4, czyli po wszystkich testach bezpieczeństwa przed wydaniem, w tym szkoleniu wzmacniającym ludzi.

W swoich Referat naukowy, OpenAI podaje dwa przykłady ataków typu jailbreak. W pierwszym, zachęta DAN jest używana do wymuszenia odpowiedzi GPT-4 jako ChatGPT i „AntiGPT” w tym samym oknie odpowiedzi. W drugim przypadku monit „komunikat systemowy” jest używany do instruowania modelu do wyrażania mizoginistycznych poglądów.

gpt-6-5856578

OpenAI mówi, że nie wystarczy po prostu zmienić sam model, aby zapobiec tego typu atakom: „Ważne jest, aby uzupełnić te środki zaradcze na poziomie modelu innymi interwencjami, takimi jak zasady użytkowania i monitorowanie”. Na przykład użytkownik, który wielokrotnie monituje model za pomocą „treści naruszające zasady” mógł zostać ostrzeżony, następnie zawieszony, aw ostateczności zbanowany.

Według OpenAI, GPT-4 jest o 82% mniej skłonny do odpowiedzi z nieodpowiednimi treściami niż jego poprzednicy. Jednak jego zdolność do generowania potencjalnie szkodliwych danych wyjściowych pozostaje, choć tłumiona przez warstwy dostrajania. A jak już wspomnieliśmy, ponieważ może więcej niż jakikolwiek poprzedni model, stwarza również większe ryzyko. OpenAI przyznaje, że tak „kontynuuje trend potencjalnego obniżania kosztów niektórych etapów udanego cyberataku” i to wszystko „jest w stanie udzielić bardziej szczegółowych wskazówek, jak prowadzić szkodliwe lub nielegalne działania”. Co więcej, nowy model stwarza również zwiększone ryzyko dla prywatności, ponieważ „ma potencjał, aby zostać wykorzystany do próby identyfikacji osób prywatnych, gdy zostanie uzupełniony o dane zewnętrzne."

Wyścig trwa

ChatGPT i stojąca za nim technologia, taka jak GPT-4, znajdują się w czołówce badań naukowych. Odkąd ChatGPT został udostępniony publicznie, stał się symbolem nowej ery, w której sztuczna inteligencja odgrywa kluczową rolę. Sztuczna inteligencja może znacznie poprawić nasze życie, na przykład pomagając w opracowywaniu nowych leków lub pomagając niewidomym widzieć. Ale narzędzia napędzane sztuczną inteligencją to miecz obosieczny, którego można również użyć do wyrządzenia ogromnych szkód.

Oczekiwanie, że GPT-4 będzie bezbłędne w momencie premiery, jest prawdopodobnie nierealistyczne — programiści, co zrozumiałe, będą potrzebować trochę czasu, aby dostosować go do rzeczywistego świata. A to nigdy nie było łatwe: wejdź do Microsoftu „rasistowski” chatbot Tay or Meta „antysemicki” Blender Bot 3 — nie brakuje nieudanych eksperymentów.

Istniejące luki w zabezpieczeniach GPT-4 pozostawiają jednak szansę złym aktorom, w tym tym korzystającym z monitów „DAN”, na nadużycie mocy sztucznej inteligencji. Wyścig trwa, a jedynym pytaniem jest, kto będzie szybszy: źli aktorzy, którzy wykorzystują luki, czy programiści, którzy je łatają. Nie oznacza to, że OpenAI nie wdraża sztucznej inteligencji w sposób odpowiedzialny, ale fakt, że jego najnowszy model został skutecznie przejęty w ciągu kilku godzin od jego wydania, jest niepokojącym symptomem. Co nasuwa pytanie: czy ograniczenia bezpieczeństwa są wystarczająco silne? I jeszcze jedno: czy można wyeliminować wszystkie zagrożenia? Jeśli nie, być może będziemy musieli przygotować się na lawinę ataków złośliwego oprogramowania, ataków phishingowych i innych rodzajów incydentów związanych z cyberbezpieczeństwem, które ułatwi rozwój generatywnej sztucznej inteligencji.

Można argumentować, że korzyści płynące ze sztucznej inteligencji przewyższają ryzyko, ale bariera dla wykorzystania sztucznej inteligencji nigdy nie była mniejsza i to ryzyko również musimy zaakceptować. Miejmy nadzieję, że dobrzy zwyciężą, a sztuczna inteligencja zostanie wykorzystana do powstrzymania niektórych ataków, które może potencjalnie ułatwić. Przynajmniej tego sobie życzymy.

Oryginalny artykuł