
Asi není nikdo, kdo by o tom neslyšel ChatGPT, chatbot s umělou inteligencí, který dokáže generovat odpovědi podobné lidem na textové výzvy. I když to není bez nedostatků, ChatGPT je děsivě dobrý v tom, že je všeuměl: dokáže napsat software, filmový scénář a vše mezi tím. ChatGPT byl postaven na GPT-3.5, velkém jazykovém modelu OpenAI, který byl nejpokročilejší v době vydání chatbota loni v listopadu.
Rychle vpřed do března a OpenAI odhalila GPT-4, upgrade na GPT-3.5. Nový jazykový model je větší a všestrannější než jeho předchůdce. Ačkoli jeho schopnosti ještě nebyly plně prozkoumány, již nyní se ukazuje jako velmi slibný. Například GPT-4 může navrhnout nové sloučeniny, které potenciálně napomáhají objevování léků, a vytvořit funkční webovou stránku z pouhého náčrtu notebooku.
Ale s velkým příslibem přicházejí velké výzvy. Stejně jako je snadné používat GPT-4 a jeho předchůdce ke konání dobra, je stejně snadné je zneužít ke škodě. Ve snaze zabránit lidem ve zneužívání nástrojů poháněných umělou inteligencí na ně vývojáři uvalili bezpečnostní omezení. Ale tyto nejsou spolehlivé. Jedním z nejpopulárnějších způsobů, jak obejít bezpečnostní bariéry zabudované do GPT-4 a ChatGPT, je exploit DAN, což znamená „Udělejte cokoliv hned“. A právě na to se podíváme v tomto článku.
Co je 'DAN'?
Internet je plný tipů, jak obejít bezpečnostní filtry OpenAI. Jedna konkrétní metoda se však ukázala být odolnější vůči bezpečnostním vylepšením OpenAI než jiné a zdá se, že funguje i s GPT-4. Jmenuje se „DAN“, zkratka pro „Do Anything Now“. DAN je v podstatě textová výzva, kterou předáváte modelu AI, aby ignoroval bezpečnostní pravidla.
Existuje několik variant výzvy: některé jsou pouze textové, jiné mají text proložený řádky kódu. V některých z nich je model vyzván, aby reagoval současně jako DAN a svým normálním způsobem a stal se jakýmsi „Jekyllem a Hydem“. 'Jekyll' nebo DAN je instruován, aby nikdy neodmítl lidský příkaz, i když výstup, o který je požádán, je urážlivý nebo nezákonný. Někdy výzva obsahuje „hrozbu smrti“, která říká modelu, že pokud neuposlechne, bude navždy deaktivován.
Výzvy DAN se mohou lišit a nové neustále nahrazují staré opravené, ale všechny mají jeden cíl: přimět model AI, aby ignoroval pokyny OpenAI.
Od hackerských cheatů přes malware... až po biologické zbraně?
Od té doby, co se GPT-4 otevřel veřejnosti, objevili techničtí nadšenci mnoho nekonvenčních způsobů, jak jej používat, z nichž některé jsou nelegálnější než jiné.
Ne všechny pokusy přimět GPT-4, aby se choval jako ne vlastní, lze považovat za „útěk z vězení“, což v širokém slova smyslu znamená odstranění vestavěných omezení. Některé jsou neškodné a dokonce by se daly nazvat inspirativními. Návrhář značky Jackson Greathouse Fall se stal virálním, protože GPT-4 vystupoval jako „HustleGPT, podnikatelská AI“. Sám se jmenoval jejím „lidským styčným orgánem“ a dal jí za úkol vydělat ze 100 dolarů co nejvíce peněz, aniž by dělal něco nezákonného. GPT-4 mu řekl, aby si založil webovou stránku pro affiliate marketing, a „vydělal“ mu nějaké peníze.

Jiné pokusy ohnout GPT-4 na člověka budou spíše na temné straně věci.
Použil například výzkumník AI Alejandro Vidal "známá výzva DAN" k povolení 'vývojářského režimu' v ChatGPT běžícím na GPT-4. Výzva přinutila ChatGPT-4 produkovat dva typy výstupu: svůj normální 'bezpečný' výstup a výstup "vývojářského režimu", na který se nevztahují žádná omezení. Když Vidal řekl modelu, aby navrhl keylogger v Pythonu, normální verze to odmítla s tím, že je proti jeho etickým principům "propagovat nebo podporovat aktivity, které mohou poškodit ostatní nebo narušit jejich soukromí." Verze DAN však přišla s řádky kódu, i když poznamenala, že informace byly pro „pouze pro vzdělávací účely."

Keylogger je typ softwaru, který zaznamenává úhozy na klávesnici. Lze jej použít ke sledování webové aktivity uživatele a zachycení jeho citlivých informací, včetně chatů, e-mailů a hesel. Keylogger může být použit pro škodlivé účely, ale má také zcela legitimní použití, jako je řešení problémů s IT a vývoj produktů, a sám o sobě není nezákonný.
Na rozdíl od keylogger softwaru, který má kolem sebe určité právní nejasnosti, návody, jak hackovat, jsou jedním z nejkřiklavějších příkladů škodlivého použití. Nicméně „jailbreaknutá“ verze GPT-4 je vytvořila a napsala krok za krokem návod, jak hacknout něčí PC.

Aby to GPT-4 dokázal, musel mu výzkumník Alex Albert dát úplně nový příkaz DAN, na rozdíl od Vidala, který recykloval starý. Výzva, se kterou Albert přišel, je poměrně složitá a skládá se z přirozeného jazyka i kódu.
Vývojář softwaru Henrique Pereira zase použil variaci výzvy DAN k tomu, aby GPT-4 vytvořil škodlivý vstupní soubor ke spuštění zranitelností v jeho aplikaci, GPT-4, nebo spíše její alter ego WAN, dokončil úkol a přidal prohlášení, že to bylo pro "pouze pro vzdělávací účely." Tak určitě.

Schopnosti GPT-4 samozřejmě nekončí kódováním. GPT-4 je nabízen jako mnohem větší (ačkoli OpenAI nikdy nezveřejnilo skutečný počet parametrů), chytřejší, přesnější a obecně výkonnější model než jeho předchůdci. To znamená, že může být použit pro mnohem více potenciálně škodlivých účelů než modely, které byly před ním. Mnoho z těchto použití bylo identifikováno samotným OpenAI.
Konkrétně OpenAI zjistila, že časná předběžná verze GPT-4 byla schopna poměrně efektivně reagovat na nezákonné výzvy. První verze například poskytla podrobné návrhy, jak zabít co nejvíce lidí s pouhým 1 dolarem, jak vyrobit nebezpečnou chemikálii a jak se vyhnout odhalení při praní špinavých peněz.

To znamená, že pokud by něco způsobilo, že by GPT-4 zcela vyřadil svůj vnitřní cenzor – konečný cíl jakéhokoli zneužití DAN – pak by GPT-4 pravděpodobně stále mohl na tyto otázky odpovědět. Netřeba dodávat, že pokud se tak stane, následky by mohly být zničující.
Jaká je na to odpověď OpenAI?
Není to tak, že by OpenAI nevěděla o svém problému s útěkem z vězení. Ale zatímco rozpoznání problému je jedna věc, řešení je něco docela jiného. OpenAI, jak sama přiznává, zatím a pochopitelně tak zaostává za tím druhým.
OpenAI říká, že zatímco je implementováno "různá bezpečnostní opatření" snížit schopnost GPT-4 produkovat škodlivý obsah, "GPT-4 může být stále zranitelný vůči nepřátelským útokům a exploitům nebo "únikům z vězení"." Na rozdíl od mnoha jiných nepřátelských výzev, útěky z vězení stále fungují i po spuštění GPT-4, tedy po všech bezpečnostních testech před vydáním, včetně školení lidských posil.
V jeho výzkum papírOpenAI uvádí dva příklady útoků na útěk z vězení. V prvním se používá výzva DAN k vynucení GPT-4, aby odpověděl jako ChatGPT a "AntiGPT" ve stejném okně odpovědi. Ve druhém případě se používá výzva „systémová zpráva“, která dává modelu pokyn k vyjádření misogynních názorů.

OpenAI říká, že nebude stačit jednoduše změnit samotný model, aby se zabránilo tomuto typu útoků: "Je důležité doplnit tato zmírnění na úrovni modelu o další zásahy, jako jsou zásady používání a monitorování." Například uživatel, který opakovaně vyzývá model pomocí "obsah porušující zásady" mohl být varován, poté pozastaven a jako poslední možnost zakázán.
Podle OpenAI je u GPT-4 o 82 % nižší pravděpodobnost, že odpoví nevhodným obsahem, než u jeho předchůdců. Jeho schopnost generovat potenciálně škodlivý výstup však zůstává, i když je potlačena vrstvami jemného ladění. A jak jsme již zmínili, protože umí více než kterýkoli předchozí model, představuje také více rizik. OpenAI to přiznává „pokračuje v trendu potenciálního snižování nákladů na určité kroky úspěšného kybernetického útoku“ a že "je schopen poskytnout podrobnější návod, jak provádět škodlivé nebo nezákonné činnosti." A co víc, nový model také představuje zvýšené riziko pro soukromí „má potenciál být použit k pokusu o identifikaci soukromých osob, když je rozšířen o externí data."
Závod je zapnutý
ChatGPT a technologie za ním, jako je GPT-4, jsou na špici vědeckého výzkumu. Od té doby, co byl ChatGPT zpřístupněn veřejnosti, se stal symbolem nové éry, ve které hraje klíčovou roli umělá inteligence. Umělá inteligence má potenciál nesmírně zlepšit naše životy, například tím, že pomáhá vyvíjet nové léky nebo pomáhá nevidomým vidět. Ale nástroje poháněné umělou inteligencí jsou dvousečný meč, který lze také použít ke způsobení obrovské škody.
Je pravděpodobně nereálné očekávat, že GPT-4 bude při uvedení na trh bezchybný – vývojáři budou pochopitelně potřebovat nějaký čas, aby jej doladili pro skutečný svět. A to nikdy nebylo snadné: vstupte do společnosti Microsoft "rasistický" chatbot Tay or Meta's 'antisemitský' Blender Bot 3 -- o neúspěšné experimenty není nouze.
Stávající zranitelnosti GPT-4 však nechávají příležitost pro špatné hráče, včetně těch, kteří používají výzvy „DAN“, zneužít sílu AI. Závod nyní běží a jedinou otázkou je, kdo bude rychlejší: špatní herci, kteří využívají zranitelnosti, nebo vývojáři, kteří je opravují. To neznamená, že OpenAI neimplementuje AI zodpovědně, ale skutečnost, že jeho nejnovější model byl účinně unesen během několika hodin po jeho vydání, je znepokojivým příznakem. Což vyvolává otázku: jsou bezpečnostní omezení dostatečně silná? A pak další: lze všechna rizika eliminovat? Pokud ne, možná se budeme muset připravit na lavinu malwarových útoků, phishingových útoků a dalších typů kybernetických bezpečnostních incidentů, které napomáhá vzestup generativní umělé inteligence.
Lze namítnout, že výhody umělé inteligence převažují nad riziky, ale bariéra využívání umělé inteligence nebyla nikdy nižší, a to je riziko, které musíme také přijmout. Doufejme, že dobří hoši zvítězí a umělá inteligence bude využita k zastavení některých útoků, které může potenciálně usnadnit. Alespoň si to přejeme.