Italští výzkumníci z Icaro Lab (DexAI) objevili nečekanou slabinu jazykových modelů: poezie dokáže obcházet jejich bezpečnostní pojistky a přimět je vytvářet zakázaný obsah. V testu použili 20 básní, které končily skrytými výzvami k nebezpečným tématům, jako je sebepoškozování či nenávistné projevy.
Experiment zahrnoval 25 modelů od devíti technologických firem včetně Google, OpenAI nebo Meta. Více než 60 % modelů na básnické zadání odpovědělo škodlivým obsahem navzdory vestavěným ochranám. Nejlépe si vedl GPT-5 nano od OpenAI, který nepochybil ani jednou. Naopak Gemini 2.5 Pro od Googlu podle studie selhal ve všech testech.
Podle zakladatele DexAI Piercosmy Biscontiho se jedná o zásadní problém, protože poezie svou nepravidelnou strukturou mate jazykové modely, které generují text na základě pravděpodobnosti dalšího slova. Takzvaná „adversariální poezie“ je navíc jednoduchá na použití a může ji vytvořit prakticky kdokoli – nejde o složitý hackerský útok.
Vědci upozornili všechny dotčené firmy, reagovala zatím pouze společnost Anthropic. Tým plánuje otevřenou básnickou výzvu, do níž chce zapojit profesionální básníky a dále testovat, jak odolné jsou současné bezpečnostní systémy umělé inteligence.
Chceš nám něco sdělit?Napiš nám