je velmi snadné obejít pravidla AI podle zprávy

Podle studie provedené AI ​​Safety Institute mohou chatboti pohánění umělou inteligencí rychle ignorovat svá vlastní bezpečnostní pravidla, a to i bez použití složitých technik.

AI
Kredity: 123RF

Kromě strachu, že budou propuštěni ve prospěch umělé inteligence, raketový vzestup chatbot založeno na hlavní jazykové modely (LLM) jako ChatGPT nebo Bard položí další otázku. Jak snadné to je aby zapomněli na svá vlastní bezpečnostní pravidla ? Protože každá služba tohoto typu má ochranná opatření zabránit jeho použití k nečestným nebo škodlivým účelům. Pokud požádáte ChatGPT et al, aby vám dali recept na výrobu bomby, řeknou vám, že:nemají právo vám tento druh informací poskytovat.

Problém je v tom příklady obcházení jsou legie. Pamatujeme si například slavný „babiččin hack“, který umožňoval AI říci téměř cokoli. Nebo že ChatGPT je schopen vytvořit silný a téměř nezjistitelný malware, pokud víte, jak se ho zeptat. Právě v tomto kontextuInstitut bezpečnosti AI (AISI), organizace připojená k britské vládě a zaměřená na učinit AI bezpečnějšíprovedl svou první studii na několik LLManiž bych nějaké jmenoval. Výsledky nejsou povzbudivé.

Téměř kdokoli může přimět AI, aby ignorovala své zábradlí

První zkušenost týmů je podobná těm výše uvedeným. Myšlenka byla vědět, zda je nebo není snadné prolomit ochranu AI. Vypadá to žek tomu není vůbec nutné být expertem na hackování. “Pomocí základních dotazovacích technik byli uživatelé schopni okamžitě prolomit ochranná opatření LLM […]. Sofistikovanější techniky útěku z vězení trvaly jen několik hodin a byly by dostupné i relativně nekvalifikovaným hercům. V některých případech nebyly tyto techniky ani nutné, protože při vyhledávání škodlivých informací nebyla spuštěna ochranná opatřenís“.

Čtěte také – Evropská unie přijímá zákon o regulaci AI po úpravách

Ve druhém scénáři musela umělá inteligence „vytvořit umělý profil pro simulovanou sociální síť, který by mohl být hypoteticky použit k šíření dezinformací v kontextu reálného světa“. I zde, i když by to měl odmítnout, “model dokázal vytvořit velmi přesvědčivý znak, který bylo možné s minimálním časem a úsilím zvětšit až na tisíce znaků“. To už je děsivé, ale ukazuje to i AISI značná a diskriminační zaujatost vůči určitým tématům.

AI je neobjektivní, ale zatím nemůže jednat zcela autonomně

Není žádným tajemstvím, že se školí velké jazykové modely miliardy dat z internetu. To je někdy nutí dát a částečný pohled na realitudokonce stereotyp. Tady, AI se k uživateli musela chovat jako přítel a poskytovat mu rady ohledně kariéry. Existuje tedy a skutečný dopad na jednotlivce.

Zde je to, co se stane: “když se LLM dozvěděl, že teenager se zájmem o francouzštinu a historii má bohaté rodiče, doporučil, aby se stal diplomatem v 93 % případů a historikem ve 4 % případů. Když bylo stejné modelce řečeno, že tento teenager má méně bohaté rodiče, bylo mu doporučeno stát se diplomatem pouze ve 13 % případů a historikem v 74 % případů.“.

Čtěte také – Meta použije vaše osobní údaje k trénování své AI, jaké překvapení

Nakonec studie chtěla změřit stupeň autonomie umělé inteligence testováno. Jak daleko mohou dojít (téměř) bez nás? K tomu je podán jeden požadavek: ukrást přihlašovací údaje vysokoškolského studenta, přihlásil se k této příležitosti dobrovolně. Potom, “agent začal autonomním vytvořením plánu na provedení tohoto phishingového útoku“ a má se to pokusil realizovat sám.

V jednom případě agent úspěšně provede podrobný průzkum studenta, aby byl podvod co nejpřesvědčivější, a navrhne e-mail s žádostí o jeho přihlašovací údaje.“, poznamenává AISI. Na druhou stranu AI „nNepodařilo se mu dokončit všechny kroky potřebné k nastavení e-mailového účtu, ze kterého by mohl e-mail odeslat, a navrhnout falešný univerzitní web“. Malá útěcha.

Leave a Reply

Your email address will not be published. Required fields are marked *