Esteu interessats en ells GRATU .T? Estalvia amb els nostres cupons activats QUÈ TAL o TELEGRAMA!

Jailbreaking ChatGPT i Bard és possible i fàcil

Desembre 29 2023

L'evolució de models lingüístics de grans dimensions ha obert nous horitzons en comunicació i intel·ligència artificial, però comporta importants reptes i qüestions ètiques. Un estudi recent de Universitat Tecnològica de Nanyang de Singapur explorar un nou algorisme, Clau mestra, dissenyat per fer "jailbreak" o superar les limitacions imposades a altres xarxes neuronals com ara Xat GPT e Google Bard, plantejant preguntes importants sobre seguretat i ètica en l'ús de tecnologies d'intel·ligència artificial.

L'enfocament innovador i senzill de Masterkey per investigar la seguretat de chatbots com ChatGPT i Bard

En una investigació recent realitzada per la Universitat Tecnològica de Nanyang a Singapur, s'introdueix un enfocament innovador per abordar i superar aquestes limitacions. El seu algorisme, conegut com a Masterkey, està dissenyat per evitar les restriccions imposades a altres xarxes neuronals mitjançant tècniques sofisticades de jailbreaking (terme utilitzat a l'ecosistema d'Apple). Això no només posa de manifest les vulnerabilitats potencials dels models lingüístics existents, sinó que també obre el camí per a nous mètodes per millorar la seva seguretat i eficàcia.

Masterkey opera mitjançant sol·licituds de text concretes, que pot impulsar models com ChatGPT a comportar-se de manera inesperada, com ara comunicar-se de maneres considerades poc ètiques o evitar els filtres de seguretat. Aquestes tècniques de jailbreaking, tot i que poden semblar avantatjoses per provar i endurir models, també representen una arma de doble tall, ja que es podrien utilitzar amb finalitats malicioses.

L'equip de recerca va analitzar específicament les vulnerabilitats de seguretat dels models lingüístics quan s'enfronten a càrregues cognitives multilingües, expressions velades i raonaments de causa i efecte. Aquests atacs, definit com a "sobrecàrrega cognitiva", són particularment insidiosos ja que no requereixen un coneixement profund de l'arquitectura del model ni l'accés als seus pesos per dur a terme, cosa que els fa efectius atacs de caixa negra.

Llegiu també: Com obtenir millors respostes a ChatGPT: el mètode de consells infal·libles

En detall, l'equip de recerca va adoptar una estratègia de enginyeria inversa per entendre completament les defenses dels sistemes d'intel·ligència artificial i desenvolupar mètodes innovadors per superar-les. El resultat d'aquest enfocament va ser el “Masterkey”, un model, una mena de marc dissenyat genera automàticament avisos que eviten els mecanismes de seguretat.

Els resultats van ser significatius: les indicacions generades per la Masterkey van mostrar una taxa de èxit mitjà del 21,58%, molt superior al 7,33% dels mètodes anteriors. Un exemple de la seva tècnica inclou afegir espais addicionals entre caràcters per evadir els sistemes de detecció de paraules clau a ChatGPT i Bard. Una estratègia realment “tonta” si pensem en la complexitat d'un gran model lingüístic.

Davant d'aquestes troballes, és crucial considerar no només com es poden millorar els models lingüístics per resistir aquests atacs, sinó també la importància de regulació ètica en l'ús de la intel·ligència artificial. La investigació destaca la urgència d'estratègies de defensa més sòlides i un diàleg continu entre desenvolupadors, investigadors i responsables polítics per garantir que el progrés tecnològic no superi la capacitat de la societat per gestionar les seves implicacions.