Esteu interessats en ells GRATU .T? Estalvia amb els nostres cupons activats QUÈ TAL o TELEGRAMA!

Què és Mamba, l'arquitectura que pretén superar completament GPT. Nova era de la IA?

Gener 18 2024

una serp digital representa simbòlicament l'arquitectura Mamba en intel·ligència artificial

Avui vull anar una mica més tècnic. Parlem d'intel·ligència artificial cada dia però és correcte saber en què es basa i com funciona. En aquest sentit us vull presentar mamba, una nova arquitectura que promet canviar i models lingüístics tal com els coneixem avui. Les característiques de Mamba, en comparació amb les de GPT, són extremadament superiors, així com el que et permet fer.

Mamba és un nou horitzó per a la intel·ligència artificial

L'arquitectura Transformer, presentada el 2016 a través de la ponència “L'atenció és tot el que necessiteu” de Google, va representar un avenç per als models lingüístics, permetent-los mantenir el context en les interaccions. En resum: arquitectura Transformer és un model d'IA que s'utilitza per crear models com GPT (Transformador preentrenat generatiu).

COM FUNCIONA L'ARQUITECTURA DEL TRANSFORMADOR

El cor de l'arquitectura Transformer és el mecanisme de "attenzione", que permet al model centrar-se en parts específiques d'un text mentre en genera o processa un altre. Aquest mecanisme fa que Transformers sigui especialment efectiu per entendre el context i les relacions complexes dins d'un text. A la pràctica, els models basats en l'arquitectura Transformer, com ara GPT, aprenen a generar i entendre el llenguatge a través de dues etapes principals: formació (entrenament) i inferència (generació de textos).
Durant el training, el model s'entrena en grans conjunts de dades de text per entendre estructures lingüístiques, relacions entre paraules, context, etc. En fase de inferència, el model utilitza el que ha après per generar text nou, respondre preguntes, traduir idiomes i altres tasques de processament d'idiomes.

Tanmateix, l'aparició de Mamba podria marcar l'inici d'una nova era. Aquesta arquitectura promet ser-ho més eficient, capaç de superar alguns reptes clau als quals s'enfronten els models actuals com el GPT. Concretament, tres aspectes clau fan de Mamba una arquitectura prometedora:

costos d'inferència reduïts: Un aspecte clau de Mamba és la reducció significativa dels costos d'inferència. Com he dit abans, la inferència és el procés pel qual un model d'IA, després d'haver estat entrenat, aplica el que ha après a dades noves, generant text o imatges. En models complexos com GPT-3 o GPT-4, aquest procés pot ser car pel que fa als recursos computacionals. Mamba ho promet reduir aquests costos fins a cinc vegades en comparació amb els models basats en Transformer, que podrien tenir un impacte important, especialment per a aplicacions que requereixen una generació de resposta ràpida o treballen amb grans conjunts de dades;
cost de càlcul de l'atenció lineal: El segon avantatge de Mamba es refereix a l'eficiència en el càlcul de l'atenció. En els models de transformador, el cost creix potenzialment (precisament a nivell de poder, no és una figura retogràfica) a mesura que augmenta la longitud del text. Això vol dir que com més llarg sigui el text, més recursos es necessiten per processar-lo, limitant la practicitat dels models en algunes aplicacions. Mamba proposa una solució on el cost creix linealment en comparació amb la mida de la finestra d'atenció, fent que el processament de textos llargs sigui més manejable i menys onerós en termes computacionals;
entrada molt més gran: Mamba podria gestionar una finestra d'entrada màxima fins a 1 milió de fitxesn, molt més del que és possible amb l'arquitectura Transformer. Això vol dir que Mamba podria, teòricament, analitzar i comprendre textos extremadament llargs, com ara llibres sencers, mantenint la coherència i els detalls en context. Per exemple, podria analitzar una novel·la sencera mantenint una comprensió clara dels personatges, la trama i els temes des del principi fins al final.

Malgrat les promeses de Mamba, el paper puja dubtes sobre la seva escalabilitat, especialment en comparació amb models massius com el GPT-4, que té 175 milions de paràmetres. L'escalabilitat, en termes molt senzills, es refereix la capacitat d'un sistema per fer front a un augment de treball o créixer de mida sense perdre eficàcia. Imagineu un petit restaurant que li va bé amb pocs clients. Si el restaurant es fa popular i comença a tenir molts més clients, hauria de ser capaç d'afrontar aquest augment sense comprometre la qualitat del servei o el menjar. Si té èxit, llavors és "escalable".

Mamba, en el seu estat actual, ha estat provat només amb 3 milions de paràmetres. Per tant, encara no se sap si el seu rendiment i eficiència es poden mantenir o millorar quan s'escalen a mides més grans.