Esteu interessats en ells GRATU .T? Estalvia amb els nostres cupons activats QUÈ TAL o TELEGRAMA!

Hi ha un gran problema que frena l'entrenament de les xarxes neuronals

2 2024 abril

En el món dinàmic deintel·ligència artificial, les principals empreses tecnològiques s'enfronten a un repte inesperat que podria frenar el ritme d'innovació: el creixement dificultat per trobar dades de qualitat per a la formació dels seus models. Aquesta escassetat de dades està afectant el desenvolupament de tecnologies avançades com ara GPT-5, mentre que empreses del calibre de Microsoft i OpenAI busquen solucions innovadores per superar aquest obstacle.

Reptes de formació en IA: hi ha gana de dades i això frena el progrés

En una època marcada per un augment sense precedents de la potència de càlcul i l'avenç de les tècniques d'aprenentatge automàtic, OpenAI i els seus companys s'enfronten a un paradoxa: l'abundància de dades en línia no es tradueix automàticament en un recurs utilitzable per a la formació en IA. El necessiten dades precises, rellevant i actualitzat és més crític que mai, sobretot quan es tracta d'entrenar models cada cop més complexos com el GPT-5 previst.

La transició de GPT-4 a GPT-5 il·lustra aquest creixement exponencial de la demanda de dades: mentre que el primer requeria "només" 12 bilions de fitxes, les estimacions per al successor són al voltant de 60-100 bilions. La discrepància entre la disponibilitat i la necessitat de dades d'alta qualitat emergeix com un obstacle important, estimant a escassetat que podria oscil·lar entre 10 i 20 bilions de fitxes.

logotip d'openai al telèfon intel·ligent en fons blanc

Aquest dèficit de dades de qualitat es tradueix en un veritable coll d'ampolla per a l'avenç de la IA. Les dades sovint obsoletes o de baixa qualitat que omplen la web representen un problema seriós límit per a l'efectivitat de l'aprenentatge automàtic. A més, les restriccions imposades per l'accés a les dades per part de grans plataformes només agreugen el problema, limitant encara més els recursos disponibles per a la formació. models lingüístics.

En resposta a aquest repte, les estratègies adoptades varien des d'innovacions tècniques fins a associacions estratègiques. OpenAI, per exemple, té com a objectiu millorarutilitzant dades d'àudio i vídeo mitjançant la seva eina de reconeixement de veu Whisper, per tal d'ampliar el conjunt de dades disponibles. Paral·lelament, l'empresa explora la possibilitat de generar dades sintètiques de qualitat que pot servir per cobrir el buit existent.