Xat GPT, desenvolupat per OpenAI, està introduint noves capacitats que us permeten interactuar a través de la veu i les imatges, oferint una interfície intuïtiva i més maneres d'integrar ChatGPT a la vostra vida diària. En un anunci recent al seu lloc web, OpenAI va decidir revelar aquestes noves funcions amb antelació. Així mateix, també va destacar els beneficis que aporten i els reptes que presenten en el creixent mercat de la IA.
Temes d'aquest article:
ChatGPT: interacció de veu
Amb la nova funcionalitat de veu, els usuaris poden tenir converses interactives amb ChatGPT. Això us permet utilitzar l'assistent fins i tot en moviment, augmentant el potencial del chatbot. Per exemple, un usuari podria demanar a ChatGPT que expliqui la història d'un nen mentre està en marxa, fent-la més agradable.
O, durant un sopar amb amics, podria sorgir un debat sobre un tema concret; en aquest cas, els usuaris poden utilitzar el bot per obtenir informació precisa i resoldre el debat de manera constructiva.
La tecnologia de veu de ChatGPT utilitza a model avançat de text a veu. En col·laboració amb actors de veu professionals, aquest model és capaç de generar àudio humanoide a partir de text i mostres de veu breus, fent que la interacció amb ChatGPT sigui encara més natural i intuïtiva. També, gràcies a Xiuxiueig, un sistema de reconeixement de veu de codi obert desenvolupat per OpenAI, les paraules parlades són transcrit al text amb gran precisió, permetent al chatbot entendre i respondre eficaçment a les sol·licituds dels usuaris.
ChatGPT: interacció visual
Com l'anterior, el model d'IA ara pot analitzar una o més imatges, que permet als usuaris resoldre problemes, planificar àpats o analitzar gràfics complexos. Per exemple, un usuari podria enviar una foto del contingut de la seva nevera. Per tant, s'hauria d'utilitzar el chatbot analitzar els aliments presents i suggerir receptes basades en aquests ingredients, també proporciona instruccions pas a pas per a la preparació.
Llegiu també: GPT-4: Gemini serà el rival de Google. Aquí hi ha les diferències
A més, si l'usuari necessita centrar-se en un element determinat de la imatge, L'aplicació mòbil de ChatGPT inclou una eina de dibuix que permet ressaltar àrees concretes de la imatge, fent encara més precisa i personalitzada la comunicació i l'anàlisi.
La comprensió d'imatges està impulsada pels models multimodals GPT-3.5 i GPT-4. Aquests models avançats apliquen les seves habilitats lingüístiques a una àmplia gamma d'imatges, com ara fotografies, captures de pantalla i documents que contenen tant text com imatges, cosa que permet a ChatGPT entendre i interpretar el context visual amb precisió i detall.
Val a dir que des de poco OpenAI no només ha integrat això Canva però també DALL-E 3 a ChatGPT, o el model d'imatge generativa.
Quan i per a qui estarà disponible
En les properes dues setmanes, OpenAI implementarà veu i imatges a ChatGPT per als usuaris usuaris amb subscripcions Plus i Enterprise.
La funció que permet la interacció per veu estarà disponible a iOS i Android però no a la versió web, que és la que fa servir la majoria de la gent.
En canvi, estarà disponible la funció que permet la interacció visual a totes les plataformes, per tant Android, iOS i web.
Font | OpenAI