fbpx
ChatGPT ChatGPT

ChatGPT ahora habla, escucha y puede comprender imágenes

Puede tocar para hablar con ChatGPT y le responderá en una de las cinco opciones de voz preferidas.

Aunque parezca difícil de creer, el chatbot popular y favorito de todos, ahora puede ver, oír y también hablar. Y es que el pasado lunes, OpenAI anunció nuevas capacidades multimodales para ChatGPT. Los usuarios ahora tienen la capacidad de poder tener conversaciones de voz o incluso, compartir imágenes con ChatGPT en tiempo real. ¡Descubra aquí todos los detalles al respecto!

 

Nuevas capacidades multimodales para ChatGPT

En la actualidad las funciones de audio y multimodales se han convertido en la siguiente fase en la feroz competencia de la Inteligencia Artificial Generativa. Meta por ejemplo, lanzó recientemente AudioCraft para generar música con IA y Google Bard y Microsoft Bing, han implementado funciones multimodales para sus experiencias de chat. Por su parte, hace tan solo pocos días Amazon presentó una vista previa de una versión renovada de Alexa que funcionará con su propio LLM (modelo de lenguaje grande), e incluso Apple está experimentando con voz generada por Inteligencia Artificial, con Personal Voice .

 

Lo cierto es que las capacidades de voz estarán disponibles en iOS y en Android. Del mismo modo que Alexa o Siri, puede tocar para hablar con ChatGPT y le responderá en una de las cinco opciones de voz preferidas. A diferencia de los asistentes de voz actuales, ChatGPT logra funcionar con LLM más avanzados, por lo que lo que escuchará es el mismo tipo de respuesta conversacional y creativa que GPT-4 y GPT-3.5 de OpenAI son capaces de crear con texto.

 

El reconocimiento multimodal es algo que se pronosticaba desde hace algún tiempo y ahora se lanza de forma fácil de usar para el chabot popular ChatGPT. Ahora, los usuarios pueden cargar una imagen de algo y preguntarle a ChatGPT al respecto; identificar una nube o incluso, hacer un plan de comidas basado en una foto del contenido de su refrigerador. No se debe pasar por alto que Multimodal estará disponible en todas las plataformas.

 

Ahora bien, para mitigar los riesgos de los deepfakes de audio, OpenAI ha mencionado que solo utiliza su tecnología de reconocimiento de audio para el caso de uso específico de “chat de voz”. Además, según han dado a conocer, fue creado con actores de doblaje con los que “trabajaron directamente”. Dicho esto, el anuncio no menciona si las voces de los usuarios se pueden utilizar para entrenar el modelo cuando se inscribe en el chat de voz.

 

En lo que respecta a las capacidades multimodales de ChatGPT, OpenAI dice que ha “tomado medidas técnicas para limitar significativamente la capacidad de ChatGPT para analizar y hacer declaraciones directas sobre las personas, ya que ChatGPT no siempre es preciso y estos sistemas deben respetar la privacidad de las personas”

 

Finalmente, se debe acotar que el chat de voz y las imágenes se implementarán para los usuarios de ChatGPT Plus y Enterprise en las próximas dos semanas, y para todos los usuarios “poco después”.

 

Deja un comentario