ChatGPT ganha voz e responde a perguntas sobre imagens

Atualizado em 26 de Outubro, 2023 às 18:21

A OpenAI, empresa de pesquisa em inteligência artificial, anunciou duas novas atualizações para o ChatGPT: a capacidade de conversar com o chatbot usando sua voz e a capacidade de responder a perguntas sobre imagens.

A capacidade de conversar com o ChatGPT usando a voz é baseada em dois modelos distintos. O primeiro, o Whisper, converte o que você diz em texto, que é então enviado ao chatbot. O segundo, um novo modelo de transformar texto em fala, converte as respostas do ChatGPT em palavras faladas.

A OpenAI está oferecendo cinco vozes sintéticas diferentes para os usuários escolherem. Elas foram criadas treinando o modelo de conversão de texto em fala com as vozes de atores contratados pela empresa.

O ChatGPT também agora pode responder a perguntas sobre imagens. Isso significa que você pode carregar imagens no aplicativo e fazer perguntas sobre o que elas mostram.

Por exemplo, você pode perguntar: “O que é essa árvore?” ou “Qual é o nome da cidade nessa foto?”. O ChatGPT irá usar seu conhecimento do mundo para responder às suas perguntas de forma informativa e concisa.

Essas atualizações se juntam ao anúncio feito na semana passada de que o DALL-E 3, a versão mais recente do modelo de criação de imagens da OpenAI, será conectado ao ChatGPT para que você possa fazer com que o chatbot gere imagens.

Dados interessantes:

A OpenAI está compartilhando seu modelo de conversão de texto em fala com várias outras empresas, incluindo o Spotify, que revelou estar usando a mesma tecnologia de voz sintética para traduzir podcasts de celebridades em vários idiomas.
O ChatGPT Plus, o aplicativo premium da OpenAI, agora é um local único e elegante para os melhores modelos da empresa, reunindo o GPT-4 e o DALL-E em um único aplicativo para smartphone.
A OpenAI está ciente dos riscos de liberar essas atualizações para o público, mas afirma ter resolvido os piores problemas.

IA