GPT-4o escrito em um card branco em um fundo colorido de giz de cera
OpenAI/Divulgação

Muitos esperavam o anúncio de um buscador de internet com inteligência artificial, mas a OpenAI, criadora do ChatGPT, acabou mostrando o GPT-4o. O novo grande modelo de linguagem (LLM, em Inglês) com capacidade de processar simultaneamente voz, texto e visão foi projetado para ser implementado de maneira “iterativa” em uma variedade de produtos da empresa, tanto para desenvolvedores quanto para consumidores.

O GPT-4o (“o” significa “omni”) destaca-se por oferecer uma experiência de usuário mais rica e integrada, quase como uma assistente virtual – só que realmente inteligente. Mira Murati, CTO da OpenAI, enfatizou que, embora o GPT-4o mantenha a inteligência característica do GPT-4, ele transcende seu predecessor em termos de capacidades de processamento de texto, imagens e, agora, áudio.

A introdução do GPT-4o representa um salto qualitativo em relação ao GPT-4 Turbo, o modelo anterior da OpenAI, usado no ChatGPT Plus e no Microsoft Copilot, que já era capaz de analisar imagens e texto. Com a adição da fala, o GPT-4o abre caminho para uma série de novas funcionalidades, melhorando significativamente a experiência do usuário.

Agora, os usuários podem interagir com o ChatGPT de forma mais dinâmica e assistencial, fazendo perguntas por voz e interrompendo o modelo enquanto ele responde, com o GPT-4o oferecendo respostas em tempo real e até mesmo captando emoções na voz do usuário.

Visão e áudio aprimorados

Além de melhorar a interação por voz, o GPT-4o aprimora as capacidades de visão do ChatGPT. Com a habilidade de responder rapidamente a perguntas relacionadas a imagens ou telas de computador, o modelo facilita tarefas como identificar o que está ocorrendo em um código de programação ou reconhecer marcas em vestuário.

Em um vídeo divulgado pela companhia, o ChatGPT com GPT-4o foi capaz de descrever cenários em tempo real para uma pessoa com deficiência visual, com riqueza de detalhes, e até ajudar a chamar um táxi que passava próximo.

Murati expressou otimismo quanto ao futuro, antecipando que os recursos do GPT-4o continuarão a evoluir, permitindo, por exemplo, que o ChatGPT “assista” a eventos esportivos ao vivo e forneça explicações em tempo real.

O GPT-4o também se destaca por seu desempenho multilíngue aprimorado, suportando 50 idiomas diferentes e oferecendo uma API duas vezes mais rápida e econômica que o GPT-4 Turbo. No entanto, a voz ainda não está disponível na API do GPT-4o para todos os clientes, com a OpenAI planejando lançar primeiro o suporte para áudio para um grupo seleto de parceiros comerciais.

Disponibilidade

O GPT-4o já está disponível no nível gratuito do ChatGPT e para assinantes dos planos premium, com limites de mensagens maiores para quem paga a assinatura – no momento da publicação deste texto, estava em torno de R$ 95. A OpenAI também planeja implementar uma experiência de voz aprimorada para usuários Plus e opções Enterprise com GPT-4o.

Em paralelo, a OpenAI está lançando uma interface de usuário atualizada para o ChatGPT e um aplicativo desktop para macOS, com uma versão para Windows prevista ainda este ano. Além disso, o acesso à GPT Store e recursos anteriormente pagos agora estão disponíveis para usuários do nível gratuito.