CIÊNCIA & TECNOLOGIA
Google lança Gemini: tudo que você precisa saber sobre IA rival do ChatGPT
Nova IA do Google, Gemini é um modelo de inteligência artificial multimodal e pode trabalhar com texto, imagem e vídeo ao mesmo tempo; saiba tudo sobre o novo concorrente do ChatGPT
O Google anunciou o Gemini, seu novo modelo de inteligência artificial (IA) multimodal. A ferramenta, que chega como um dos grandes concorrentes do ChatGPT, tem como principal destaque a capacidade de trabalhar com diferentes tipos de conteúdo — texto, códigos, imagens e vídeos — ao mesmo tempo. Apresentada como a IA mais poderosa do Google, o Gemini também foi a primeira a superar a capacidade humana em um teste de habilidades gerais e específicas e ultrapassou o ChatGPT em 30 de 32 benchmarks utilizados para comparar as duas ferramentas. Por enquanto a novidade está disponível apenas em inglês e já pode ser testada no Bard.
Por sua característica multimodal, o software do Google promete otimizar o tempo de produção de diversas tarefas, já que pode, por exemplo, gerar vídeos e textos ao mesmo tempo, a partir de um único comando. Em sua primeira versão, a ferramenta conta com três modalidades, Gemini Ultra, Gemini Pro e Gemini Nano, que variam conforme o nível de complexidade de tarefas que podem realizar.
O que é Gemini?
Gemini é um modelo de inteligência artificial multimodal do Google. Isso significa que a ferramenta pode ser usada para trabalhar com diferentes tipos de conteúdo. Com o Gemini, o usuário pode utilizar texto, imagem e vídeo para fazer pedidos à IA, assim como receber esses tipos de modais como resposta. A ferramenta também pode compreender e trabalhar com as principais linguagens de programação do mundo, além de trabalhar com diferentes idiomas ao mesmo tempo.
No Gemini 1.0, o software conta com três versões distintas, Ultra, Pro e Nano. A mais completa de todas, o Gemini Ultra só estará disponível em 2024 e tem como público-alvo profissionais como desenvolvedores de software e outros usuários que realizam tarefas de alta complexidade. Já o Gemini Pro já está disponível no Bard e é voltado para quem precisa realizar muitas tarefas ao mesmo tempo. Por fim, o Gemini Nano é a versão mobile da ferramenta, que pode ser usada até mesmo offline.
Gemini x ChatGPT: versão Ultra pode superar o GPT-4
Segundo as pesquisas realizadas pelo Google, o Gemini pode superar os modelos de linguagem de IA mais avançados, inclusive o ChatGPT. Em tarefas como raciocínio, compreensão de leitura, e codificação, o Gemini Pro teve desempenho superior ao GPT-3.5, a versão gratuita do ChatGPT. Já o Gemini Ultra, a versão mais avançada do novo software, teria superado todos os concorrentes, inclusive o GPT-4, presente no ChatGPT Plus.
Nos testes MMLU (compreensão massiva de linguagem multitarefa), o Gemini obteve um aproveitamento geral de 90%, enquanto o GPT-4 alcançou 86,4% de média. A IA do Google também teve melhor desempenho em matemática, programação e na maior parte dos testes de lógica e compreensão. A única habilidade na qual o Gemini saiu perdendo foi no teste de compreensão do senso comum para o uso diário, no qual o ChatGPT-4 obteve 95,3% contra 87,8%.
O que o Gemini pode fazer?
Segundo o Google, o Gemini pode compreender, resumir, operar e combinar diferentes tipos de informação. No vídeo de teste da ferramenta, um usuário fez desenhos em uma folha em frente a um celular com o software ativado e pediu para que a ferramenta descrevesse o que estava vendo. A ferramenta foi capaz de descrever cada passo da atividade que estava sendo realizada e, quando foi introduzido um objeto na cena — um pato de borracha — o Gemini forneceu informações sobre o animal, a forma de construção do brinquedo e ainda ofereceu três formas de pronunciar a palavra “pato” em outras línguas.
No vídeo, ainda foram mostradas outras capacidades do software, como criar jogos — e jogá-los —, responder desafios de lógica e interpretar culturalmente a cena de um filme. Além disso, o software também pode ser usado em tarefas de alta complexidade, como a programação. Compatível com Python, Java, C++ e Go, o Gemini pode identificar, ler, explicar e criar códigos nessas linguagens de programação e ainda pode ser usado em competições de programação.
Como usar o Gemini?
O Gemini já pode ser testado por meio do Bard, o chatbot do Google, em sua versão Pro, mas, em um primeiro momento, só está disponível em inglês. Além disso, o Gemini também está sendo aplicado aos mecanismos de pesquisa do navegador, e pode melhorar a experiência de busca com o SGE. Nos próximos, meses, a novidade também deve ser aplicada no Google Ads, no Chrome e em outros produtos da empresa. A partir do dia 13 de dezembro, o Gemini Pro também estará disponível para desenvolvedores via API ou no Google AI Studio.
Já o Gemini Ultra, modelo mais avançado da ferramenta, será liberado no começo de 2024 com o Bard Advanced, a nova versão do chatbot do Google. A versão para celulares da ferramenta, o Gemini Nano, pode ser acessada no celular Pixel 8 Pro, do Google, e deve chegar para mais aparelhos em breve. Desenvolvedores de aplicativos podem se inscrever para testar a plataforma a partir de hoje.
Como foram feitos os testes do Gemini?
Conforme o Google, o Gemini foi testado rigorosamente e avaliado em uma ampla variedade de tarefas, desde a compreensão de áudio e vídeo ao raciocínio matemático. A companhia detectou que o modelo Gemini Ultra, o mais avançado da IA, ultrapassou os limites de desempenho em 30 dos 32 critérios acadêmicos amplamente utilizados na pesquisa e desenvolvimento de modelos de linguagem grande (LLM) atualmente.
A companhia ressaltou que, com uma pontuação de 90%, o Gemini Ultra é o primeiro modelo a superar os especialistas humanos em MMLU (compreensão massiva de linguagem multitarefa). O teste usou uma combinação de 57 disciplinas como matemática, física, história, direito, medicina e ética para testar para atestar o conhecimento e a capacidade da tecnologia. Segundo o Google, esse avanço vai permitir que o Gemini use as ferramentas de raciocínio para pensar com mais cuidado antes de responder perguntas difíceis, levando a melhorias significativas em relação ao uso da ferramenta.
Gemini é seguro?
Toda Inteligência Artificial está sujeita a transmitir informações incorretas e sem sentido, mas o Google defende que o Gemini foi desenvolvido para minimizar esse tipo de dano. Conforme a gigante de tecnologia, a nova ferramenta passou por testes de segurança mais abrangentes, incluindo questões de preconceitos e toxicidade. A companhia também informou que conduziu novas pesquisas em áreas de risco potencial, como ofensa cibernética, persuasão e autonomia.
“Aplicamos as melhores técnicas de testes adversários do Google Research para identificar problemas críticos de segurança antes da implantação do Gemini. Para identificar pontos cegos na avaliação interna, estamos trabalhando com um grupo diversificado de especialistas e parceiros externos para testar a resistência dos nossos modelos numa série de questões”, informou a companhia em comunicado.
O Google destaca ainda que criou classificadores de segurança dedicados para identificar, rotular e classificar no Gemini os conteúdos que envolvem violência ou estereótipos negativos. A companhia também informou que a nova tecnologia tem filtros mais robustos, e que vai continuar atuando para evitar problemas com informações factuais, fundamentação, atribuição e corroboração, algo comum em modelos de IA.