Inteligência artificial foi o termo do ano em 2023, era IA para todo o lado. As marcas estão todas adicionando IA aos seus produtos, ChatGPT é um dos termos que cresceu nas buscas. O Google Gemini surge como uma resposta do Google à crescente popularidade do ChatGPT da OpenAI. Eu testei o Gemini e mostro agora o que ele é, para que serve e como usar.
O que é o Google Gemini?
O Google Gemini é uma família de modelos de IA desenvolvida pelos laboratórios de pesquisa de IA da Google, DeepMind e Google Research, projetada para ser “nativamente multimodal”. Isso significa que, ao contrário de modelos anteriores focados exclusivamente em texto, o Gemini pode compreender, processar e gerar conteúdos em diferentes formatos, como texto, código, áudio, imagens estáticas e vídeos.
Lançado em dezembro de 2023, o Gemini está disponível gratuitamente para testes, ele chegou para substituir o BARD, que mal foi lançado.
O que é capacidade multimodal?
A capacidade multimodal refere-se à habilidade da inteligência artificial de entender, processar e gerar informações através de múltiplos tipos de dados ou modos de comunicação.
Sistemas unimodais são aqueles que operam com um único tipo de dado, geralmente texto. Os sistemas multimodais são capazes de combinar e utilizar diversos tipos, como texto, áudio, imagens e vídeos.
A capacidade multimodal permite que modelos de IA integrem diferentes tipos de dados para respostas mais precisas e flexibilidade de interação, isso quer dizer que você pode desenhar algo, tirar uma foto e pedir para o Gemini entender. As aplicações se tornam mais abrangentes, expandindo o uso da IA em diversos campos como saúde, educação e entretenimento. Veja abaixo exemplo da capacidade multimodal do Gemini:
Gemini é melhor que ChatGPT?
A rivalidade entre Google e OpenAI tornou-se evidente com o lançamento do Gemini, que, segundo análises da própria Google, supera o ChatGPT em 30 dos 32 benchmarks estabelecidos, especialmente em tarefas envolvendo vídeo e áudio.
Esta vantagem decorre da abordagem multimodal integrada do Gemini desde o início, contrastando com modelos separados para imagens e voz, como DALL-E e Whisper da OpenAI.
Embora benchmarks sejam apenas uma parte da avaliação de performance, o Google afirma que o Gemini Pro é superior ao GPT-3.5 da OpenAI em tarefas como sumarização de conteúdo e escrita criativa.
Tempo necessário: 2 minutos
Você já pode usar o Gemini, basta logar na sua conta do Google e acessar o site.
-
Acesse o site do Gemini:
Use a url https://gemini.google.com/app, é necessário estar logado em uma conta Google. Se não estiver, faça login.
-
Após o login, você estará nessa página. Então use o campo de comandos, eu fiz uma simples pergunta para me ajudar com charadas.
-
O resultado foi o seguinte:
-
Agora use o upload de imagem e peça para o Gemini identificar o que há na foto.
-
O resultado foi bem preciso. Mostrando detalhes de todo o cenário, em primeiro e segundo plano.
Posso usar o Gemini no celular? Como?
Sim, é possível usar o Gemini em dispositivos móveis. O Google está projetando um app e mais integrações para os celulares Android, isso deve chegar em breve. Enquanto não há versão oficial, nem mesmo um app, você pode usar o Gemini através do navegador.
Use o Chrome, faça login em sua conta Google e acesse o site do Gemini, igual ao tutorial acima. Inclusive há opção de usar a câmera do celular para enviar uma foto e usar no comando.
Demonstração: Como o Gemini pode auxiliar nas tarefas de casa
As vezes é complicado de ajudar os filhos nas tarefas de casa, o Google preparou um vídeo explicativo mostrando como o Gemini pode ser um auxílio nas tarefas de casa dos seus filhos.
Imagine que seu filho traga uma folha de exercícios de física com respostas escritas à mão. Com o Gemini, você pode simplesmente tirar uma foto dessa folha. O Gemini não só resolve os problemas apresentados mas também analisa as respostas fornecidas, identificando o que está correto e o que precisa de correção. Essa capacidade de entender e explicar os conceitos que necessitam de esclarecimento adiciona uma camada de aprendizado personalizado.
Antes de você ir
Antes de você ir, gostaria de convidar a conhecer outra linguagem de inteligência artificial, do próprio Google, chamada de Gemma. Trata-se de uma opção para desenvolvedores e o Google oferece para uso gratuito (por enquanto) nas suas aplicações. Ele é baseado no Gemini.
Por falar em Gemini, o Google suspendeu a criação de imagens após várias criticas de viés que a linguagem estava alinhando.