A Microsoft anunciou, na terça-feira (23), o lançamento de sua nova família “Phi-3” de modelos de inteligência artificial compactos, isto é, são projetados com foco em eficiência e treinados com uma quantidade reduzida de parâmetros, garantindo que funcionem até mesmo em dispositivos de consumo, como smartphones, tablets e notebooks.
Três modelos foram anunciados. O Phi-3 Mini é o menor deles, com apenas 3,8 bilhões de parâmetros. Segundo a Microsoft, essa plataforma é tão capaz quanto o Meta Llama 3 com 8 bilhões de parâmetros. Há também o Phi-3-Small, também compacto, com 7 bilhões de parâmetros. Finalmente, há o Phi-3-Medium, com 14 bilhões de parâmetros.
Embora sejam menores que seus principais rivais, como o Google Gemma 7B, os membros da nova família de modelos de inteligência artificial prometem alto desempenho graças à técnica de treinamento exclusiva da Microsoft, que afirma ter se inspirado na forma em que um simples e curto livro infantil consegue ensinar crianças a entenderem palavras e frases.
Testes de benchmark de avaliação de linguagens, códigos e matemática indicam que a família Phi-3 supera modelos de tamanhos equivalente e até mesmo maiores, como o Mixtral 8x7B. O Phi-3-mini, por exemplo, se mostrou capaz de performar melhor que um rival duas vezes maior, o Meta Llama 3 em 8B, que já está disponível na Meta AI.
O Phi-3 Mini já está disponível no catálogo do Microsoft Azure AI Model no Hugging Face, incluindo o Ollama, um framework mais leve que permite rodar inteligência artificial em máquinas locais. O Phi-3-Small e Phi-3-Medium serão disponibilizados em breve.
Pequenos modelos de linguagem são adequados para diferentes casos de uso. Como exemplo, empresas que procuram construir aplicações que podem ser executadas localmente em um PC de IA, sem precisar de internet, podem se beneficiar da maior segurança de dados em tarefas que não requeiram um raciocínio muito extenso.
Outra possibilidade é seu uso em dispositivos de consumo. Modelos de linguagem podem ser adaptados para diferentes propósitos, o que permite que sirvam como “assistentes virtuais” em computadores domésticos ou sejam integrados a aplicativos de produtividade — como é o caso do Microsoft Copilot, que funciona no Word, Excel, PowerPoint e mais.
O que vamos começar a ver não é uma mudança de grande para pequeno, mas uma mudança de uma categoria única de modelos para um portfólio de modelos onde os clientes têm a capacidade de tomar uma decisão sobre a qual é o melhor modelo para o seu cenário.
Sonali Yadav
Gerente de Produto Principal para IA Generativa na Microsoft
Já os grandes modelos de linguagem são mais adequados para aplicações complexas e envolvem um raciocínio muito mais avançado, englobando análise de dados e compreensão de contexto em escala maior. Exemplos desses modelos incluem o OpenAI GPT-4, Google Gemini, Meta Llama 3 (em sua versão de 70 bilhões de parâmetros), entre outros.
Para as grandes cargas de trabalho em inteligência artificial que demandam computação em nuvem, a Microsoft parece estar trabalhando em um projeto que movimentaria US$ 100 bilhões para construir um supercomputador de IA.
Veja mais!