Llama 3.1: O Modelo de IA de Código Aberto Mais Avançado da Meta

Conheça o Llama 3.1, o modelo de IA de código aberto mais avançado da Meta, com suporte a 8 idiomas, contexto expandido e inovações de segurança

A Meta está comprometida com a IA abertamente acessível. Leia a carta de Mark Zuckerberg detalhando por que o código aberto é bom para os desenvolvedores, bom para o Meta e bom para o mundo.

Ao trazer inteligência aberta para todos, nossos modelos mais recentes expandem o comprimento de contexto para 128K, adicionam suporte em oito idiomas e incluem o Llama 3.1 405B – o primeiro modelo de IA de código aberto de última geração.

O Llama 3.1 405B está em uma classe própria, com flexibilidade, controle e recursos de última geração incomparáveis que rivalizam com os melhores modelos de código fechado. Nosso novo modelo permitirá que a comunidade habilite novos fluxos de trabalho, como geração de dados sintéticos e destilação de modelos.

Sumário

Como usar o Llama no Brasil

O Llama 3.1 já está disponível para uso no Brasil. Para começar a usar este modelo de IA de código aberto, siga estes passos:

Download: Acesse o site oficial da Meta ou Hugging Face para baixar o Llama 3.1.
Configuração: Siga as instruções de instalação e configuração para integrar o Llama 3.1 em seus sistemas.
Treinamento e Ajuste Fino: Utilize dados específicos do Brasil para ajustar o modelo às necessidades locais.
Implementação: Implemente o Llama 3.1 em aplicativos e serviços para aprimorar funcionalidades como tradução multilíngue, geração de conteúdo e suporte ao cliente.
Parcerias: Aproveite parcerias com empresas como AWS, Google Cloud e NVIDIA para otimizar o desempenho e a infraestrutura.

A comunidade de desenvolvedores brasileiros pode explorar diversas aplicações inovadoras utilizando o Llama 3.1, desde assistentes virtuais até ferramentas de análise de dados avançadas, contribuindo para o crescimento e desenvolvimento tecnológico no país.

Guerra da Inteligência Artificial

Ao contrário dos modelos mais recentes da OpenAI e do Google, o Llama não é “multimodal”, o que significa que não foi criado para lidar com imagens, áudio e vídeo. No entanto, a Meta afirma que o modelo é significativamente melhor em usar outros softwares, como um navegador da web, algo que muitos pesquisadores e empresas acreditam que pode tornar a IA mais útil.

A liberação do Llama 3.1 também levanta preocupações sobre o uso indevido da tecnologia. Geoffrey Hinton, pioneiro em aprendizado de máquina, alertou que “criminosos cibernéticos em todos os lugares ficarão encantados”. Hinton, que deixou o Google para falar sobre os possíveis riscos da IA, diz que a IA é fundamentalmente diferente do software de código aberto porque os modelos não podem ser examinados da mesma maneira.

A Meta procurou minimizar os temores, afirmando que o Llama passa por rigorosos testes de segurança antes do lançamento e que há poucas evidências de que seus modelos facilitem o desenvolvimento de armas. A empresa disse que lançará várias novas ferramentas para ajudar os desenvolvedores a manter os modelos Llama seguros, moderando sua saída e bloqueando tentativas de quebrar restrições.

Meta Irá Liberar Llama 3.1

A decisão da Meta de liberar sua IA não é desprovida de interesse próprio. Versões anteriores do Llama ajudaram a empresa a garantir uma posição influente entre pesquisadores, desenvolvedores e startups de IA.

O Llama 3.1 é muito grande para ser executado em um computador comum, mas a Meta diz que muitos provedores de nuvem, incluindo Databricks, Groq, AWS e Google Cloud, oferecerão opções de hospedagem para permitir que os desenvolvedores executem versões personalizadas do modelo. O modelo também pode ser acessado em Meta.ai.

Alguns desenvolvedores dizem que o novo lançamento do Llama pode ter amplas implicações para o desenvolvimento da IA. Stella Biderman, diretora-executiva da EleutherAI, um projeto de IA de código aberto, observa que uma mudança na licença mais recente da Meta permitirá que os desenvolvedores treinem seus próprios modelos usando o Llama 3, algo que a maioria das empresas de IA atualmente proíbe. “Este é um grande, grande negócio“, diz Biderman.

A empresa afirma que o Llama 3.1 é tão inteligente e útil quanto as melhores ofertas comerciais de empresas como OpenAI, Google e Anthropic. Em alguns benchmarks que medem o progresso da IA, a Meta afirma que o modelo é a IA mais inteligente da Terra.

Em carta aberta, o CEO da Meta, Mark Zuckerberg, comparou o Llama ao sistema operacional Linux, que revolucionou o mercado de software ao adotar o código aberto. “Acredito que a IA se desenvolverá de maneira semelhante“, escreveu Zuckerberg. “Hoje, várias empresas de tecnologia estão desenvolvendo modelos fechados líderes. Mas o código aberto está rapidamente diminuindo a diferença“.

Expansão de Recursos

Continuamos a desenvolver o Llama para ser um sistema, fornecendo mais componentes que funcionam com o modelo, incluindo um sistema de referência. Queremos capacitar os desenvolvedores com ferramentas para criar seus próprios agentes personalizados e novos tipos de comportamentos de agente. Estamos reforçando isso com novas ferramentas de segurança, incluindo Llama Guard 3 e Prompt Guard, para ajudar a construir com responsabilidade. Também estamos lançando uma solicitação de comentários sobre a API do Llama Stack, uma interface padrão que esperamos que facilite o aproveitamento dos modelos Llama por projetos de terceiros.

O ecossistema está preparado e pronto para funcionar com mais de 25 parceiros, incluindo AWS, NVIDIA, Databricks, Groq, Dell, Azure e Google Cloud, oferecendo serviços desde o primeiro dia.

Experimente o Llama 3.1 405B nos EUA no WhatsApp e em meta.ai fazendo uma pergunta desafiadora de matemática ou codificação.

Avaliações do Modelo

Para esta versão, avaliamos o desempenho em mais de 150 conjuntos de dados de referência que abrangem uma ampla variedade de idiomas. Além disso, realizamos extensas avaliações humanas que comparam o Llama 3.1 com modelos concorrentes em cenários do mundo real. Nossa avaliação experimental sugere que nosso modelo principal é competitivo com os principais modelos de base em uma série de tarefas, incluindo GPT-4, GPT-4o e Claude 3.5 Sonnet. Além disso, nossos modelos menores são competitivos com modelos fechados e abertos que possuem um número semelhante de parâmetros.

Arquitetura do Modelo

Como nosso maior modelo até agora, treinar o Llama 3.1 405B em mais de 15 trilhões de tokens foi um grande desafio. Para permitir execuções de treinamento nesta escala e alcançar os resultados que temos em um período de tempo razoável, otimizamos significativamente toda a nossa estrutura de treinamento e aumentamos o treinamento do nosso modelo para mais de 16 mil GPUs H100, tornando o 405B o primeiro modelo Llama treinado nesta escala.

Optamos por um padrão de arquitetura de modelo de transformador decoder-only, com pequenas adaptações, em vez de um modelo misto de especialistas para maximizar a estabilidade do treinamento. Adotamos um procedimento iterativo de pós-treinamento, onde cada rodada utiliza ajuste fino supervisionado e otimização de preferência direta. Isso nos permitiu criar dados sintéticos da mais alta qualidade para cada rodada e melhorar o desempenho de cada capacidade.

Ajuste de Instruções e Bate-papo

Com o Llama 3.1 405B, nos esforçamos para melhorar a utilidade, a qualidade e a capacidade de seguir instruções detalhadas do modelo em resposta às instruções do usuário, garantindo ao mesmo tempo altos níveis de segurança. Nossos maiores desafios foram oferecer suporte a mais recursos, à janela de contexto de 128K e ao aumento do tamanho dos modelos.

No pós-treinamento, produzimos modelos finais de chat fazendo várias rodadas de alinhamento sobre o modelo pré-treinado. Cada rodada envolve ajuste fino supervisionado (SFT), amostragem de rejeição (RS) e otimização de preferência direta (DPO). Usamos a geração de dados sintéticos para produzir a grande maioria de nossos exemplos de SFT, iterando diversas vezes para produzir dados sintéticos de qualidade cada vez maior em todos os recursos. Além disso, investimos em múltiplas técnicas de processamento de dados para filtrar esses dados sintéticos com a mais alta qualidade. Isso nos permite dimensionar a quantidade de dados de ajuste fino entre recursos.

O Sistema Llama

Os modelos Llama sempre foram planejados para funcionar como parte de um sistema geral que pode orquestrar vários componentes, incluindo a chamada de ferramentas externas. Nossa visão é ir além dos modelos básicos para dar aos desenvolvedores acesso a um sistema mais amplo que lhes dê flexibilidade para projetar e criar ofertas personalizadas que se alinhem com sua visão.

Como parte de nossos esforços contínuos para desenvolver IA de forma responsável além da camada do modelo e ajudar outros a fazer o mesmo, estamos lançando um sistema de referência completo que inclui vários aplicativos de amostra, além de novos componentes, como o Llama Guard 3, um modelo de segurança multilíngue e Prompt Guard, um filtro de injeção imediata. Esses aplicativos de amostra são de código aberto e podem ser desenvolvidos pela comunidade.

Abertura Impulsiona a Inovação

Ao contrário dos modelos fechados, o Llama está disponível para download. Os desenvolvedores podem personalizar totalmente os modelos de acordo com suas necessidades e aplicações, treinar em novos conjuntos de dados e realizar ajustes adicionais. Isso permite que a comunidade mais ampla de desenvolvedores e o mundo compreendam mais plenamente o poder da IA ??generativa. Os desenvolvedores podem personalizar totalmente seus aplicativos e executá-los em qualquer ambiente, inclusive on-premise, na nuvem ou até mesmo localmente em um laptop – tudo isso sem compartilhar dados com a Meta.

Embora muitos possam argumentar que os modelos fechados são mais econômicos, os modelos Llama oferecem um dos custos por token mais baixos do setor, de acordo com testes da Artificial Analysis. E, como observou Mark Zuckerberg, o código aberto garantirá que mais pessoas em todo o mundo tenham acesso aos benefícios e oportunidades da IA, que o poder não esteja concentrado nas mãos de poucos e que a tecnologia possa ser implementada de forma mais uniforme e segura em toda a sociedade. É por isso que continuamos a tomar medidas ao longo do caminho para que a IA de acesso aberto se torne o padrão da indústria.

Construindo com Llama 3.1 405B

Para o desenvolvedor médio, usar um modelo na escala do 405B é um desafio. Embora seja um modelo incrivelmente poderoso, reconhecemos que requer recursos computacionais e experiência significativos para trabalhar. Conversamos com a comunidade e percebemos que há muito mais no desenvolvimento de IA generativa do que apenas modelos de estímulo. Queremos permitir que todos aproveitem ao máximo o 405B, incluindo:

Inferência em tempo real e em lote
Ajuste fino supervisionado
Avaliação do seu modelo para sua aplicação específica
Pré-treinamento contínuo
Geração Aumentada de Recuperação (RAG)
Chamada de função
Geração de dados sintéticos

Experimente hoje mesmo a coleção de modelos Llama 3.1

Mal podemos esperar para ver o que a comunidade fará com este trabalho. Há muito potencial para construir novas experiências úteis usando o multilinguismo e o aumento da extensão do contexto. Com o Llama Stack e as novas ferramentas de segurança, esperamos continuar a construir junto com a comunidade de código aberto de forma responsável. Antes de lançar um modelo, trabalhamos para identificar, avaliar e mitigar riscos potenciais por meio de diversas medidas, incluindo exercícios de descoberta de riscos pré-implementação por meio de red teaming e ajustes de segurança.

Embora este seja o nosso maior modelo até agora, acreditamos que ainda há muito terreno novo para explorar no futuro, incluindo tamanhos mais amigáveis ??aos dispositivos, modalidades adicionais e mais investimento na camada da plataforma do agente. Como sempre, estamos ansiosos para ver todos os produtos e experiências incríveis que a comunidade construirá com esses modelos.