Faq

Perguntas Frequentes

O Latam-GPT é um bem público tecnológico integral, sobre o qual diversos atores poderão construir soluções de IA específicas, democratizando assim o acesso a ferramentas essenciais para a competitividade e o desenvolvimento regional. Embora um de seus resultados centrais seja o desenvolvimento de um modelo de linguagem de grande porte (LLM) aberto, o projeto abrange também a geração de capacidades habilitadoras prévias e complementares: a formação e articulação de talentos regionais, a criação de corpora de dados pertinentes e representativos da região, o design de benchmarks e avaliações próprias, bem como o desenvolvimento de infraestrutura e conhecimento técnico compartilhado. Nesse sentido, o Latam-GPT deve ser entendido como um projeto estratégico e colaborativo que articula múltiplas iniciativas voltadas ao fortalecimento do ecossistema de Inteligência Artificial (IA) na América Latina e no Caribe.

Nesta etapa, o Latam-GPT 70Bn 1.0 é lançado como uma base de códigos, dados e arquivos treinados para que desenvolvedores possam adaptá-lo a usos específicos. O Latam-GPT ainda não está disponível como um chatbot interativo e conversacional para uso massivo em computadores ou celulares comuns.

O Copuchat é um aplicativo experimental hospedado em latamgpt.org, baseado no GPT-4.1 da OpenAI, projetado para simular as conversas que usuários reais poderiam ter com versões futuras do Latam-GPT. Seu propósito é coletar interações reais de pessoas na América Latina e no Caribe para compreender melhor como utilizam esse tipo de tecnologia e, assim, apoiar os processos de alinhamento e pós-treinamento do modelo.

O desenvolvimento do Latam-GPT foi construído sobre três pilares fundamentais que os modelos comerciais atuais não abordam plenamente no contexto da América Latina e do Caribe. Com isso, busca-se assegurar a pertinência, representatividade e soberania tecnológica da Inteligência Artificial na região.

1. Desenvolvimento de capacidades locais. Para que a IA esteja verdadeiramente a serviço das pessoas, é fundamental compreender como funciona internamente e não apenas usar ferramentas desenvolvidas por terceiros. Este projeto permite que o talento da região adquira experiência técnica profunda, com o objetivo de liderar processos de inovação e não se limitar a implementar tecnologias externas.

2. Reduzir a lacuna de representação regional. O Latam-GPT apresenta melhor desempenho em tarefas associadas a tópicos da América Latina e do Caribe. Atualmente, os modelos globais são treinados principalmente com dados do Norte Global, nos quais o espanhol representa apenas cerca de 4% dos dados, enquanto o português, entre 2% e 3%. O Latam-GPT busca reduzir essa desigualdade, integrando dados que reflitam a cultura, os idiomas e a identidade própria da América Latina e do Caribe.

3. Soberania tecnológica. O Latam-GPT propõe uma alternativa aberta frente ao domínio das grandes empresas de tecnologia, demonstrando que a região tem capacidade e autonomia para desenvolver projetos avançados em Inteligência Artificial.

Uma primeira vantagem do Latam-GPT é que, ao contrário de modelos de tamanho similar, apresenta melhor desempenho em tarefas que requerem conhecimento do contexto cultural da América Latina e do Caribe.

A segunda refere-se à condição de ser um modelo aberto, o que permitirá que uma organização tome o modelo e o "eduque" com seus próprios manuais ou regulamentos. Isso, por sua vez, possibilitará que setores estratégicos contem com maior segurança da informação.

E a terceira é sua transparência, pois, ao contrário dos modelos fechados — que reservam informações-chave sobre dados e treinamento —, o Latam-GPT aposta na abertura e na clareza, fortalecendo a confiança, o escrutínio técnico e a colaboração regional.

O Latam-GPT foi treinado com uma proporção de dados sobre a região significativamente superior a qualquer modelo existente até o momento, por meio da técnica de CPT, que fornece conhecimento adicional ao modelo base LLaMA 3.1 70Bn.

Em sua etapa inicial (versão 1.0), o Latam-GPT não é diretamente comparável aos modelos comerciais que contaram com investimentos de grande escala. Embora a primeira versão do modelo apresente desempenho inferior em alguns benchmarks, seus resultados comparativos e observados constituem evidência relevante. Em particular, demonstram capacidades geradas — tanto técnicas quanto de gestão de infraestrutura — que estabelecem as bases para que, em versões futuras, o modelo possa equiparar-se aos mais avançados e manter o melhor desempenho no contexto latino-americano e caribenho.

A análise de versões ajustadas por instruções será abordada em etapas posteriores do projeto.

O Latam-GPT é um esforço colaborativo sem precedentes que reúne cerca de 200 profissionais e mais de 65 instituições de 15 países (13 da América Latina e do Caribe e 2 externos à região), o que reflete a magnitude e o caráter regional do projeto. Essa articulação demonstra que o desenvolvimento de Inteligência Artificial na América Latina e no Caribe é possível a partir do trabalho colaborativo, e também que é possível alcançar colaborações dessa envergadura entre o mundo acadêmico, o setor público e organizações especializadas.

O projeto é coordenado pela CENIA e conta com a colaboração de múltiplas instituições da região, entre as quais se destacam:

Entidades Estratégicas Colaboradoras

Amazon Web Services (AWS)
Banco de Desenvolvimento da América Latina e do Caribe (CAF)
Banco Interamericano de Desenvolvimento (BID)
Ministério de Ciência, Inovação, Tecnologia e Telecomunicações da Costa Rica
Ministério de Ciência, Tecnologia, Conhecimento e Inovação do Chile
Organização dos Estados Americanos (OEA)
Ministério da Ciência, Tecnologia e Inovação do Brasil
Oficina Governamental de Tecnologias da Informação e Comunicação (OGTIC) da República Dominicana
Presidência do Conselho de Ministros do Peru
Secretaria de Ciência, Humanidades, Tecnologia e Inovação do México
Secretaria Nacional de Ciência, Tecnologia e Inovação (SENACYT) do Panamá

Instituições Signatárias

Academia de la Lengua Chilena, Chile
Agência de Governo Eletrônico e Sociedade da Informação e do Conhecimento (AGESIC), Uruguai
ARTIFICYAN, Chile
Asociación Mexicana de la Industria de Tecnologías de la Información (AMITI), México
Bibliotecas UC, Chile
Centro de Investigación en Ciencias de Información Geoespacial (CentroGEO), México
Centro de Investigación e Innovación en Tecnologías de la Información y Comunicación (INFOTEC), México
Comissão Econômica para a América Latina e o Caribe (CEPAL)
Consejo de Rectoras y Rectores de las Universidades Chilenas (CRUCH), Chile
Corporación Universitaria Minuto de Dios, Colômbia
Data Observatory, Chile
DatySoc, Uruguai
Departamento de Ciencias de la Computación (DCC), Chile
Departamento de Filosofía UChile, Chile
Dirección Instituto de Tecnología e Ingeniería UNAHUR, Argentina
Duoc UC, Chile
Ejército de Chile, Chile
Escuela Politécnica Nacional de Inteligencia Artificial, Equador
Facultad de Matemática, Astronomía, Física y Computación (FAMAF) – Universidad Nacional de Córdoba, Argentina
Fundación Vía Libre, Argentina
FUNDAR, Argentina
IAEN, Equador
Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE), México
JhedAI, Chile
LabEVA de la Facultad de Información y Comunicación de la Udelar, Uruguai
Laboratorio Abierto de Inteligencia Artificial (LAIA)
Perú AiMaraLab, Peru
Red Divulga Ciencia, Equador
SOMOSNLP, Espanha
Tabuga, República Dominicana
Theodora, Chile
Universidad Avellaneda, Argentina
Universidad Central de Venezuela, Venezuela
Universidad Continental, Peru
Universidad de Costa Rica, Costa Rica
Universidad de los Andes de Colombia, Colômbia
Universidad Espíritu Santo, Colômbia
Universidad Gabriela Mistral, Chile
Universidad Javeriana, Universidad La Salle, Colômbia
Universidad Nacional de San Martín (UNSAM), Argentina
Universidad Ricardo Palma, Peru
Universidad Tecnológica de Panamá, Panamá
Wikimedia Chile, Chile

O desenvolvimento utiliza como base a arquitetura do Llama 3.1 (70 bilhões de parâmetros) e contempla, além disso, experimentos com modelos mais compactos (principalmente de 8 bilhões de parâmetros). Um componente vital foi a otimização mediante a infraestrutura da AWS, que permitiu simplificar o gerenciamento da infraestrutura crítica, possibilitando iterações mais rápidas. Essas iterações permitiram reduzir o tempo de treinamento em 64%, baixando de 25 para apenas 9 dias em relação aos testes iniciais menos otimizados.

O projeto consolidou um corpus de mais de 300 bilhões de tokens de informação em texto simples com foco regional, equivalentes a aproximadamente 230 bilhões de palavras.

A equipe concluiu o treinamento da primeira versão do modelo base a partir desse corpus, anunciada no lançamento de 10 de fevereiro de 2026. O modelo ainda não possui uma data de lançamento confirmada. Em paralelo, serão publicados benchmarks para avaliar o conhecimento cultural e contextual dos modelos de linguagem sobre a América Latina e o Caribe, junto com uma ampla rede de colaboração regional que tem fortalecido capacidades técnicas e humanas em Inteligência Artificial.

A primeira versão do modelo é concebida como uma base sólida sobre a qual iterar mediante processos de avaliação, retroalimentação e melhoria contínua. No entanto, corresponde a um modelo base em uma etapa inicial de desenvolvimento, pelo que pode apresentar limitações próprias desse tipo de modelo. O objetivo do projeto é avançar progressivamente em direção a um modelo robusto, especialmente em âmbitos nos quais o conhecimento do contexto da América Latina e do Caribe é determinante, contribuindo assim para o fortalecimento das capacidades regionais em Inteligência Artificial.

Aplica-se uma curadoria rigorosa sobre os 300 bilhões de tokens. Esse processo busca garantir que os dados utilizados para o treinamento do modelo venham anonimizados e livres de conteúdo tóxico, como discursos de ódio ou linguagem inapropriada. Essas práticas se complementam com um trabalho contínuo junto à equipe de ética do projeto, orientado a fortalecer progressivamente uma abordagem de direitos humanos e de uso responsável do modelo. Da mesma forma, os princípios éticos do projeto se materializam na transparência, já que a iniciativa busca promover a abertura em seus processos e critérios de desenvolvimento, fortalecendo a confiança pública e o escrutínio técnico e acadêmico.

Como bem público, está projetado para ser utilizado por:

Universidades e centros de pesquisa.
Startups e empreendedores para criar soluções.
Governos e organizações sociais para melhorar a gestão pública e o atendimento ao cidadão.

A representatividade do Latam-GPT é assegurada mediante esforços concretos para ampliar a cobertura regional do corpus, incorporando informações de 20 países da América Latina e do Caribe, obtidas em colaboração com instituições relevantes e submetidas a rigorosos processos de curadoria e balanceamento. O corpus está organizado em 10 áreas temáticas prioritárias — Esportes e Recreação; Artes; Política; Comunicação e Mídia; Medicina e Saúde; Economia e Finanças; Humanidades e Ciências Sociais; Ciências Exatas; Educação; e, de forma incipiente, Povos Originários —, o que permite capturar uma ampla diversidade de contextos regionais e habilitar futuras expansões.

O Latam-GPT busca que os países da América Latina e do Caribe deixem de ser apenas consumidores de tecnologias desenvolvidas no Norte Global e avancem para um papel mais protagonista no desenvolvimento da Inteligência Artificial, incorporando as problemáticas e necessidades reais da região. O projeto demonstra que a região pode construir capacidades próprias mediante uma abordagem colaborativa, ética e alinhada com suas realidades linguísticas, culturais e institucionais. Nesse sentido, o Latam-GPT representa um passo concreto em direção a uma maior autonomia tecnológica regional e uma contribuição informada e situada ao debate global sobre o futuro da Inteligência Artificial.

Perguntas Frequentes

O que é o Latam-GPT?

O Latam-GPT pode ser usado como chatbot para interações com qualquer usuário?

Para que serve o Copuchat?

Por que construir o Latam-GPT se já existem muitos modelos de linguagem avançados e acessíveis?

Em quais aspectos o Latam-GPT será melhor do que outros modelos?

O que distingue o Latam-GPT de outros modelos desenvolvidos no Norte Global?

Quem está participando do Latam-GPT?

Como o Latam-GPT está sendo treinado?

Em que estágio de avanço está o modelo?

Como é a primeira versão do Latam-GPT e o que se pode esperar dela?

Como são resguardados os princípios éticos e de uso responsável no desenvolvimento do Latam-GPT?

Que tipos de atores poderão usar o Latam-GPT quando estiver disponível?

Como se garante que o Latam-GPT represente a diversidade de realidades da América Latina e do Caribe?

Que papel o Latam-GPT busca desempenhar no debate global sobre Inteligência Artificial?