FAQ
Perguntas Frequentes
O Latam-GPT é um bem público tecnológico integral, sobre o qual diversos atores poderão construir soluções de IA específicas, democratizando assim o acesso a ferramentas essenciais para a competitividade e o desenvolvimento regional. Embora um de seus resultados centrais seja o desenvolvimento de um modelo de linguagem de grande porte (LLM) aberto, o projeto abrange também a geração de capacidades habilitadoras prévias e complementares: a formação e articulação de talentos regionais, a criação de corpora de dados pertinentes e representativos da região, o design de benchmarks e avaliações próprias, bem como o desenvolvimento de infraestrutura e conhecimento técnico compartilhado. Nesse sentido, o Latam-GPT deve ser entendido como um projeto estratégico e colaborativo que articula múltiplas iniciativas voltadas ao fortalecimento do ecossistema de Inteligência Artificial (IA) na América Latina e no Caribe.
Nesta etapa, o Latam-GPT 70Bn 1.0 é lançado como uma base de códigos, dados e arquivos treinados para que desenvolvedores possam adaptá-lo a usos específicos. O Latam-GPT ainda não está disponível como um chatbot interativo e conversacional para uso massivo em computadores ou celulares comuns.
O Copuchat é um aplicativo experimental hospedado em latamgpt.org, baseado no GPT-4.1 da OpenAI, projetado para simular as conversas que usuários reais poderiam ter com versões futuras do Latam-GPT. Seu propósito é coletar interações reais de pessoas na América Latina e no Caribe para compreender melhor como utilizam esse tipo de tecnologia e, assim, apoiar os processos de alinhamento e pós-treinamento do modelo.
O desenvolvimento do Latam-GPT foi construído sobre três pilares fundamentais que os modelos comerciais atuais não abordam plenamente no contexto da América Latina e do Caribe. Com isso, busca-se assegurar a pertinência, representatividade e soberania tecnológica da Inteligência Artificial na região.
1. Desenvolvimento de capacidades locais. Para que a IA esteja verdadeiramente a serviço das pessoas, é fundamental compreender como funciona internamente e não apenas usar ferramentas desenvolvidas por terceiros. Este projeto permite que o talento da região adquira experiência técnica profunda, com o objetivo de liderar processos de inovação e não se limitar a implementar tecnologias externas.
2. Reduzir a lacuna de representação regional. O Latam-GPT apresenta melhor desempenho em tarefas associadas a tópicos da América Latina e do Caribe. Atualmente, os modelos globais são treinados principalmente com dados do Norte Global, nos quais o espanhol representa apenas cerca de 4% dos dados, enquanto o português, entre 2% e 3%. O Latam-GPT busca reduzir essa desigualdade, integrando dados que reflitam a cultura, os idiomas e a identidade própria da América Latina e do Caribe.
3. Soberania tecnológica. O Latam-GPT propõe uma alternativa aberta frente ao domínio das grandes empresas de tecnologia, demonstrando que a região tem capacidade e autonomia para desenvolver projetos avançados em Inteligência Artificial.
Uma primeira vantagem do Latam-GPT é que, ao contrário de modelos de tamanho similar, apresenta melhor desempenho em tarefas que requerem conhecimento do contexto cultural da América Latina e do Caribe.
A segunda refere-se à condição de ser um modelo aberto, o que permitirá que uma organização tome o modelo e o "eduque" com seus próprios manuais ou regulamentos. Isso, por sua vez, possibilitará que setores estratégicos contem com maior segurança da informação.
E a terceira é sua transparência, pois, ao contrário dos modelos fechados — que reservam informações-chave sobre dados e treinamento —, o Latam-GPT aposta na abertura e na clareza, fortalecendo a confiança, o escrutínio técnico e a colaboração regional.
O Latam-GPT foi treinado com uma proporção de dados sobre a região significativamente superior a qualquer modelo existente até o momento, por meio da técnica de CPT, que fornece conhecimento adicional ao modelo base LLaMA 3.1 70Bn.
Em sua etapa inicial (versão 1.0), o Latam-GPT não é diretamente comparável aos modelos comerciais que contaram com investimentos de grande escala. Embora a primeira versão do modelo apresente desempenho inferior em alguns benchmarks, seus resultados comparativos e observados constituem evidência relevante. Em particular, demonstram capacidades geradas — tanto técnicas quanto de gestão de infraestrutura — que estabelecem as bases para que, em versões futuras, o modelo possa equiparar-se aos mais avançados e manter o melhor desempenho no contexto latino-americano e caribenho.
A análise de versões ajustadas por instruções será abordada em etapas posteriores do projeto.
- Amazon Web Services (AWS)
- Banco de Desenvolvimento da América Latina e do Caribe (CAF)
- Banco Interamericano de Desenvolvimento (BID)
- Ministério de Ciência, Inovação, Tecnologia e Telecomunicações da Costa Rica
- Ministério de Ciência, Tecnologia, Conhecimento e Inovação do Chile
- Organização dos Estados Americanos (OEA)
- Ministério da Ciência, Tecnologia e Inovação do Brasil
- Oficina Governamental de Tecnologias da Informação e Comunicação (OGTIC) da República Dominicana
- Presidência do Conselho de Ministros do Peru
- Secretaria de Ciência, Humanidades, Tecnologia e Inovação do México
- Secretaria Nacional de Ciência, Tecnologia e Inovação (SENACYT) do Panamá
- Academia de la Lengua Chilena, Chile
- Agência de Governo Eletrônico e Sociedade da Informação e do Conhecimento (AGESIC), Uruguai
- ARTIFICYAN, Chile
- Asociación Mexicana de la Industria de Tecnologías de la Información (AMITI), México
- Bibliotecas UC, Chile
- Centro de Investigación en Ciencias de Información Geoespacial (CentroGEO), México
- Centro de Investigación e Innovación en Tecnologías de la Información y Comunicación (INFOTEC), México
- Comissão Econômica para a América Latina e o Caribe (CEPAL)
- Consejo de Rectoras y Rectores de las Universidades Chilenas (CRUCH), Chile
- Corporación Universitaria Minuto de Dios, Colômbia
- Data Observatory, Chile
- DatySoc, Uruguai
- Departamento de Ciencias de la Computación (DCC), Chile
- Departamento de Filosofía UChile, Chile
- Dirección Instituto de Tecnología e Ingeniería UNAHUR, Argentina
- Duoc UC, Chile
- Ejército de Chile, Chile
- Escuela Politécnica Nacional de Inteligencia Artificial, Equador
- Facultad de Matemática, Astronomía, Física y Computación (FAMAF) – Universidad Nacional de Córdoba, Argentina
- Fundación Vía Libre, Argentina
- FUNDAR, Argentina
- IAEN, Equador
- Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE), México
- JhedAI, Chile
- LabEVA de la Facultad de Información y Comunicación de la Udelar, Uruguai
- Laboratorio Abierto de Inteligencia Artificial (LAIA)
- Perú AiMaraLab, Peru
- Red Divulga Ciencia, Equador
- SOMOSNLP, Espanha
- Tabuga, República Dominicana
- Theodora, Chile
- Universidad Avellaneda, Argentina
- Universidad Central de Venezuela, Venezuela
- Universidad Continental, Peru
- Universidad de Costa Rica, Costa Rica
- Universidad de los Andes de Colombia, Colômbia
- Universidad Espíritu Santo, Colômbia
- Universidad Gabriela Mistral, Chile
- Universidad Javeriana, Universidad La Salle, Colômbia
- Universidad Nacional de San Martín (UNSAM), Argentina
- Universidad Ricardo Palma, Peru
- Universidad Tecnológica de Panamá, Panamá
- Wikimedia Chile, Chile
O Latam-GPT é um esforço colaborativo sem precedentes que reúne cerca de 200 profissionais e mais de 65 instituições de 15 países (13 da América Latina e do Caribe e 2 externos à região), o que reflete a magnitude e o caráter regional do projeto. Essa articulação demonstra que o desenvolvimento de Inteligência Artificial na América Latina e no Caribe é possível a partir do trabalho colaborativo, e também que é possível alcançar colaborações dessa envergadura entre o mundo acadêmico, o setor público e organizações especializadas.
O projeto é coordenado pela CENIA e conta com a colaboração de múltiplas instituições da região, entre as quais se destacam:
Entidades Estratégicas Colaboradoras
Instituições Signatárias
O desenvolvimento utiliza como base a arquitetura do Llama 3.1 (70 bilhões de parâmetros) e contempla, além disso, experimentos com modelos mais compactos (principalmente de 8 bilhões de parâmetros). Um componente vital foi a otimização mediante a infraestrutura da AWS, que permitiu simplificar o gerenciamento da infraestrutura crítica, possibilitando iterações mais rápidas. Essas iterações permitiram reduzir o tempo de treinamento em 64%, baixando de 25 para apenas 9 dias em relação aos testes iniciais menos otimizados.
O projeto consolidou um corpus de mais de 300 bilhões de tokens de informação em texto simples com foco regional, equivalentes a aproximadamente 230 bilhões de palavras.
A equipe concluiu o treinamento da primeira versão do modelo base a partir desse corpus, anunciada no lançamento de 10 de fevereiro de 2026. O modelo ainda não possui uma data de lançamento confirmada. Em paralelo, serão publicados benchmarks para avaliar o conhecimento cultural e contextual dos modelos de linguagem sobre a América Latina e o Caribe, junto com uma ampla rede de colaboração regional que tem fortalecido capacidades técnicas e humanas em Inteligência Artificial.
A primeira versão do modelo é concebida como uma base sólida sobre a qual iterar mediante processos de avaliação, retroalimentação e melhoria contínua. No entanto, corresponde a um modelo base em uma etapa inicial de desenvolvimento, pelo que pode apresentar limitações próprias desse tipo de modelo. O objetivo do projeto é avançar progressivamente em direção a um modelo robusto, especialmente em âmbitos nos quais o conhecimento do contexto da América Latina e do Caribe é determinante, contribuindo assim para o fortalecimento das capacidades regionais em Inteligência Artificial.
Aplica-se uma curadoria rigorosa sobre os 300 bilhões de tokens. Esse processo busca garantir que os dados utilizados para o treinamento do modelo venham anonimizados e livres de conteúdo tóxico, como discursos de ódio ou linguagem inapropriada. Essas práticas se complementam com um trabalho contínuo junto à equipe de ética do projeto, orientado a fortalecer progressivamente uma abordagem de direitos humanos e de uso responsável do modelo. Da mesma forma, os princípios éticos do projeto se materializam na transparência, já que a iniciativa busca promover a abertura em seus processos e critérios de desenvolvimento, fortalecendo a confiança pública e o escrutínio técnico e acadêmico.
- Universidades e centros de pesquisa.
- Startups e empreendedores para criar soluções.
- Governos e organizações sociais para melhorar a gestão pública e o atendimento ao cidadão.
Como bem público, está projetado para ser utilizado por:
A representatividade do Latam-GPT é assegurada mediante esforços concretos para ampliar a cobertura regional do corpus, incorporando informações de 20 países da América Latina e do Caribe, obtidas em colaboração com instituições relevantes e submetidas a rigorosos processos de curadoria e balanceamento. O corpus está organizado em 10 áreas temáticas prioritárias — Esportes e Recreação; Artes; Política; Comunicação e Mídia; Medicina e Saúde; Economia e Finanças; Humanidades e Ciências Sociais; Ciências Exatas; Educação; e, de forma incipiente, Povos Originários —, o que permite capturar uma ampla diversidade de contextos regionais e habilitar futuras expansões.
O Latam-GPT busca que os países da América Latina e do Caribe deixem de ser apenas consumidores de tecnologias desenvolvidas no Norte Global e avancem para um papel mais protagonista no desenvolvimento da Inteligência Artificial, incorporando as problemáticas e necessidades reais da região. O projeto demonstra que a região pode construir capacidades próprias mediante uma abordagem colaborativa, ética e alinhada com suas realidades linguísticas, culturais e institucionais. Nesse sentido, o Latam-GPT representa um passo concreto em direção a uma maior autonomia tecnológica regional e uma contribuição informada e situada ao debate global sobre o futuro da Inteligência Artificial.