FAQ

Perguntas Frequentes

    O Latam-GPT é um bem público tecnológico integral, sobre o qual diversos atores poderão construir soluções de IA específicas, democratizando assim o acesso a ferramentas essenciais para a competitividade e o desenvolvimento regional. Embora um de seus resultados centrais seja o desenvolvimento de um modelo de linguagem de grande porte (LLM) aberto, o projeto abrange também a geração de capacidades habilitadoras prévias e complementares: a formação e articulação de talentos regionais, a criação de corpora de dados pertinentes e representativos da região, o design de benchmarks e avaliações próprias, bem como o desenvolvimento de infraestrutura e conhecimento técnico compartilhado. Nesse sentido, o Latam-GPT deve ser entendido como um projeto estratégico e colaborativo que articula múltiplas iniciativas voltadas ao fortalecimento do ecossistema de Inteligência Artificial (IA) na América Latina e no Caribe.

    Nesta etapa, o Latam-GPT 70Bn 1.0 é lançado como uma base de códigos, dados e arquivos treinados para que desenvolvedores possam adaptá-lo a usos específicos. O Latam-GPT ainda não está disponível como um chatbot interativo e conversacional para uso massivo em computadores ou celulares comuns.

    O Copuchat é um aplicativo experimental hospedado em latamgpt.org, baseado no GPT-4.1 da OpenAI, projetado para simular as conversas que usuários reais poderiam ter com versões futuras do Latam-GPT. Seu propósito é coletar interações reais de pessoas na América Latina e no Caribe para compreender melhor como utilizam esse tipo de tecnologia e, assim, apoiar os processos de alinhamento e pós-treinamento do modelo.

    O desenvolvimento do Latam-GPT foi construído sobre três pilares fundamentais que os modelos comerciais atuais não abordam plenamente no contexto da América Latina e do Caribe. Com isso, busca-se assegurar a pertinência, representatividade e soberania tecnológica da Inteligência Artificial na região.

    1. Desenvolvimento de capacidades locais. Para que a IA esteja verdadeiramente a serviço das pessoas, é fundamental compreender como funciona internamente e não apenas usar ferramentas desenvolvidas por terceiros. Este projeto permite que o talento da região adquira experiência técnica profunda, com o objetivo de liderar processos de inovação e não se limitar a implementar tecnologias externas.

    2. Reduzir a lacuna de representação regional. O Latam-GPT apresenta melhor desempenho em tarefas associadas a tópicos da América Latina e do Caribe. Atualmente, os modelos globais são treinados principalmente com dados do Norte Global, nos quais o espanhol representa apenas cerca de 4% dos dados, enquanto o português, entre 2% e 3%. O Latam-GPT busca reduzir essa desigualdade, integrando dados que reflitam a cultura, os idiomas e a identidade própria da América Latina e do Caribe.

    3. Soberania tecnológica. O Latam-GPT propõe uma alternativa aberta frente ao domínio das grandes empresas de tecnologia, demonstrando que a região tem capacidade e autonomia para desenvolver projetos avançados em Inteligência Artificial.

    Uma primeira vantagem do Latam-GPT é que, ao contrário de modelos de tamanho similar, apresenta melhor desempenho em tarefas que requerem conhecimento do contexto cultural da América Latina e do Caribe.

    A segunda refere-se à condição de ser um modelo aberto, o que permitirá que uma organização tome o modelo e o "eduque" com seus próprios manuais ou regulamentos. Isso, por sua vez, possibilitará que setores estratégicos contem com maior segurança da informação.

    E a terceira é sua transparência, pois, ao contrário dos modelos fechados — que reservam informações-chave sobre dados e treinamento —, o Latam-GPT aposta na abertura e na clareza, fortalecendo a confiança, o escrutínio técnico e a colaboração regional.

    O Latam-GPT foi treinado com uma proporção de dados sobre a região significativamente superior a qualquer modelo existente até o momento, por meio da técnica de CPT, que fornece conhecimento adicional ao modelo base LLaMA 3.1 70Bn.

    Em sua etapa inicial (versão 1.0), o Latam-GPT não é diretamente comparável aos modelos comerciais que contaram com investimentos de grande escala. Embora a primeira versão do modelo apresente desempenho inferior em alguns benchmarks, seus resultados comparativos e observados constituem evidência relevante. Em particular, demonstram capacidades geradas — tanto técnicas quanto de gestão de infraestrutura — que estabelecem as bases para que, em versões futuras, o modelo possa equiparar-se aos mais avançados e manter o melhor desempenho no contexto latino-americano e caribenho.

    A análise de versões ajustadas por instruções será abordada em etapas posteriores do projeto.

    O Latam-GPT é um esforço colaborativo sem precedentes que reúne cerca de 200 profissionais e mais de 65 instituições de 15 países (13 da América Latina e do Caribe e 2 externos à região), o que reflete a magnitude e o caráter regional do projeto. Essa articulação demonstra que o desenvolvimento de Inteligência Artificial na América Latina e no Caribe é possível a partir do trabalho colaborativo, e também que é possível alcançar colaborações dessa envergadura entre o mundo acadêmico, o setor público e organizações especializadas.

    O projeto é coordenado pela CENIA e conta com a colaboração de múltiplas instituições da região, entre as quais se destacam:

    Entidades Estratégicas Colaboradoras

    1. Amazon Web Services (AWS)
    2. Banco de Desenvolvimento da América Latina e do Caribe (CAF)
    3. Banco Interamericano de Desenvolvimento (BID)
    4. Ministério de Ciência, Inovação, Tecnologia e Telecomunicações da Costa Rica
    5. Ministério de Ciência, Tecnologia, Conhecimento e Inovação do Chile
    6. Organização dos Estados Americanos (OEA)
    7. Ministério da Ciência, Tecnologia e Inovação do Brasil
    8. Oficina Governamental de Tecnologias da Informação e Comunicação (OGTIC) da República Dominicana
    9. Presidência do Conselho de Ministros do Peru
    10. Secretaria de Ciência, Humanidades, Tecnologia e Inovação do México
    11. Secretaria Nacional de Ciência, Tecnologia e Inovação (SENACYT) do Panamá

    Instituições Signatárias

    1. Academia de la Lengua Chilena, Chile
    2. Agência de Governo Eletrônico e Sociedade da Informação e do Conhecimento (AGESIC), Uruguai
    3. ARTIFICYAN, Chile
    4. Asociación Mexicana de la Industria de Tecnologías de la Información (AMITI), México
    5. Bibliotecas UC, Chile
    6. Centro de Investigación en Ciencias de Información Geoespacial (CentroGEO), México
    7. Centro de Investigación e Innovación en Tecnologías de la Información y Comunicación (INFOTEC), México
    8. Comissão Econômica para a América Latina e o Caribe (CEPAL)
    9. Consejo de Rectoras y Rectores de las Universidades Chilenas (CRUCH), Chile
    10. Corporación Universitaria Minuto de Dios, Colômbia
    11. Data Observatory, Chile
    12. DatySoc, Uruguai
    13. Departamento de Ciencias de la Computación (DCC), Chile
    14. Departamento de Filosofía UChile, Chile
    15. Dirección Instituto de Tecnología e Ingeniería UNAHUR, Argentina
    16. Duoc UC, Chile
    17. Ejército de Chile, Chile
    18. Escuela Politécnica Nacional de Inteligencia Artificial, Equador
    19. Facultad de Matemática, Astronomía, Física y Computación (FAMAF) – Universidad Nacional de Córdoba, Argentina
    20. Fundación Vía Libre, Argentina
    21. FUNDAR, Argentina
    22. IAEN, Equador
    23. Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE), México
    24. JhedAI, Chile
    25. LabEVA de la Facultad de Información y Comunicación de la Udelar, Uruguai
    26. Laboratorio Abierto de Inteligencia Artificial (LAIA)
    27. Perú AiMaraLab, Peru
    28. Red Divulga Ciencia, Equador
    29. SOMOSNLP, Espanha
    30. Tabuga, República Dominicana
    31. Theodora, Chile
    32. Universidad Avellaneda, Argentina
    33. Universidad Central de Venezuela, Venezuela
    34. Universidad Continental, Peru
    35. Universidad de Costa Rica, Costa Rica
    36. Universidad de los Andes de Colombia, Colômbia
    37. Universidad Espíritu Santo, Colômbia
    38. Universidad Gabriela Mistral, Chile
    39. Universidad Javeriana, Universidad La Salle, Colômbia
    40. Universidad Nacional de San Martín (UNSAM), Argentina
    41. Universidad Ricardo Palma, Peru
    42. Universidad Tecnológica de Panamá, Panamá
    43. Wikimedia Chile, Chile

    O desenvolvimento utiliza como base a arquitetura do Llama 3.1 (70 bilhões de parâmetros) e contempla, além disso, experimentos com modelos mais compactos (principalmente de 8 bilhões de parâmetros). Um componente vital foi a otimização mediante a infraestrutura da AWS, que permitiu simplificar o gerenciamento da infraestrutura crítica, possibilitando iterações mais rápidas. Essas iterações permitiram reduzir o tempo de treinamento em 64%, baixando de 25 para apenas 9 dias em relação aos testes iniciais menos otimizados.

    O projeto consolidou um corpus de mais de 300 bilhões de tokens de informação em texto simples com foco regional, equivalentes a aproximadamente 230 bilhões de palavras.

    A equipe concluiu o treinamento da primeira versão do modelo base a partir desse corpus, anunciada no lançamento de 10 de fevereiro de 2026. O modelo ainda não possui uma data de lançamento confirmada. Em paralelo, serão publicados benchmarks para avaliar o conhecimento cultural e contextual dos modelos de linguagem sobre a América Latina e o Caribe, junto com uma ampla rede de colaboração regional que tem fortalecido capacidades técnicas e humanas em Inteligência Artificial.

    A primeira versão do modelo é concebida como uma base sólida sobre a qual iterar mediante processos de avaliação, retroalimentação e melhoria contínua. No entanto, corresponde a um modelo base em uma etapa inicial de desenvolvimento, pelo que pode apresentar limitações próprias desse tipo de modelo. O objetivo do projeto é avançar progressivamente em direção a um modelo robusto, especialmente em âmbitos nos quais o conhecimento do contexto da América Latina e do Caribe é determinante, contribuindo assim para o fortalecimento das capacidades regionais em Inteligência Artificial.

    Aplica-se uma curadoria rigorosa sobre os 300 bilhões de tokens. Esse processo busca garantir que os dados utilizados para o treinamento do modelo venham anonimizados e livres de conteúdo tóxico, como discursos de ódio ou linguagem inapropriada. Essas práticas se complementam com um trabalho contínuo junto à equipe de ética do projeto, orientado a fortalecer progressivamente uma abordagem de direitos humanos e de uso responsável do modelo. Da mesma forma, os princípios éticos do projeto se materializam na transparência, já que a iniciativa busca promover a abertura em seus processos e critérios de desenvolvimento, fortalecendo a confiança pública e o escrutínio técnico e acadêmico.

    Como bem público, está projetado para ser utilizado por:

    • Universidades e centros de pesquisa.
    • Startups e empreendedores para criar soluções.
    • Governos e organizações sociais para melhorar a gestão pública e o atendimento ao cidadão.

    A representatividade do Latam-GPT é assegurada mediante esforços concretos para ampliar a cobertura regional do corpus, incorporando informações de 20 países da América Latina e do Caribe, obtidas em colaboração com instituições relevantes e submetidas a rigorosos processos de curadoria e balanceamento. O corpus está organizado em 10 áreas temáticas prioritárias — Esportes e Recreação; Artes; Política; Comunicação e Mídia; Medicina e Saúde; Economia e Finanças; Humanidades e Ciências Sociais; Ciências Exatas; Educação; e, de forma incipiente, Povos Originários —, o que permite capturar uma ampla diversidade de contextos regionais e habilitar futuras expansões.

    O Latam-GPT busca que os países da América Latina e do Caribe deixem de ser apenas consumidores de tecnologias desenvolvidas no Norte Global e avancem para um papel mais protagonista no desenvolvimento da Inteligência Artificial, incorporando as problemáticas e necessidades reais da região. O projeto demonstra que a região pode construir capacidades próprias mediante uma abordagem colaborativa, ética e alinhada com suas realidades linguísticas, culturais e institucionais. Nesse sentido, o Latam-GPT representa um passo concreto em direção a uma maior autonomia tecnológica regional e uma contribuição informada e situada ao debate global sobre o futuro da Inteligência Artificial.