Faq

Preguntas Frecuentes

LatamGPT es un bien público tecnológico integral, sobre el cual diversos actores podrán construir soluciones de IA específicas, democratizando así el acceso a herramientas clave para la competitividad y el desarrollo regional. Si bien uno de sus resultados centrales es el desarrollo de un modelo de lenguaje de gran tamaño (LLM) abierto, el proyecto abarca también la generación de capacidades habilitantes previas y complementarias: la formación y articulación de talento regional, la creación de corpus de datos pertinentes y representativos de la región, el diseño de benchmarks y evaluaciones propias, así como el desarrollo de infraestructura y conocimiento técnico compartido. En este sentido, LatamGPT debe entenderse como un proyecto estratégico y colaborativo que articula múltiples iniciativas orientadas al fortalecimiento del ecosistema de Inteligencia Artificial (IA) en América Latina y el Caribe.

En esta etapa, LatamGPT 70Bn 1.0 se libera como una base de códigos, datos y archivos entrenados para que desarrolladores puedan adaptarlo a usos específicos. LatamGPT no está aún disponible como un chatbot interactivo y conversacional para uso masivo desde computadores o celulares corrientes.

Copuchat es un aplicativo experimental alojado en la página latamgpt.org basado en GPT-4.1 de OpenAI, diseñado para simular las conversaciones que podrían tener usuarios reales con futuras versiones de LatamGPT. Su propósito es recoger interacciones reales de personas en América Latina y el Caribe para comprender mejor cómo utilizan este tipo de tecnologías y, así, apoyar los procesos de alineamiento y post entrenamiento del modelo.

El desarrollo de LatamGPT se construyó sobre la base de tres pilares fundamentales que los modelos comerciales actuales no abordan plenamente en el contexto de Latinoamérica y el Caribe. Con ello, se busca asegurar la pertinencia, representatividad y soberanía tecnológica de la Inteligencia Artificial en la región.

1. Desarrollo de capacidades locales. Para que la IA esté realmente al servicio de las personas, es fundamental comprender cómo funciona internamente y no solo usar herramientas desarrolladas por terceros. Este proyecto permite que el talento de la región adquiera experiencia técnica profunda, con el objetivo de liderar procesos de innovación y no limitarse a implementar tecnologías externas.

2. Abordar la brecha de representación regional. LatamGPT tiene un mejor rendimiento en tareas asociadas a tópicos de América Latina y el Caribe. Actualmente, los modelos globales se entrenan principalmente con datos del Norte Global, y en estos el español representa solo cerca del 4% de los datos, mientras que el portugués, entre un 2% y un 3%. LatamGPT busca reducir esta desigualdad, integrando datos que reflejen la cultura, los idiomas y la identidad propia de América Latina y el Caribe.

3. Soberanía tecnológica. LatamGPT propone una alternativa abierta frente al dominio de las grandes empresas tecnológicas, demostrando que la región tiene la capacidad y autonomía necesarias para desarrollar proyectos avanzados en Inteligencia Artificial.

Una primera ventaja de LatamGPT radica en que, a diferencia de modelos de tamaño similar, muestra mejor rendimiento en tareas que requieren conocimiento del contexto cultural de América Latina y el Caribe.

La segunda se refiere a la condición de ser modelo abierto, lo que permitirá que una organización tome el modelo y lo "eduque" con sus propios manuales o reglamentos. Esto, de paso, permitirá a sectores estratégicos contar con mayor seguridad de la información.

Y la tercera es su transparencia, pues a diferencia de los modelos cerrados, que reservan información clave sobre datos y entrenamiento, LatamGPT apuesta por la apertura y la claridad, fortaleciendo la confianza, el escrutinio técnico y la colaboración regional.

LatamGPT fue entrenado con una proporción de datos sobre la región significativamente superior a cualquier modelo hasta la fecha, a través de la técnica de CPT que entrega conocimiento adicional al modelo base LLama 3.1 70Bn.

En su etapa inicial (versión 1.0), LatamGPT no es directamente comparable con aquellos modelos comerciales que han contado con inversiones de gran escala. Si bien la primera versión del modelo tiene un rendimiento inferior respecto de otros en algunos benchmarks, su desempeño comparativo y sus resultados observados son evidencia relevante. En particular, muestran capacidades generadas —tanto técnicas como de manejo de infraestructura— que sientan las bases para que, en futuras versiones del modelo, éste pueda llegar a ser equivalente a los modelos más avanzados y mantener el mejor desempeño en el contexto Latinoamericano y del Caribe.

El análisis de versiones ajustadas mediante instrucciones se abordará en etapas posteriores del proyecto.

LatamGPT es un esfuerzo colaborativo sin precedentes que reúne a cerca de 200 profesionales y a más de 65 instituciones de 15 países (13 de América Latina y el Caribe y 2 externos a la región) lo que refleja la magnitud y el carácter regional del proyecto. Esta articulación demuestra que el desarrollo de Inteligencia Artificial en América Latina y el Caribe es posible a partir del trabajo colaborativo, y también demuestra que es posible lograr colaboraciones de esta envergadura entre el mundo académico, el sector público y organizaciones especializadas.

El proyecto es coordinado por CENIA y cuenta con la colaboración de múltiples instituciones de la región, entre las que destacan:

Entes Estratégicos colaboradores

Amazon Web Services (AWS)
Banco de Desarrollo de América Latina y el Caribe (CAF)
Banco Interamericano de Desarrollo (BID)
Ministerio de Ciencia, Innovación, Tecnología y Telecomunicaciones de Costa Rica
Ministerio de Ciencia, Tecnología, Conocimiento e Innovación de Chile
Organización de los Estados Americanos (OEA)
Ministério da Ciência, Tecnologia e Inovação de Brasil
Oficina Gubernamental de Tecnologías de la Información y Comunicaciones (OGTIC) de República Dominicana
Presidencia del Consejo de Ministros de Perú
Secretaría de Ciencia, Humanidades, Tecnología e Innovación de México
Secretaría Nacional de Ciencia, Tecnología e Innovación (SENACYT) de Panamá

Instituciones firmadas

Academia de la Lengua Chilena, Chile
Agencia de Gobierno Electrónico y Sociedad de la Información y del Conocimiento (AGESIC), Uruguay
ARTIFICYAN, Chile
Asociación Mexicana de la Industria de Tecnologías de la Información (AMITI), México
Bibliotecas UC, Chile
Centro de Investigación en Ciencias de Información Geoespacial (CentroGEO), México
Centro de Investigación e Innovación en Tecnologías de la Información y Comunicación (INFOTEC), México
Comisión Económica para América Latina y el Caribe (CEPAL)
Consejo de Rectoras y Rectores de las Universidades Chilenas (CRUCH), Chile
Corporación Universitaria Minuto de Dios, Colombia
Data Observatory, Chile
DatySoc, Uruguay
Departamento de Ciencias de la Computación (DCC), Chile
Departamento de Filosofía UChile, Chile
Dirección Instituto de Tecnología e Ingeniería UNAHUR, Argentina
Duoc UC, Chile
Ejército de Chile, Chile
Escuela Politécnica Nacional de Inteligencia Artificial, Ecuador
Facultad de Matemática, Astronomía, Física y Computación (FAMAF) – Universidad Nacional de Córdoba, Argentina
Fundación Vía Libre, Argentina
FUNDAR, Argentina
IAEN, Ecuador
Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE), México
JhedAI, Chile
LabEVA de la Facultad de Información y Comunicación de la Udelar, Uruguay
Laboratorio Abierto de Inteligencia Artificial (LAIA)
Perú AiMaraLab, Perú
Red Divulga Ciencia, Ecuador
SOMOSNLP, España
Tabuga, República Dominicana
Theodora, Chile
Universidad Avellaneda, Argentina
Universidad Central de Venezuela, Venezuela
Universidad Continental, Perú
Universidad de Costa Rica, Costa Rica
Universidad de los Andes de Colombia, Colombia
Universidad Espíritu Santo, Colombia
Universidad Gabriela Mistral, Chile
Universidad Javeriana, Universidad La Salle, Colombia
Universidad Nacional de San Martín (UNSAM), Argentina
Universidad Ricardo Palma, Perú
Universidad Tecnológica de Panamá, Panamá
Wikimedia Chile, Chile

El desarrollo utiliza como base la arquitectura de Llama 3.1 (70 mil millones de parámetros), y contempla, además, experimentos con modelos más compactos (principalmente de 8 mil millones de parámetros). Un componente vital ha sido la optimización mediante la infraestructura de AWS, que permitió simplificar el manejo de la infraestructura crítica, haciendo posible iterar más rápidamente. Estas iteraciones permitieron reducir el tiempo de entrenamiento en un 64%, bajando de 25 a tan solo 9 días, respecto a las pruebas iniciales menos optimizadas.

El proyecto ha consolidado un corpus de más de 300 mil millones de tokens de información en texto plano con enfoque regional, equivalentes a aproximadamente 230 mil millones de palabras.

El equipo completó el entrenamiento de la primera versión del modelo base a partir de este corpus, la cual fue anunciada en el lanzamiento del 10 de febrero de 2026. El modelo aún no cuenta con una fecha de lanzamiento confirmada. En paralelo, se publicarán benchmarks para evaluar conocimiento cultural y contextual de los modelos de lenguaje sobre América Latina y el Caribe, junto con una amplia red de colaboración regional que ha fortalecido capacidades técnicas y humanas en Inteligencia Artificial.

La primera versión del modelo está concebida como una base sólida sobre la cual iterar mediante procesos de evaluación, retroalimentación y mejora continua. No obstante, corresponde a un modelo base en una etapa inicial de desarrollo, por lo que puede presentar limitaciones propias de este tipo de modelos. El objetivo del proyecto es avanzar progresivamente hacia uno robusto, especialmente en ámbitos en los que el conocimiento del contexto de América Latina y el Caribe resulta determinante, para así contribuir al fortalecimiento de capacidades regionales en Inteligencia Artificial.

Se aplica una curaduría rigurosa sobre los 300 mil millones de tokens. Este proceso busca que los datos que utiliza el modelo para entrenarse vengan anonimizados, libres de contenido tóxico, como discursos de odio o lenguaje inapropiado. Estas prácticas se complementan con un trabajo continuo junto al equipo de ética del proyecto, orientado a fortalecer progresivamente un enfoque de derechos humanos y de uso responsable del modelo. De igual forma, los principios éticos del proyecto se materializan en la transparencia, ya que la iniciativa busca promover la apertura en sus procesos y criterios de desarrollo, fortaleciendo la confianza pública y el escrutinio técnico y académico.

Como bien público, está diseñado para ser utilizado por:

Universidades y centros de investigación.
Startups y emprendedores para crear soluciones.
Gobiernos y organizaciones sociales para mejorar la gestión pública y la atención ciudadana.

La representatividad de LatamGPT se asegura mediante esfuerzos concretos para ampliar la cobertura regional del corpus, incorporando información de 20 países de América Latina y el Caribe, obtenida en colaboración con instituciones relevantes y sometida a rigurosos procesos de curaduría y balanceo. El corpus se organiza en 10 áreas temáticas prioritarias — Deportes y Recreación; Artes; Política; Comunicación y Medios; Medicina y Salud; Economía y Finanzas; Humanidades y Ciencias Sociales; Ciencias Duras; Educación; y, de manera incipiente, Pueblos Originarios —, lo que permite capturar una diversidad amplia de contextos regionales y habilitar futuras ampliaciones.

LatamGPT busca que los países de América Latina y el Caribe dejen de ser únicamente consumidores de tecnologías desarrolladas en el Norte Global y avancen hacia un rol más protagónico en el desarrollo de la Inteligencia Artificial, incorporando las problemáticas y necesidades reales de la región. El proyecto demuestra que la región puede construir capacidades propias mediante un enfoque colaborativo, ético y alineado con sus realidades lingüísticas, culturales e institucionales. En este sentido, LatamGPT representa un paso concreto hacia una mayor autonomía tecnológica regional y una contribución informada y situada al debate global sobre el futuro de la Inteligencia Artificial.

Preguntas Frecuentes

¿Qué es LatamGPT?

¿Se puede usar LatamGPT como un chatbot para generar interacciones con cualquier usuario?

¿Con qué fin existe Copuchat?

¿Por qué construir LatamGPT si ya existen muchos modelos de lenguaje avanzados y accesibles?

¿En qué aspectos LatamGPT será mejor que otros modelos?

¿Qué distingue a LatamGPT de otros modelos desarrollados en el Norte Global?

¿Quiénes están participando en LatamGPT?

¿Cómo se está entrenando LatamGPT?

¿En qué estado de avance está el modelo?

¿Cómo es la primera versión de LatamGPT y qué se puede esperar de ella?

¿Cómo se resguardan principios éticos y de uso responsable en el desarrollo de LatamGPT?

¿Qué tipo de actores podrán usar LatamGPT una vez que esté disponible?

¿Cómo se asegura que LatamGPT represente la diversidad de realidades de América Latina y el Caribe?

¿Qué rol busca jugar LatamGPT en el debate global sobre Inteligencia Artificial?