FAQ
Preguntas Frecuentes
Latam-GPT es un bien público tecnológico integral, sobre el cual diversos actores podrán construir soluciones de IA específicas, democratizando así el acceso a herramientas clave para la competitividad y el desarrollo regional. Si bien uno de sus resultados centrales es el desarrollo de un modelo de lenguaje de gran tamaño (LLM) abierto, el proyecto abarca también la generación de capacidades habilitantes previas y complementarias: la formación y articulación de talento regional, la creación de corpus de datos pertinentes y representativos de la región, el diseño de benchmarks y evaluaciones propias, así como el desarrollo de infraestructura y conocimiento técnico compartido. En este sentido, Latam-GPT debe entenderse como un proyecto estratégico y colaborativo que articula múltiples iniciativas orientadas al fortalecimiento del ecosistema de Inteligencia Artificial (IA) en América Latina y el Caribe.
En esta etapa, Latam-GPT 70Bn 1.0 se libera como una base de códigos, datos y archivos entrenados para que desarrolladores puedan adaptarlo a usos específicos. Latam-GPT no está aún disponible como un chatbot interactivo y conversacional para uso masivo desde computadores o celulares corrientes.
Copuchat es un aplicativo experimental alojado en la página latamgpt.org basado en GPT-4.1 de OpenAI, diseñado para simular las conversaciones que podrían tener usuarios reales con futuras versiones de Latam-GPT. Su propósito es recoger interacciones reales de personas en América Latina y el Caribe para comprender mejor cómo utilizan este tipo de tecnologías y, así, apoyar los procesos de alineamiento y post entrenamiento del modelo.
El desarrollo de Latam-GPT se construyó sobre la base de tres pilares fundamentales que los modelos comerciales actuales no abordan plenamente en el contexto de Latinoamérica y el Caribe. Con ello, se busca asegurar la pertinencia, representatividad y soberanía tecnológica de la Inteligencia Artificial en la región.
1. Desarrollo de capacidades locales. Para que la IA esté realmente al servicio de las personas, es fundamental comprender cómo funciona internamente y no solo usar herramientas desarrolladas por terceros. Este proyecto permite que el talento de la región adquiera experiencia técnica profunda, con el objetivo de liderar procesos de innovación y no limitarse a implementar tecnologías externas.
2. Abordar la brecha de representación regional. Latam-GPT tiene un mejor rendimiento en tareas asociadas a tópicos de América Latina y el Caribe. Actualmente, los modelos globales se entrenan principalmente con datos del Norte Global, y en estos el español representa solo cerca del 4% de los datos, mientras que el portugués, entre un 2% y un 3%. Latam-GPT busca reducir esta desigualdad, integrando datos que reflejen la cultura, los idiomas y la identidad propia de América Latina y el Caribe.
3. Soberanía tecnológica. Latam-GPT propone una alternativa abierta frente al dominio de las grandes empresas tecnológicas, demostrando que la región tiene la capacidad y autonomía necesarias para desarrollar proyectos avanzados en Inteligencia Artificial.
Una primera ventaja de Latam-GPT radica en que, a diferencia de modelos de tamaño similar, muestra mejor rendimiento en tareas que requieren conocimiento del contexto cultural de América Latina y el Caribe.
La segunda se refiere a la condición de ser modelo abierto, lo que permitirá que una organización tome el modelo y lo "eduque" con sus propios manuales o reglamentos. Esto, de paso, permitirá a sectores estratégicos contar con mayor seguridad de la información.
Y la tercera es su transparencia, pues a diferencia de los modelos cerrados, que reservan información clave sobre datos y entrenamiento, Latam-GPT apuesta por la apertura y la claridad, fortaleciendo la confianza, el escrutinio técnico y la colaboración regional.
LatamGPT fue entrenado con una proporción de datos sobre la región significativamente superior a cualquier modelo hasta la fecha, a través de la técnica de CPT que entrega conocimiento adicional al modelo base LLama 3.1 70Bn.
En su etapa inicial (versión 1.0), Latam-GPT no es directamente comparable con aquellos modelos comerciales que han contado con inversiones de gran escala. Si bien la primera versión del modelo tiene un rendimiento inferior respecto de otros en algunos benchmarks, su desempeño comparativo y sus resultados observados son evidencia relevante. En particular, muestran capacidades generadas —tanto técnicas como de manejo de infraestructura— que sientan las bases para que, en futuras versiones del modelo, éste pueda llegar a ser equivalente a los modelos más avanzados y mantener el mejor desempeño en el contexto Latinoamericano y del Caribe.
El análisis de versiones ajustadas mediante instrucciones se abordará en etapas posteriores del proyecto.
- Amazon Web Services (AWS)
- Banco de Desarrollo de América Latina y el Caribe (CAF)
- Banco Interamericano de Desarrollo (BID)
- Ministerio de Ciencia, Innovación, Tecnología y Telecomunicaciones de Costa Rica
- Ministerio de Ciencia, Tecnología, Conocimiento e Innovación de Chile
- Organización de los Estados Americanos (OEA)
- Ministério da Ciência, Tecnologia e Inovação de Brasil
- Oficina Gubernamental de Tecnologías de la Información y Comunicaciones (OGTIC) de República Dominicana
- Presidencia del Consejo de Ministros de Perú
- Secretaría de Ciencia, Humanidades, Tecnología e Innovación de México
- Secretaría Nacional de Ciencia, Tecnología e Innovación (SENACYT) de Panamá
- Academia de la Lengua Chilena, Chile
- Agencia de Gobierno Electrónico y Sociedad de la Información y del Conocimiento (AGESIC), Uruguay
- ARTIFICYAN, Chile
- Asociación Mexicana de la Industria de Tecnologías de la Información (AMITI), México
- Bibliotecas UC, Chile
- Centro de Investigación en Ciencias de Información Geoespacial (CentroGEO), México
- Centro de Investigación e Innovación en Tecnologías de la Información y Comunicación (INFOTEC), México
- Comisión Económica para América Latina y el Caribe (CEPAL)
- Consejo de Rectoras y Rectores de las Universidades Chilenas (CRUCH), Chile
- Corporación Universitaria Minuto de Dios, Colombia
- Data Observatory, Chile
- DatySoc, Uruguay
- Departamento de Ciencias de la Computación (DCC), Chile
- Departamento de Filosofía UChile, Chile
- Dirección Instituto de Tecnología e Ingeniería UNAHUR, Argentina
- Duoc UC, Chile
- Ejército de Chile, Chile
- Escuela Politécnica Nacional de Inteligencia Artificial, Ecuador
- Facultad de Matemática, Astronomía, Física y Computación (FAMAF) – Universidad Nacional de Córdoba, Argentina
- Fundación Vía Libre, Argentina
- FUNDAR, Argentina
- IAEN, Ecuador
- Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE), México
- JhedAI, Chile
- LabEVA de la Facultad de Información y Comunicación de la Udelar, Uruguay
- Laboratorio Abierto de Inteligencia Artificial (LAIA)
- Perú AiMaraLab, Perú
- Red Divulga Ciencia, Ecuador
- SOMOSNLP, España
- Tabuga, República Dominicana
- Theodora, Chile
- Universidad Avellaneda, Argentina
- Universidad Central de Venezuela, Venezuela
- Universidad Continental, Perú
- Universidad de Costa Rica, Costa Rica
- Universidad de los Andes de Colombia, Colombia
- Universidad Espíritu Santo, Colombia
- Universidad Gabriela Mistral, Chile
- Universidad Javeriana, Universidad La Salle, Colombia
- Universidad Nacional de San Martín (UNSAM), Argentina
- Universidad Ricardo Palma, Perú
- Universidad Tecnológica de Panamá, Panamá
- Wikimedia Chile, Chile
Latam-GPT es un esfuerzo colaborativo sin precedentes que reúne a cerca de 200 profesionales y a más de 65 instituciones de 15 países (13 de América Latina y el Caribe y 2 externos a la región) lo que refleja la magnitud y el carácter regional del proyecto. Esta articulación demuestra que el desarrollo de Inteligencia Artificial en América Latina y el Caribe es posible a partir del trabajo colaborativo, y también demuestra que es posible lograr colaboraciones de esta envergadura entre el mundo académico, el sector público y organizaciones especializadas.
El proyecto es coordinado por CENIA y cuenta con la colaboración de múltiples instituciones de la región, entre las que destacan:
Entes Estratégicos colaboradores
Instituciones firmadas
El desarrollo utiliza como base la arquitectura de Llama 3.1 (70 mil millones de parámetros), y contempla, además, experimentos con modelos más compactos (principalmente de 8 mil millones de parámetros). Un componente vital ha sido la optimización mediante la infraestructura de AWS, que permitió simplificar el manejo de la infraestructura crítica, haciendo posible iterar más rápidamente. Estas iteraciones permitieron reducir el tiempo de entrenamiento en un 64%, bajando de 25 a tan solo 9 días, respecto a las pruebas iniciales menos optimizadas.
El proyecto ha consolidado un corpus de más de 300 mil millones de tokens de información en texto plano con enfoque regional, equivalentes a aproximadamente 230 mil millones de palabras.
El equipo completó el entrenamiento de la primera versión del modelo base a partir de este corpus, la cual fue anunciada en el lanzamiento del 10 de febrero de 2026. El modelo aún no cuenta con una fecha de lanzamiento confirmada. En paralelo, se publicarán benchmarks para evaluar conocimiento cultural y contextual de los modelos de lenguaje sobre América Latina y el Caribe, junto con una amplia red de colaboración regional que ha fortalecido capacidades técnicas y humanas en Inteligencia Artificial.
La primera versión del modelo está concebida como una base sólida sobre la cual iterar mediante procesos de evaluación, retroalimentación y mejora continua. No obstante, corresponde a un modelo base en una etapa inicial de desarrollo, por lo que puede presentar limitaciones propias de este tipo de modelos. El objetivo del proyecto es avanzar progresivamente hacia uno robusto, especialmente en ámbitos en los que el conocimiento del contexto de América Latina y el Caribe resulta determinante, para así contribuir al fortalecimiento de capacidades regionales en Inteligencia Artificial.
Se aplica una curaduría rigurosa sobre los 300 mil millones de tokens. Este proceso busca que los datos que utiliza el modelo para entrenarse vengan anonimizados, libres de contenido tóxico, como discursos de odio o lenguaje inapropiado. Estas prácticas se complementan con un trabajo continuo junto al equipo de ética del proyecto, orientado a fortalecer progresivamente un enfoque de derechos humanos y de uso responsable del modelo. De igual forma, los principios éticos del proyecto se materializan en la transparencia, ya que la iniciativa busca promover la apertura en sus procesos y criterios de desarrollo, fortaleciendo la confianza pública y el escrutinio técnico y académico.
- Universidades y centros de investigación.
- Startups y emprendedores para crear soluciones.
- Gobiernos y organizaciones sociales para mejorar la gestión pública y la atención ciudadana.
Como bien público, está diseñado para ser utilizado por:
La representatividad de Latam-GPT se asegura mediante esfuerzos concretos para ampliar la cobertura regional del corpus, incorporando información de 20 países de América Latina y el Caribe, obtenida en colaboración con instituciones relevantes y sometida a rigurosos procesos de curaduría y balanceo. El corpus se organiza en 10 áreas temáticas prioritarias — Deportes y Recreación; Artes; Política; Comunicación y Medios; Medicina y Salud; Economía y Finanzas; Humanidades y Ciencias Sociales; Ciencias Duras; Educación; y, de manera incipiente, Pueblos Originarios —, lo que permite capturar una diversidad amplia de contextos regionales y habilitar futuras ampliaciones.
Latam-GPT busca que los países de América Latina y el Caribe dejen de ser únicamente consumidores de tecnologías desarrolladas en el Norte Global y avancen hacia un rol más protagónico en el desarrollo de la Inteligencia Artificial, incorporando las problemáticas y necesidades reales de la región. El proyecto demuestra que la región puede construir capacidades propias mediante un enfoque colaborativo, ético y alineado con sus realidades lingüísticas, culturales e institucionales. En este sentido, Latam-GPT representa un paso concreto hacia una mayor autonomía tecnológica regional y una contribución informada y situada al debate global sobre el futuro de la Inteligencia Artificial.