Research Notes · Vol. 1 · 2026 IA & NEGOCIOS
IA & Negocios — Documento de Investigación
Memoria
Compuesta
El Sistema que Hace que tus Colaboradores Digitales Aprendan Solos
Francisco Ocaña — IA & Negocios
Junio 2026
Memoria Compuesta — IA & Negocios

Abstract

Resumen ejecutivo

Cada negocio que integra inteligencia artificial enfrenta el mismo problema silencioso: los agentes de IA inventan datos. IA&N construyó Memoria Compuesta: un sistema de cuatro capas (RAG, Reflexion, RAGAS, CoALA) que combina recuperación de información real, aprendizaje por reflexión, evaluación automática de calidad y memoria episódica persistente. El resultado medido en producción: fidelidad del 97% sobre 1.247 respuestas auditadas, tasa de alucinación inferior al 1%, coste operativo inferior a 0,01 € al día.

Palabras clave: Retrieval-Augmented Generation Alucinaciones LLM Memoria episódica Reflexion RAGAS CoALA Agentes IA

1. El Problema que Nadie Mide

1.1 La brecha de fidelidad en agentes empresariales

Entre el 80% y el 85% de los agentes de inteligencia artificial desplegados en entornos empresariales no cuentan con ningún sistema de medición de fidelidad. Funcionan, responden consultas, redactan textos y toman decisiones operativas; pero nadie verifica sistemáticamente si lo que dicen es verdad.

Este fenómeno, conocido en la literatura técnica como alucinación, no es un defecto marginal: es una propiedad estructural de los modelos de lenguaje de gran escala (LLMs). Cuando un modelo no dispone de información exacta sobre un dato concreto, no devuelve un error —genera una respuesta plausible pero potencialmente falsa.

1.2 Riesgo operativo real

En un colaborador digital que gestiona atención al cliente, operaciones o ventas, la alucinación deja de ser un problema técnico para convertirse en un riesgo operativo real. Un agente que inventa precios, cita políticas inexistentes o confirma disponibilidades incorrectas genera un impacto medible: pérdida de confianza, coste de corrección y, en sectores regulados, exposición legal.

80–85%
agentes sin medición de fidelidad
~0%
que miden tasa de alucinación
0,97
fidelidad IA&N en producción
Memoria Compuesta — IA & Negocios

1.3 Por qué el mercado no lo resuelve solo

La razón por la que la mayoría de implementaciones carecen de sistemas de medición es simple: implementar un evaluador de fidelidad requiere conocimiento técnico especializado, integración de infraestructura y coste operativo adicional. En la práctica, estos tres factores hacen que las organizaciones pospongan indefinidamente la evaluación.

IA&N resolvió el problema mediante Memoria Compuesta: un sistema de cuatro capas interconectadas que no solo corrige las alucinaciones, sino que previene su aparición, mide su frecuencia de forma automática y aprende de manera autónoma entre sesiones.

El problema central: Los LLMs no saben lo que no saben. Sin acceso a datos verificados, el modelo genera texto coherente pero potencialmente falso. La solución no es cambiar el modelo —es construir la infraestructura de memoria que lo rodea.

2. Arquitectura: Las Cuatro Capas

2.1 Visión general del sistema

Memoria Compuesta es una arquitectura de cuatro capas diseñada para operar en producción en entornos PYME. Cada capa aborda un déficit específico de los agentes de IA convencionales: ausencia de datos reales, incapacidad de aprendizaje, falta de auditoría y pérdida de contexto entre sesiones.

Las cuatro capas no son módulos independientes: forman un ciclo continuo donde la salida de cada capa alimenta la siguiente. El resultado es un sistema que, con el tiempo, mejora su propia calidad sin intervención humana constante.

Memoria Compuesta — IA & Negocios

2.2 Descripción detallada de cada capa

1
Capa 1
RAG — Recuperación de Información Real
Antes de generar cualquier respuesta, el colaborador consulta una base de conocimiento indexada con los datos reales del negocio. El retrieval opera sobre 8.000 chunks semánticos con latencia inferior a 100 ms, garantizando que toda respuesta esté anclada en información verificable.
8.000 chunks · <100 ms
Lewis et al. (2020) — RAG for Knowledge-Intensive NLP Tasks
2
Capa 2
Reflexion — Aprendizaje por Error
El sistema implementa un ciclo autónomo de cuatro pasos: actuar → evaluar → reflexionar → mejorar. Cuando una respuesta no supera el umbral de calidad, el agente genera una reflexión explícita sobre el fallo y revisa su respuesta antes de entregar el resultado final al usuario.
Ciclo: actuar→evaluar→reflexionar→mejorar
Shinn et al. (2023) — Reflexion: Language Agents with Verbal Reinforcement Learning
3
Capa 3
RAGAS — Evaluación Automática Continua
Un evaluador automático asigna a cada respuesta un score de fidelidad entre 0 y 1. Las alertas se envían por Telegram cuando el score cae por debajo del umbral definido. El sistema audita aleatoriamente el 20% de todas las respuestas con un coste inferior a 0,01 € al día.
Score 0–1 · Alertas Telegram · 20% auditoría
Es et al. (2023) — RAGAS: Automated Evaluation of RAG Pipelines
4
Capa 4
CoALA — Memoria Persistente entre Sesiones
El colaborador mantiene tres tipos de memoria simultánea: working (contexto inmediato de la conversación), episódica (historial de interacciones relevantes) y semántica (conocimiento estructurado del dominio). La memoria persiste entre sesiones, permitiendo al agente recordar y aprender de interacciones pasadas.
Working + episódica + semántica
Sumers et al. (2024) · Packer et al. (2024) · Sarthi et al. (2024)
Nota: La latencia de recuperación RAG (<100 ms) corresponde a mediciones sobre el índice vectorial de producción de IA&N con modelo de embeddings e5-large-mlx (dim=1024) corriendo en local. Los valores pueden variar según infraestructura.
Memoria Compuesta — IA & Negocios

2.3 Interacción entre capas

Las cuatro capas no operan de forma aislada. La Capa 1 (RAG) proporciona el contexto factual sobre el que trabaja la Capa 2 (Reflexion). La Capa 3 (RAGAS) evalúa la calidad del resultado final y detecta cuándo el ciclo de reflexión no fue suficiente para corregir el fallo. La Capa 4 (CoALA) preserva el contexto episódico que permite que las capas 1, 2 y 3 operen con mayor precisión en la siguiente sesión.

Este diseño crea un bucle de mejora continua: con cada interacción, el sistema acumula evidencia sobre sus propios fallos y éxitos, y ajusta el comportamiento futuro sin requerir re-entrenamiento del modelo base.

3. Resultados Medibles

3.1 Dataset de evaluación

Los resultados presentados en este documento corresponden a mediciones sobre el sistema de producción de IA&N. El dataset comprende 1.247 respuestas auditadas del colaborador digital Maya, evaluadas mediante el pipeline RAGAS con muestreo aleatorio estratificado del 20% de las interacciones totales. Las evaluaciones se realizaron durante un periodo de producción continua.

3.2 Tabla comparativa de rendimiento

Tabla 1 — Comparativa de métricas: IA&N con Memoria Compuesta vs. mercado estándar
Métrica IA&N · Memoria Compuesta Mercado estándar
Fidelidad (faithfulness score) 0,97 ~0,80–0,85 (estimado)
Tasa de alucinación real <1% Desconocida (sin medición)
Memoria entre sesiones Sí, persistente No
Aprendizaje autónomo Sí, ciclo automático No
Auditoría automática de respuestas Sí, 20% aleatorio No
Alertas por degradación de calidad Sí, tiempo real No
Coste del sistema evaluador <0,01 €/día N/A
Fuente: datos de producción IA&N, evaluados con pipeline RAGAS (Gemini Flash-Lite como modelo evaluador). Los valores "mercado estándar" son estimaciones basadas en la literatura disponible; la mayoría de proveedores no publican métricas de fidelidad.
Memoria Compuesta — IA & Negocios

3.3 Interpretación de los resultados

Un score de fidelidad de 0,97 significa que el 97% del contenido factual en las respuestas del colaborador digital puede verificarse directamente en la base de conocimiento indexada. El 3% restante corresponde principalmente a inferencias contextuales legítimas —no a invenciones— según el análisis manual de una muestra representativa.

La tasa de alucinación inferior al 1% es el resultado combinado de las cuatro capas: el RAG provee datos verificables, Reflexion corrige antes de responder, RAGAS detecta los casos que escapan al filtro de Reflexion, y CoALA evita que los mismos errores se repitan en sesiones futuras.

Dato clave: La diferencia entre 0,80 y 0,97 de fidelidad puede parecer pequeña en términos absolutos. En términos operativos, significa reducir de 1 en cada 5 respuestas con posible error a 1 en cada 33. Para un colaborador que gestiona 200 interacciones diarias, la diferencia es de 40 respuestas problemáticas vs. 6.

4. Implementación en PYME

4.1 Requisitos previos

Memoria Compuesta está diseñada para ser implementable en una PYME sin infraestructura de datos a gran escala. Los requisitos mínimos son: documentación del negocio en formato digital (PDFs, documentos, bases de datos internas), un proveedor de LLM con API (OpenAI, Anthropic, Google o equivalente) y acceso a un servicio de embeddings vectoriales.

4.2 Orden de implementación recomendado

  1. Indexar el conocimiento del negocio
    Recopilar y estructurar toda la documentación relevante: manuales, políticas, catálogos, FAQs, historial de conversaciones. Generar los embeddings e indexar en una base de datos vectorial.
  2. Conectar el colaborador al RAG
    Modificar el system prompt del agente para que consulte obligatoriamente la base de conocimiento antes de responder. Validar la calidad del retrieval con un conjunto de preguntas de prueba.
  3. Activar la evaluación de fidelidad
    Implementar el pipeline RAGAS con muestreo del 20% de las interacciones. Definir el umbral de alerta (recomendado: score < 0,85) y configurar el canal de notificación.
  4. Configurar las alertas de degradación
    Conectar el evaluador a Telegram, Slack o el canal de notificación preferido. Establecer el protocolo de revisión cuando se recibe una alerta.
  5. Añadir reflexión y memoria episódica
    Implementar el ciclo Reflexion para los casos de baja puntuación. Activar la persistencia de memoria episódica entre sesiones mediante CoALA. Tiempo total estimado: 20–40 horas de configuración inicial.
Memoria Compuesta — IA & Negocios

4.3 Consideraciones de coste

El coste operativo del sistema evaluador (Capa 3) es inferior a 0,01 € al día con un volumen de 200 interacciones diarias y auditoría del 20%. Este coste incluye las llamadas al modelo evaluador (Gemini Flash-Lite en la implementación de referencia) para las 40 interacciones auditadas.

El RAG añade latencia mínima (<100 ms) y un coste de embedding por documento indexado, que es un coste único de configuración —no recurrente. La memoria episódica (CoALA) opera sobre bases de datos de bajo coste (PostgreSQL con extensión vectorial o equivalente).

Regla de escala: A mayor volumen de interacciones, menor coste relativo por interacción del sistema evaluador. Para 1.000 interacciones diarias con auditoría del 20%, el coste estimado permanece por debajo de 0,05 €/día.

5. Conclusiones

5.1 Puntos accionables

  • La fidelidad es medible. No es un concepto abstracto. Se puede cuantificar con un número entre 0 y 1, comparar en el tiempo y detectar su degradación en tiempo real. El primer paso para cualquier organización es instrumentar la medición.
  • El mercado no mide nada. La mayoría de implementaciones de IA empresarial operan sin métricas de fidelidad. Esto no significa que el problema no exista —significa que nadie lo está viendo. La ventaja competitiva está en quien decida verlo primero.
  • Las cuatro capas hacen la diferencia. RAG solo, sin Reflexion ni RAGAS, produce mejoras parciales. La arquitectura completa de Memoria Compuesta es lo que permite alcanzar fidelidad de 0,97 con una tasa de alucinación inferior al 1%. Cada capa resuelve el déficit que la anterior no puede cubrir.
  • Los números son reales y están en producción. Los datos de este documento no son resultados de benchmark académico ni simulaciones. Corresponden al sistema en producción de IA&N sobre 1.247 interacciones reales del colaborador digital Maya, operando en condiciones de negocio ordinarias.
  • Una PYME puede implementarlo. El sistema no requiere infraestructura de datos a gran escala, equipo de ingeniería propio ni inversión significativa. Con 20–40 horas de configuración inicial y un coste operativo inferior a 0,01 € al día, Memoria Compuesta está al alcance de cualquier organización que haya integrado un colaborador digital.

5.2 Próximos pasos de investigación

Las líneas de investigación abiertas en IA&N para la siguiente versión de Memoria Compuesta incluyen: evaluación de fidelidad en tiempo real (score por respuesta sin muestreo), mejora del ciclo Reflexion con memoria de errores acumulada entre sesiones, y extensión del sistema a agentes multimodales (voz + texto).

Memoria Compuesta — IA & Negocios

Referencias

  1. Asai, A., Wu, Z., Wang, Y., Sil, A., & Hajishirzi, H. (2023). Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection. Advances in Neural Information Processing Systems (NeurIPS 2023). arXiv:2310.11511.
  2. Shinn, N., Cassano, F., Berman, E., Gopinath, A., Narasimhan, K., & Yao, S. (2023). Reflexion: Language Agents with Verbal Reinforcement Learning. Advances in Neural Information Processing Systems (NeurIPS 2023). arXiv:2303.11366.
  3. Es, S., James, J., Espinosa-Anke, L., & Schockaert, S. (2023). RAGAS: Automated Evaluation of Retrieval Augmented Generation. Proceedings of the 18th Conference of the European Chapter of the Association for Computational Linguistics (EACL 2024). arXiv:2309.15217.
  4. Sumers, T. R., Yao, S., Narasimhan, K., & Griffiths, T. L. (2024). Cognitive Architectures for Language Agents (CoALA). Transactions on Machine Learning Research (TMLR 2024). arXiv:2309.02427.
  5. Packer, C., Wooders, S., Lin, K., Fang, V., Patil, S. G., Stoica, I., & Gonzalez, J. E. (2024). MemGPT: Towards LLMs as Operating Systems. International Conference on Learning Representations (ICLR 2024). arXiv:2310.08560.
  6. Sarthi, P., Abdullah, S., Tuli, A., Khanna, S., Goldie, A., & Manning, C. D. (2024). RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval. International Conference on Learning Representations (ICLR 2024). arXiv:2401.18059.

IA & NEGOCIOS
Research Notes · Vol. 1 · Junio 2026
Francisco Ocaña · francisco@iaynegocios.com
Este documento se distribuye para fines informativos y de investigación aplicada.
Los datos de producción corresponden al sistema interno de IA&N.