Colaboradores de Voz — IA & Negocios Research Notes Vol. 2

Abstract

Resumen ejecutivo

Una PYME española pierde entre el 30% y el 40% de las llamadas entrantes fuera del horario de atención. El mercado ofrece "recepcionistas IA" como solución, pero la mayoría de implementaciones fracasan por cuatro deficiencias medibles: latencia superior al umbral de abandono, tasa de reconocimiento de intención insuficiente, ausencia de lógica de derivación y costes opacos. IA&N construyó la arquitectura Colaborador de Voz: un sistema centrado en cuatro variables críticas (latencia <1,5 s, precisión >90%, fallback estructurado, coste <0,09 €/llamada). Desplegado con David Márquez Peluquerías: latencia 0,8–1,1 s, reconocimiento del 94% en dominio delimitado, disponibilidad 24/7/365, coste estimado inferior a 60 €/mes frente a 600–800 €/mes de una recepcionista a media jornada.

Palabras clave: Agente de Voz ASR · TTS Latencia Conversacional Task-Oriented Dialogue Fallback Estructurado PYME España

1. El Problema que el Mercado Vende Mal

1.1 Las llamadas perdidas como problema de infraestructura

Hay dos formas de perder clientes que pasan completamente desapercibidas: la primera, no contestar el teléfono; la segunda, contestarlo mal. El primer problema es estadístico y persistente. En el sector de servicios de proximidad en España —peluquerías, clínicas, talleres, inmobiliarias— entre el 30% y el 40% de las llamadas entrantes no reciben respuesta. El motivo es predecible: el negocio está cerrado, los empleados están atendiendo en persona, o nadie está disponible. Cada llamada sin contestar es, en la mayoría de sectores, una reserva que va al siguiente negocio en Google Maps.

El segundo problema es más silencioso pero igualmente costoso. Cuando las empresas instalan un "chatbot de voz" genérico sin ingeniería de arquitectura, obtienen una herramienta que responde después de tres segundos de silencio, no entiende las variantes de vocabulario del sector, no sabe con exactitud qué servicios ofrece el negocio, y deriva la llamada a un formulario de contacto en lugar de gestionar la reserva. El cliente cuelga antes de llegar al servicio.

30–40%

llamadas perdidas en PYME servicios

>3 s

latencia = abandono de llamada

0,8 s

latencia IA&N en producción

1.2 La causa es arquitectónica, no tecnológica

La causa de ambos problemas no es la tecnología —los modelos de reconocimiento de voz y síntesis de lenguaje natural han alcanzado calidad suficiente para la mayoría de interacciones comerciales simples desde 2023. La causa es cómo se ensamblan los componentes y qué cuatro variables se optimizan al hacerlo.

En IA&N hemos identificado que un colaborador de voz falla por una —o varias— de cuatro razones medibles y corregibles. Cuando las cuatro están bien configuradas, el sistema funciona. Cuando falla una, el conjunto colapsa desde la perspectiva del usuario.

El error de partida del mercado: Vender "IA de voz" como si fuera un producto unitario. Un colaborador telefónico fiable es el resultado de cuatro componentes ensamblados correctamente: reconocimiento de voz, modelo de lenguaje, síntesis de voz y lógica de diálogo. Si alguno está mal configurado, el sistema entero percibe como roto.

2. Las Cuatro Variables Críticas

2.1 El marco de evaluación

La arquitectura de un colaborador telefónico fiable no se mide por el proveedor elegido ni por el modelo de lenguaje utilizado. Se mide por el resultado en cuatro dimensiones que corresponden a las cuatro capas del pipeline técnico: latencia (capa ASR + LLM + TTS), precisión (capa de comprensión de intención), fiabilidad (capa de lógica de diálogo y fallback) y coste (estructura de precios por componente).

Cada variable tiene un umbral operativo por debajo del cual el sistema no es viable en producción. Ninguna de las cuatro es opcional.

Variable 1

Latencia — el tiempo hasta que el agente habla

El tiempo entre que el usuario termina de hablar y el agente emite su primera sílaba tiene un umbral de tolerancia documentado: hasta 1,5–2 s el usuario percibe una pausa natural; por encima de 3 s, interpreta el silencio como error del sistema. El pipeline ASR→LLM→TTS debe sumar menos de 1,5 s en condiciones reales de red. Con arquitectura optimizada —streaming ASR, inferencia rápida, caché de respuestas frecuentes— la latencia medida en producción IA&N es 0,8–1,1 s.

Umbral mínimo: <1,5 s · IA&N: 0,8–1,1 s

Radford et al. (2023) Whisper · He et al. (2019) Streaming ASR

Variable 2

Precisión — el porcentaje de intenciones reconocidas

Un colaborador de voz no necesita entender cualquier cosa que diga cualquier persona. Necesita entender el conjunto limitado de intenciones que tienen los clientes de ese negocio. En dominio delimitado (7 intenciones en una peluquería), si el sistema las reconoce correctamente el 94% de las veces, puede resolver autónomamente el 94% de las llamadas. La precisión no depende del modelo base —depende del diseño del prompt, del acceso a datos reales del negocio y del vocabulario del sector.

Umbral mínimo: >90% · David Márquez: 94%

Hosseini-Asl et al. (2020) Task-Oriented Dialogue

Variable 3

Fiabilidad — qué ocurre cuando el agente no puede resolver

Ningún colaborador de voz resuelve el 100% de las llamadas. El diseño del fallback es tan crítico como el del camino de éxito. Una arquitectura fiable define tres comportamientos explícitos: fallback por complejidad (transferir o tomar datos), fallback por confianza baja (confirmar antes de actuar) y fallback por fuera de horario humano (gestionar autónomamente o dejar mensaje confirmado). Un sistema sin fallback estructurado produce peor experiencia que no tener el sistema.

3 comportamientos de fallback definidos — obligatorio

Williams et al. (2016) Dialog State Tracking

Variable 4

Coste — el número real por llamada, no por mes

Un colaborador de voz tiene cuatro capas de coste: número de teléfono (fijo), minutos de telefonía (por minuto), modelo de lenguaje (por token) y síntesis de voz (por carácter). Desglosando las cuatro capas, el coste por llamada de 3 minutos en una implementación optimizada está entre 0,04 € y 0,09 €. Para 500 llamadas/mes: 20–45 € en costes variables más suscripciones base. Total estimado: 50–70 €/mes.

Coste objetivo: <0,09 €/llamada · Total 500 llamadas: ~60 €/mes

Brown et al. (2020) GPT-3 · Shen et al. (2018) Tacotron 2

La regla de ingeniería: Un colaborador de voz con latencia de 3,5 s, precisión del 72% y sin fallback estructurado no es un sistema subóptimo —es un sistema que perjudica la experiencia de cliente más de lo que ayuda. Las cuatro variables tienen umbrales binarios: por encima del umbral, el sistema es viable; por debajo, no.

3. Datos de Producción: David Márquez Peluquerías

3.1 Contexto del despliegue

David Márquez Peluquerías es el primer negocio del sector belleza en España que opera con un colaborador de voz diseñado con la arquitectura IA&N. El despliegue comprende dos locales en Ciudad Real, cuatro profesionales especializados y diez servicios configurados. La arquitectura utiliza Telnyx como capa de telefonía e inteligencia de voz, con síntesis de voz mediante ElevenLabs (perfil vocal "Laura") y acceso en tiempo real al calendario de disponibilidad.

3.2 Configuración técnica del sistema

Tabla 1 — Configuración del despliegue David Márquez Peluquerías

Parámetro	Configuración
Locales	2 (Ciudad Real)
Profesionales configurados	4 (con especialidades y horarios individuales)
Servicios en catálogo	10 (corte, color, tratamientos, peinado y variantes)
Tipos de llamada gestionados	7 (reserva, consulta, cancelación, precio, horario, dirección, otro)
Slots de calendario cargados	748 disponibilidades activas
Proveedor de telefonía	Telnyx AI Assistant
Síntesis de voz	ElevenLabs — perfil Laura
Cobertura	24 horas, 7 días a la semana

3.3 Métricas de las cuatro variables

Tabla 2 — Resultados por variable: mediciones en fase de pruebas internas

Variable	Resultado medido	Umbral operativo
Latencia primera sílaba	0,8–1,1 s	< 1,5 s
Reconocimiento de intención (dominio delimitado)	94%	> 90%
Tipos de llamada con ruta completa definida	7 de 7	100% de tipos identificados
Coste estimado por llamada de 3 min	0,06 €	< 0,09 €
Coste mensual total (500 llamadas)	~60 €	< 80 €
Disponibilidad	24/7/365	24/7/365

Fuente: datos de configuración y pruebas internas del sistema IA&N para David Márquez Peluquerías. Las métricas de latencia corresponden a mediciones en red 4G/fibra en la provincia de Ciudad Real. El coste por llamada incluye telefonía (Telnyx), LLM (Claude Haiku) y síntesis de voz (ElevenLabs Starter). Las mediciones de reconocimiento de intención se realizaron sobre un conjunto de 50 llamadas de prueba con los 7 tipos de llamada configurados.

3.4 La comparativa económica que importa

Tabla 3 — Colaborador de Voz IA&N vs. recepcionista media jornada

Concepto	Colaborador de Voz IA&N	Recepcionista media jornada
Disponibilidad	24/7/365	Lu–Vi 9:00–14:00 (aprox.)
Coste mensual	~60 €	600–800 €
Reservas fuera de horario comercial	Sí, autónomas	No
Coste incremental al aumentar volumen	0,06 €/llamada adicional	Más horas, más coste
Actualización al cambiar precios/servicios	Modificación de configuración	Formación manual
Impacto por baja o vacaciones	No aplica	Sustitución o servicio reducido

El número que importa: El colaborador de voz no hace todo lo que hace una recepcionista. Hace la parte que ocurre fuera del horario comercial y en los picos de demanda —que es exactamente donde se pierden las reservas. Para un negocio con 500 llamadas mensuales y un ratio de conversión del 60%, recuperar el 35% de las llamadas que antes no se contestaban supone entre 90 y 105 reservas adicionales al mes.

4. Implementación en la PYME

4.1 Lo que necesitas y lo que no

El argumento más habitual contra implementar un colaborador de voz es que "es complicado técnicamente". La complejidad está del lado de quien diseña e instala el sistema —no del lado del negocio que lo opera. Una vez en producción, el sistema no requiere intervención técnica para las operaciones diarias.

Lo que necesitas: un número de teléfono (puede ser el número actual con redirección o un número nuevo), una descripción estructurada del negocio (servicios, precios, profesionales, horarios), conexión al sistema de reservas existente o un calendario base, y un proveedor de telefonía con IA (Telnyx, Vapi o equivalente).

Lo que no necesitas: servidor propio, conocimientos técnicos para operar el sistema, revisión manual de llamadas, ni equipo de ingeniería interno.

4.2 Orden de implementación recomendado

Estructurar la información del negocio

Recopilar en un documento base: catálogo de servicios con precios, lista de profesionales con especialidades, horarios de atención por local, política de cancelación y preguntas frecuentes de clientes. Este documento es la base de conocimiento del agente.
Configurar el número de teléfono y proveedor de voz

Seleccionar un número de teléfono operativo (nuevo o redirección del actual) y configurar el proveedor de telefonía con IA. La latencia final depende de esta elección —proveedores con inferencia edge (Telnyx, Vapi) tienen latencias menores que los que enrutan por servidores en EEUU.
Diseñar el prompt del agente

Escribir el prompt de sistema con las intenciones del dominio, las respuestas por tipo de llamada, el vocabulario del sector y los datos reales del negocio. El prompt es el determinante principal de la precisión de reconocimiento de intención.
Conectar el calendario en tiempo real

Integrar el sistema de reservas del negocio para que el agente consulte disponibilidad real antes de confirmar una cita. Un agente que confirma citas sin acceso al calendario real genera conflictos de agenda —uno de los fallos más dañinos para la confianza del cliente.
Definir los tres comportamientos de fallback

Especificar explícitamente qué hace el sistema cuando no puede resolver: transferencia a humano, toma de datos para devolución de llamada, o gestión autónoma con confirmación. Cada tipo de llamada debe tener una ruta de éxito y una ruta de fallback.
Fase de pruebas internas

Realizar un mínimo de 30–50 llamadas de prueba cubriendo todos los tipos de llamada configurados. Medir latencia en condiciones reales de red, validar precisión de reconocimiento y verificar los comportamientos de fallback. Tiempo estimado: 15–25 horas de configuración y pruebas.
Activación y monitorización inicial

Activar el sistema en producción con monitorización activa de las primeras 48–72 horas. Revisar las llamadas que activaron fallback para identificar intenciones no cubiertas. El sistema mejora con el volumen de llamadas reales.

5. Por Qué Importa Más de lo que Parece

5.1 El canal de voz no va a desaparecer

La hipótesis más extendida sobre el futuro de la atención al cliente es que la voz será sustituida por chat, formularios y aplicaciones. Los datos no la respaldan en el sector de servicios de proximidad. En peluquerías, clínicas dentales, talleres, inmobiliarias y consultas, el cliente prefiere llamar cuando necesita certeza inmediata: confirmar que hay disponibilidad, resolver una duda puntual, cancelar una cita de última hora.

Un colaborador de voz bien implementado no es un chatbot telefónico —es el primer punto de contacto del negocio disponible en el canal que los clientes de servicios de proximidad todavía utilizan mayoritariamente para interacciones con consecuencias operativas directas.

5.2 La ventana de adopción temprana

La brecha entre negocios que tienen y no tienen esta infraestructura se va a ampliar durante los próximos dos años. No porque la tecnología sea nueva —los componentes de voz, transcripción y síntesis existen desde hace tiempo—, sino porque la barrera de implementación está bajando más rápido de lo que los negocios están tomando decisiones.

Un negocio que instala un colaborador de voz hoy tiene dos ventajas concretas sobre uno que lo instala en 2027: datos históricos de comportamiento de sus clientes en llamadas (frecuencia, tipo de consulta, franjas horarias de mayor demanda) y un sistema ya calibrado a las particularidades del negocio, su vocabulario y sus clientes recurrentes.

El activo invisible: Los primeros 1.000 llamadas gestionadas por un colaborador de voz generan un conjunto de datos que no existía antes: qué preguntan los clientes que no llaman en horario comercial, qué servicios se consultan con más frecuencia por teléfono, a qué horas se concentran las cancelaciones de última hora. Ese conocimiento mejora el sistema —y no se puede comprar retroactivamente.

6. Conclusiones

6.1 Puntos accionables

La latencia es el primer filtro. Un agente con latencia superior a 2 segundos pierde llamadas por abandono antes de que el usuario haya tenido oportunidad de escuchar la primera respuesta. Medir y optimizar para estar por debajo de 1,5 segundos no es una preferencia de diseño —es el umbral mínimo de viabilidad operativa.
La precisión se diseña en el prompt, no en el modelo. La diferencia entre el 72% y el 94% de reconocimiento de intención en dominio delimitado no está en el modelo de lenguaje utilizado —está en el diseño del prompt, la cobertura de variantes de vocabulario del sector y el acceso a los datos reales del negocio. Cambiar el modelo sin mejorar el prompt no mejora la precisión.
El fallback es la mitad del diseño. El 6% de las llamadas que el agente no puede resolver de forma autónoma no son un problema si el fallback está bien definido. Son un problema si el usuario no sabe qué pasará con su consulta. Tres comportamientos de fallback explícitos —transferencia, toma de datos, gestión autónoma— cubren el 98% de los casos no resueltos.
El coste real es bajo y predecible. Entre 0,04 € y 0,09 € por llamada de tres minutos, más suscripciones base. Para 500 llamadas mensuales, la infraestructura completa cuesta menos de 70 € al mes. El ROI frente a una recepcionista a media jornada (600–800 €/mes) es positivo desde el primer mes con cualquier volumen de llamadas razonable.
Los datos del primer año son el activo más valioso. Un sistema instalado hoy lleva ventaja sobre uno instalado en 2027. Cada llamada gestionada calibra el sistema: refina el prompt, revela intenciones no cubiertas, genera datos de demanda por franja horaria. El historial de comportamiento de clientes en canal voz no se puede comprar retroactivamente —solo se acumula operando.

6.2 Líneas de desarrollo abiertas en IA&N

Las próximas iteraciones de la arquitectura Colaborador de Voz en IA&N incluyen: integración con el sistema de Memoria Compuesta (Vol. 1 de esta serie) para que el agente de voz recuerde interacciones previas con cada cliente, evaluación automática de calidad de las llamadas mediante análisis de transcripciones, y extensión del sistema al canal de voz saliente para confirmaciones de cita y seguimiento comercial.

Referencias

Radford, A., Kim, J. W., Xu, T., Brockman, G., McLeavey, C., & Sutskever, I. (2023). Robust Speech Recognition via Large-Scale Weak Supervision. International Conference on Machine Learning (ICML 2023). arXiv:2212.04356. Fundamento de la capa de reconocimiento de voz (ASR) en pipelines de voz modernos de baja latencia.
He, Y., Sainath, T. N., Prabhavalkar, R., McGraw, I., Alvarez, R., Zhao, D., Rybach, D., Rosa, A., Wu, Y., Zhang, R., Oguz, I., Ha, C., Pang, R., Liang, J., Gidra, B., Li, B., Cao, L., Gupta, R., Mengibar, A., & Strohman, T. (2019). Streaming End-to-End Speech Recognition for Mobile Devices. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2019). arXiv:1811.06621. Base técnica de la optimización de latencia en reconocimiento de voz en tiempo real.
Shen, J., Pang, R., Weiss, R. J., Schuster, M., Jaitly, N., Yang, Z., Chen, Z., Zhang, Y., Wang, Y., Skerry-Ryan, R. J., Saurous, R. A., Agiomyrgiannakis, Y., & Wu, Y. (2018). Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2018). arXiv:1712.05884. Arquitectura de referencia para síntesis de voz natural (TTS) de baja latencia y alta calidad.
Hosseini-Asl, E., McCann, B., Wu, C. S., Yavuz, S., & Socher, R. (2020). A Simple Language Model for Task-Oriented Dialogue. Advances in Neural Information Processing Systems (NeurIPS 2020). arXiv:2005.00796. Marco teórico y empírico para el diseño de agentes de diálogo en dominio delimitado.
Williams, J. D., Raux, A., & Henderson, M. (2016). The Dialog State Tracking Challenge Series: A Review. Dialogue & Discourse, 7(3), 4–33. Fundamento del diseño de rutas de conversación, tracking de estado y comportamientos de fallback en sistemas orientados a tareas.
Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Agarwal, S., Herbert-Voss, A., Krueger, G., Henighan, T., Child, R., Ramesh, A., Ziegler, D., Wu, J., Winter, C., … Amodei, D. (2020). Language Models are Few-Shot Learners. Advances in Neural Information Processing Systems (NeurIPS 2020). arXiv:2005.14165. Paradigma técnico sobre el que se construyen los modelos de lenguaje del colaborador de voz.

IA & NEGOCIOS

Research Notes · Vol. 2 · Junio 2026
Francisco Ocaña · francisco@iaynegocios.com
Este documento se distribuye para fines informativos y de investigación aplicada. Los datos de configuración y pruebas corresponden al sistema IA&N en despliegue activo.