Has hablado con un chatbot en una web de atención al cliente, o has usado ChatGPT, y te has preguntado cómo es posible que una máquina “entienda” lo que dices y te responda con sentido. Los chatbots modernos no son programas de si-entonces. Utilizan modelos de lenguaje basados en redes neuronales profundas, específicamente una arquitectura llamada transformers (como GPT-4, BERT, Gemini). Aprenden de cantidades ingentes de texto humano (libros, conversaciones, páginas web) y son capaces de generar respuestas coherentes, incluso mantener una personalidad. Te explico la diferencia entre chatbots basados en reglas (los de menús) y los generativos (los que realmente conversan), cómo funcionan por dentro los transformers, el concepto de embeddings, y cómo se entrenan (pre-entrenamiento y fine-tuning).
Chatbots basados en reglas vs. generativos (LLMs)
No todos los chatbots son iguales. Existen dos categorías principales:
Basados en reglas (árbol de decisión)
- Trabajan con un diagrama de flujo predefinido: “Si el usuario dice X, responder Y”.
- Solo reconocen unas pocas palabras clave y frases exactas.
- Muy limitados, no pueden improvisar. Si el usuario se sale del guion, se bloquean.
- Útiles para tareas muy específicas: pedir un código de verificación, agendar una cita siguiendo pasos rígidos. Ejemplo: sistema de respuesta telefónica.
Generativos (basados en LLM – Large Language Models)
- Utilizan redes neuronales profundas entrenadas con grandes corpus de texto.
- Son capaces de generar respuestas libres, coherentes y contextuales.
- Pueden manejar temas inesperados y mantener conversaciones abiertas.
- Ejemplos: ChatGPT (GPT-4), Google Gemini, Claude, Llama (Meta), Mistral.
Los chatbots de atención al cliente modernos suelen combinar ambos: un LLM para entender la intención del usuario y generar una respuesta adecuada, pero a menudo conectado a una base de conocimiento (RAG, Retrieval-Augmented Generation) para responder solo con información verificada de la empresa.
¿Qué es un LLM (Large Language Model)?
Un modelo de lenguaje grande es una red neuronal con miles de millones de parámetros (desde 7B hasta 1T) entrenada para predecir la siguiente palabra en una secuencia de texto. Al ser tan grande, los LLM aprenden patrones, razonamientos básicos, conocimientos factuales y hasta cierta lógica. No entienden semántica como un humano, pero generan texto tan convincente que parece inteligente (fenómeno “estornino parlante”).
Procesamiento del lenguaje natural (NLP) en chatbots: tokenización, embeddings y atención
Un modelo de lenguaje no ve letras, sino números. El proceso de convertir texto a números consta de varias etapas:
- Tokenización: Dividir el texto en unidades pequeñas (tokens). Pueden ser palabras completas (“perro”), subpalabras (“perr” + “o”) o caracteres individuales. Los modelos GPT usan tokenización Byte Pair Encoding (BPE) con un vocabulario de 50k-100k tokens.
- Embeddings: cada token se convierte en un vector numérico (listas de números decimales, típicamente de 768 a 4096 dimensiones). Estos vectores se aprenden durante el entrenamiento y codifican el significado semántico y sintáctico (palabras con significados similares tienen vectores cercanos en el espacio).
- Posición: como el modelo no tiene orden inherente, se añaden embeddings de posición (posición absoluta o relativa) para que sepa el orden de las palabras.
La arquitectura de transformers procesa todos los tokens a la vez (no secuencialmente como las RNN) usando un mecanismo de auto-atención (self-attention), que permite a cada token “mirar” a otros tokens en la frase y ponderar su influencia. Esto es crucial para entender relaciones a larga distancia (por ejemplo, el sujeto y el verbo aunque haya frases intercaladas).
Arquitectura Transformer (atención multicabeza): la base de GPT, BERT y similares
El paper “Attention Is All You Need” (Vaswani et al., 2017) introdujo el Transformer, que desde entonces domina el NLP. Bloques esenciales:
- Autoatención (Self-Attention): para cada token, se calculan tres vectores: Query (Q), Key (K), Value (V). El peso de atención entre token i y token j es softmax(Q_i · K_j). Luego se suma V_j ponderado. Esto permite enfocarse en partes relevantes de la entrada.
- Atención multicabeza (Multi-Head Attention): se ejecutan varias atenciones en paralelo con diferentes proyecciones, capturando distintos tipos de relaciones (sintácticas, semánticas, coreferencia).
- Capa feed-forward (FFN): después de la atención, se pasa por una red de dos capas lineales con activación ReLU/GELU.
- Residuos + LayerNorm: cada subcapa tiene una conexión de salto (residual) y normalización.
Un GPT (Generative Pre-trained Transformer) usa la parte del decodificador del Transformer (con máscara causal – no puede ver el futuro). BERT usa el codificador (bidireccional). Los chatbots modernos (ChatGPT, Gemini) usan modelos decoder-only con miles de millones de parámetros y decenas de capas (por ejemplo, GPT-3 tiene 96 capas, 175B parámetros).
Esta arquitectura permite al chatbot generar texto palabra por palabra, condicionado en el historial de la conversación.
Entrenamiento de un LLM: pre-entrenamiento (autoregresivo) y fine-tuning (RLHF)
Un chatbot moderno no se programa; se “entrena” con enormes cantidades de texto. Las fases típicas son:
- Pre-entrenamiento (pretraining): el modelo se entrena para predecir la siguiente palabra en secuencias de texto (objetivo autoregresivo) con un corpus masivo (internet, libros, artículos, código). Coste: cientos de millones de dólares en computación (GPU/TPU). Da lugar a un modelo base (GPT-3 base, Llama base) que sabe lenguaje pero no es un útil chatbot todavía.
- Fine-tuning supervisado (SFT): se afina el modelo con ejemplos de diálogos deseables (pregunta-respuesta) escritos por humanos. Así aprende a comportarse como asistente.
- Aprendizaje por refuerzo con feedback humano (RLHF): el modelo produce respuestas, humanos las ordenan por calidad, y se entrena un modelo de recompensa para refinar aún más el comportamiento, haciéndolo útil, inofensivo y honesto. Esto fue crucial para ChatGPT.
Después del entrenamiento, el modelo puede ejecutarse en inferencia (generar respuestas), normalmente en servidores en la nube con GPUs (porque necesita mucha memoria y cómputo). Los chatbots abiertos (GPT-4, Gemini) son servicios cloud; los de código abierto (Llama, Mistral) pueden ejecutarse localmente en hardware potente.
Retrieval-Augmented Generation (RAG)
Los chatbots de empresas (atención al cliente) no pueden basarse solo en el conocimiento general del LLM, porque ignoran productos, políticas internas o precios. RAG combina un LLM con un sistema de búsqueda (vector database). El chatbot convierte la pregunta del usuario en un vector (embedding), busca en una base de datos de documentos internos (manuals, FAQ) los fragmentos más relevantes, los inyecta en el prompt del LLM, y luego el LLM genera una respuesta basada en esos documentos. Es la técnica estándar para chatbots inteligentes de soporte.
Contexto y ventana de atención: por qué los chatbots “olvidan” conversaciones largas
Los LLM tienen un límite en la cantidad de tokens que pueden procesar de una vez (context window). GPT-4 Turbo tiene 128k tokens (~300 páginas); Gemini Pro 1.5 tiene 2M (contexto muy largo). Cuando la conversación supera la ventana de contexto, el modelo “olvida” los mensajes más antiguos (solo retiene los tokens más recientes).
Además, el costo computacional de la atención es O(n²) en la ventana (con n el número de tokens). Por eso los modelos muy largos son computacionalmente caros. Algunos trucos (FlashAttention, atención lineal) ayudan.
Para mantener conversaciones largas, los aplicaciones clientes mantienen un historial de mensajes y lo envían truncado (por ejemplo, las últimas 20 interacciones). Los chatbots modernos tratan de recordar información importante resumiéndola internamente, pero no tienen memoria persistente entre sesiones a menos que se implemente una base de datos de “memoria” externa.
El problema de las alucinaciones: cómo un chatbot inventa información con confianza
Los LLM no distinguen entre hechos y ficción. Generan texto plausible estadísticamente, no verificado. Por eso pueden inventar respuestas con total seguridad, incluyendo citas falsas, sucesos históricos que no ocurrieron, o combinaciones inexistentes (“alucinaciones”).
Causas:
- El modelo no tiene una base de datos de hechos (los aprende de textos, que pueden contener errores).
- El entrenamiento autoregresivo solo premia la fluidez, no la veracidad.
- No hay un mecanismo de “sé que no sé”.
Mitigaciones:
- RAG: obliga al modelo a responder solo con información de documentos proporcionados, reduciendo invenciones.
- Prompt engineering: indicar “si no sabes la respuesta, di ‘No sé’”.
- Modelos de verificación: usar un segundo modelo para comprobar afirmaciones.
En aplicaciones críticas (medicina, finanzas), las alucinaciones pueden ser peligrosas; por eso se recomienda no usar LLMs sin supervisión humana.
Casos de uso real: atención al cliente automatizada (RAG), asistentes personales, tutorización
Los chatbots con IA se están desplegando masivamente:
- Atención al cliente (CX): empresas de telecomunicaciones, bancos, aerolíneas, etc., usan chatbots para resolver dudas comunes (facturación, saldo, reprogramación). Se integran con RAG sobre su base de conocimiento. Reducen costos y tiempo de espera. Ejemplo: el bot de Vodafone “TOBi”.
- Asistentes personales: planificación de itinerarios, resumen de correos, ayuda con tareas ofimáticas (Microsoft Copilot, Google Duet).
- Tutorización educativa: explican conceptos, generan ejercicios, responden preguntas de estudiantes (Khan Academy con GPT-4).
- Generación de contenido: redacción de borradores de artículos, código, traducciones (ChatGPT, Claude).
- Simulación de personajes: chatbots con personalidades para entretenimiento o entrenamiento médico.
La tendencia es hacia la “agencia”: chatbots que no solo conversan, sino que ejecutan acciones (reservar vuelos, enviar emails, comprar productos) usando plug-ins o llamadas a API (funcion calling).
Open-source LLMs: solución para empresas con datos sensibles
Empresas que no pueden enviar sus datos a la nube (por privacidad, secretos comerciales) optan por modelos LLM de código abierto (Llama 3, Mistral 7B, Gemma) desplegados localmente en sus servidores. Aunque más pequeños que GPT-4, ajustados adecuadamente pueden ser muy efectivos para tareas concretas. Coste: equipos GPU (ej. H100, A100) y personal de MLOps.