Un coche autónomo no es un vehículo con un “piloto automático” como el de los aviones. Es un robot sobre ruedas que percibe el entorno con sensores, procesa toda esa información en tiempo real, decide qué hacer y mueve los mandos (volante, acelerador, freno) sin intervención humana. La inteligencia artificial no es solo una red neuronal: es un sistema complejo de percepción (detección de objetos), planificación de rutas y control de actuadores, todo funcionando en milisegundos con redundancia y seguridad crítica. Te explico los niveles de automatización, los tres grandes subsistemas de IA, los sensores clave (cámaras, radar, LiDAR) y por qué todavía no tenemos coches totalmente autónomos en cualquier calle.
Niveles de automatización SAE (del 0 al 5): de la conducción asistida a la total
La Sociedad de Ingenieros de Automoción (SAE) definió 6 niveles que se han convertido en el estándar mundial. Es importante entenderlos porque la mayoría de los “coches autónomos” que ves hoy son en realidad nivel 2 o nivel 3 condicional:
- Nivel 0 (sin automatización): El conductor humano hace todo (acelerar, frenar, girar, vigilar). Sólo hay alertas (avisador de cambio de carril, advertencia de colisión).
- Nivel 1 (asistencia específica): El coche puede controlar o el acelerador/freno (control de crucero adaptativo ACC) o la dirección (asistente de mantenimiento de carril LKA), pero no ambos simultáneamente. El conductor supervisa siempre.
- Nivel 2 (automatización parcial combinada): El coche controla al mismo tiempo acelerador, freno y dirección en ciertas condiciones (autopista con carriles bien marcados). El conductor debe mantener las manos en el volante (o al menos la atención). Ejemplos: Tesla Autopilot (antiguo), Super Cruise (GM), ProPilot Assist (Nissan).
- Nivel 3 (automatización condicional): El coche se hace cargo de la conducción completa en un dominio operativo definido (por ejemplo, autopista en buen clima) y puede requerir que el conductor tome el control con aviso (de 5-10 segundos). El conductor puede mirar el móvil o leer. Mercedes-Benz Drive Pilot es el primer sistema nivel 3 certificado (Alemania, 2023).
- Nivel 4 (alta automatización): El coche conduce sin intervención dentro de un área geofenced (delimitada, una ciudad o distrito). No requiere atención humana. Si sale del área, pide al conductor que tome el control o se detiene de forma segura. Ejemplo: Waymo en Phoenix y San Francisco, robotaxi de Cruise.
- Nivel 5 (automatización total): El coche conduce en cualquier carretera, cualquier condición climática, sin volante ni pedales. No existe comercialmente hoy, y probablemente faltan décadas (o quizá nunca se alcance en todas las condiciones, como nieve intensa sin marcas).
La mayoría de los coches con “autopilot” son nivel 2. Un nivel 3 o 4 requiere sensores redundantes y una potencia de cálculo considerable (varios chips de alta gama NVIDIA Orin, Qualcomm Snapdragon Ride, Intel Mobileye EyeQ).
El dilema del nivel 3: la transferencia de control
El mayor problema de ingeniería de los sistemas nivel 3 es la “transferencia de control” (handover). Si el coche encuentra una situación que no puede manejar (ej. obras sin señalizar), avisa al conductor para que retome el volante. El conductor puede estar distraído (leyendo, durmiéndose) y no reaccionar a tiempo. En nivel 4, el coche está diseñado para no necesitar intervención humana nunca dentro de su ODD, resolviendo por sí mismo o deteniéndose de forma segura.
Sensores y percepción: cómo el coche “ve” el mundo (cámaras, radar, LiDAR, ultrasonidos)
Un coche autónomo de nivel 4 integra múltiples sensores con diferentes principios físicos, para que sus puntos débiles se compensen entre sí. Los principales:
Tesla ha apostado por una estrategia sin LiDAR (solo cámaras + radar + ultrasonidos) argumentando que si los humanos conducimos con dos ojos, la IA debe poder hacerlo igual. La mayoría de los expertos creen que el LiDAR aporta una redundancia crítica en condiciones adversas. Waymo, Cruise, Baidu y otras empresas de robotaxi usan LiDAR + radar + cámaras. El debate sigue abierto.
Fusión de datos: combinando sensores para obtener una imagen robusta
Cada sensor tiene sus fortalezas y debilidades. La fusión de sensores combina las mediciones en una representación común (por ejemplo, objetos en un sistema de coordenadas global). Hay dos enfoques principales:
- Fusión temprana (early fusion): Se combinan las señales en bruto (píxeles + nube de puntos) antes de la detección. Computacionalmente exigente.
- Fusión tardía (late fusion): Cada sensor detecta objetos por separado y luego se asocian y fusionan las listas de objetos (kalman filtering). Más robusta y fácil de implementar. Se usa un filtro de Kalman extendido o un algoritmo de asignación de hipótesis (SORT, DeepSORT) para seguir los objetos a lo largo del tiempo (tracking).
El resultado de la fusión es un modelo de entorno (world model): una lista de objetos con su posición (3D), velocidad, aceleración, clase (coche, peatón, ciclista, vehículo de emergencia), y una estimación de incertidumbre (covarianza). Además, se construye un mapa de ocupación en 2D/3D que identifica el espacio libre y los obstáculos estáticos (bordillos, barreras, vegetación). Esta representación se actualiza cada 50-100 ms.
Localización y SLAM: saber dónde estás sin GPS preciso
El GPS convencional tiene una precisión de 3-5 metros, insuficiente para circular por un carril (necesitas 10-30 cm). Los coches autónomos usan técnicas de localización relativa combinando:
- GPS de alta precisión (RTK-GPS o PPP): Con correcciones por satélite o red de estaciones base, se alcanzan 2-5 cm de precisión. Necesita cobertura de red móvil o satélites específicos (GNSS).
- IMU (Unidad de medición inercial): giroscopios y acelerómetros que miden movimientos en 6 grados de libertad. Integrando la aceleración dos veces se obtiene la posición, pero la deriva aumenta con el tiempo.
- Odometría visual (VO): Comparando fotogramas consecutivos de las cámaras se calcula el desplazamiento (flujo óptico, features de ORB/SIFT, deep learning).
- LiDAR odometría: Registro de nubes de puntos (ICP, NDT) para estimar el movimiento relativo entre scans.
El algoritmo central es el SLAM (Simultaneous Localization And Mapping), que construye un mapa del entorno mientras simultáneamente localiza el vehículo en ese mapa. En nivel 4, se suele tener un mapa HD (High-Definition) precargado con centímetros de precisión (carriles, bordillos, señales, estructura 3D de edificios). El coche se localiza en ese mapa mediante el registro de las observaciones LiDAR/cámara con el mapa (localización basada en mapa). Esto permite conocer la posición y orientación con error <5 cm incluso en túneles.
Mapas HD y actualización en la nube
Empresas como HERE, TomTom, Google (Waymo) y Mobileye generan mapas HD que contienen información semántica (posiciones de carriles, semáforos, límites de velocidad, pendientes). Estos mapas se actualizan desde la flota de vehículos comerciales mediante crowdsourcing: cuando un coche detecta un cambio (obras, nuevo carril), lo sube a la nube y después se redistribuye a la flota. Es un sistema de actualización continua.
Planificación de trayectorias: de la ruta global al movimiento local
Una vez que el coche sabe dónde está y qué objetos hay alrededor, debe decidir qué hacer. La planificación se organiza en tres niveles jerárquicos:
- Planificación de ruta (global): Usando un mapa estándar (OpenStreetMap, TomTom), se calcula la ruta desde el origen hasta el destino. Se pueden considerar el tráfico (datos históricos o en tiempo real). Es la misma lógica que Google Maps, pero ejecutada a bordo.
- Planificación de comportamiento (toma de decisiones, behavioral planner): Decide las acciones de alto nivel: a qué velocidad circular, cambiar de carril, ceder el paso, detenerse ante un semáforo en rojo, girar en una intersección. Utiliza máquinas de estados finitos (FSM), árboles de decisión o aprendizaje por refuerzo (deep RL). También se usan redes neuronales de comportamiento (imitation learning) entrenadas con datos de conducción humana.
- Planificación de movimiento local (motion planner): Genera una trayectoria concreta (polinomio o spline) que sea suave, segura y dinámicamente factible (respetando límites de aceleración, frenado y ángulo de giro). Debe evitar colisiones con los objetos detectados. Algoritmos comunes: planificación basada en muestreo (RRT, PRM), control predictivo de modelo (MPC) u optimización de trayectorias (cálculo de variaciones). El planificador local publica puntos de paso cada 20-50 ms.
Sistemas de control: acelerador, freno y dirección por ordenador
El planificador produce una trayectoria deseada (posición, velocidad, aceleración, ángulo de volante). El controlador de bajo nivel (PID, MPC o control por retroalimentación de estado) envía señales a los actuadores del vehículo (acelerador, freno, dirección asistida eléctrica) para seguir esa trayectoria.
- Control longitudinal: Controla la velocidad y la distancia con el coche precedente. Tiene dos modos: control de velocidad (mantener referencia) y control de distancia (seguir al coche de delante sensando el radar). Se implementa con un PID con ganancias adaptativas o un controlador predictivo.
- Control lateral (dirección): Mantiene el coche dentro del carril, siguiendo la curvatura de la carretera. El controlador calcula el ángulo de dirección necesario a partir del error lateral y de orientación. Se usa un PID o un controlador de modelo de bicicleta (cinemático o dinámico).
Los coches autónomos comerciales utilizan sistemas by-wire (x-by-wire): no hay conexión mecánica directa entre el volante y las ruedas; todo es electrónico (servomotores), lo que permite que la computadora controle directamente los ángulos. Los sistemas de seguridad deben ser redundantes (dos canales independientes, comunicación fail-operational).
Redes neuronales profundas: YOLO, transformadores y aprendizaje por refuerzo
Donde realmente la IA brilla es en la percepción y la toma de decisiones complejas. Las arquitecturas actuales incluyen:
- Detección de objetos (CNN): Redes como YOLOv8/YOLOv9, EfficientDet, CenterNet detectan vehículos, peatones, ciclistas y señales en tiempo real (30-60 fps). Se entrenan con millones de imágenes anotadas (datasets como Waymo Open Dataset, nuScenes, BDD100K).
- Segmentación semántica (U-Net, DeepLab): Clasifica cada píxel de la imagen en categorías (carretera, acera, edificio, vegetación) para entender el espacio transitable.
- Transformadores para fusión (BEVFormer, DETR3D): Proyectan características de múltiples cámaras a una vista de pájaro (Bird-Eye-View, BEV) de manera end-to-end, superando a los métodos clásicos de fusión.
- Aprendizaje por refuerzo profundo (Deep RL): Se usa en planificación de comportamiento para aprender políticas óptimas mediante simulación (CARLA, AirSim, Waymo Sim). La función de recompensa penaliza colisiones y maniobras bruscas, premia el progreso hacia el destino. Luego se transfiere al mundo real (sim2real).
- Modelos de lenguaje para interpretación de escenas (LLMs aplicados): Se están explorando modelos que entienden el contexto semántico (“un autobús escolar detenido con luces intermitentes requiere que te detengas”), pero aún no son fiables para producción.
El hardware de cómputo es crítico: unidades de procesamiento de IA (NPU) o GPU (NVIDIA Drive Orin, Tesla Dojo/FSD Chip, Qualcomm Snapdragon Ride, Mobileye EyeQ6) con una capacidad de 200-1000 TOPS (teraoperaciones por segundo). Consumen entre 50 y 800 W, y deben estar refrigerados (agua o aire).
El problema de los casos extremos (long tail)
Un coche autónomo puede conducir perfectamente el 99,999% del tiempo, pero el 0,001% restante incluye situaciones impredecibles: un niño corriendo tras una pelota, un cartel de desvío temporal, una grúa mal estacionada atravesada, niebla densa que ciega todos los sensores, hielo negro que reduce el agarre. Estos casos extremos (edge cases) son el principal obstáculo para el nivel 5. Se recopilan millones de kilómetros reales y simulaciones para entrenar y validar estos casos, pero aún no hay solución completa.