Cómo funciona la inteligencia artificial en coches autónomos (percepción, planificación y control)

Inteligencia artificial · Robótica · Actualizado 2025 · Lectura: ~15 min

Un coche autónomo no es un vehículo con un “piloto automático” como el de los aviones. Es un robot sobre ruedas que percibe el entorno con sensores, procesa toda esa información en tiempo real, decide qué hacer y mueve los mandos (volante, acelerador, freno) sin intervención humana. La inteligencia artificial no es solo una red neuronal: es un sistema complejo de percepción (detección de objetos), planificación de rutas y control de actuadores, todo funcionando en milisegundos con redundancia y seguridad crítica. Te explico los niveles de automatización, los tres grandes subsistemas de IA, los sensores clave (cámaras, radar, LiDAR) y por qué todavía no tenemos coches totalmente autónomos en cualquier calle.

01 / Niveles SAE

Niveles de automatización SAE (del 0 al 5): de la conducción asistida a la total

La Sociedad de Ingenieros de Automoción (SAE) definió 6 niveles que se han convertido en el estándar mundial. Es importante entenderlos porque la mayoría de los “coches autónomos” que ves hoy son en realidad nivel 2 o nivel 3 condicional:

Nivel 0 (sin automatización): El conductor humano hace todo (acelerar, frenar, girar, vigilar). Sólo hay alertas (avisador de cambio de carril, advertencia de colisión).
Nivel 1 (asistencia específica): El coche puede controlar o el acelerador/freno (control de crucero adaptativo ACC) o la dirección (asistente de mantenimiento de carril LKA), pero no ambos simultáneamente. El conductor supervisa siempre.
Nivel 2 (automatización parcial combinada): El coche controla al mismo tiempo acelerador, freno y dirección en ciertas condiciones (autopista con carriles bien marcados). El conductor debe mantener las manos en el volante (o al menos la atención). Ejemplos: Tesla Autopilot (antiguo), Super Cruise (GM), ProPilot Assist (Nissan).
Nivel 3 (automatización condicional): El coche se hace cargo de la conducción completa en un dominio operativo definido (por ejemplo, autopista en buen clima) y puede requerir que el conductor tome el control con aviso (de 5-10 segundos). El conductor puede mirar el móvil o leer. Mercedes-Benz Drive Pilot es el primer sistema nivel 3 certificado (Alemania, 2023).
Nivel 4 (alta automatización): El coche conduce sin intervención dentro de un área geofenced (delimitada, una ciudad o distrito). No requiere atención humana. Si sale del área, pide al conductor que tome el control o se detiene de forma segura. Ejemplo: Waymo en Phoenix y San Francisco, robotaxi de Cruise.
Nivel 5 (automatización total): El coche conduce en cualquier carretera, cualquier condición climática, sin volante ni pedales. No existe comercialmente hoy, y probablemente faltan décadas (o quizá nunca se alcance en todas las condiciones, como nieve intensa sin marcas).

La mayoría de los coches con “autopilot” son nivel 2. Un nivel 3 o 4 requiere sensores redundantes y una potencia de cálculo considerable (varios chips de alta gama NVIDIA Orin, Qualcomm Snapdragon Ride, Intel Mobileye EyeQ).

El dilema del nivel 3: la transferencia de control

El mayor problema de ingeniería de los sistemas nivel 3 es la “transferencia de control” (handover). Si el coche encuentra una situación que no puede manejar (ej. obras sin señalizar), avisa al conductor para que retome el volante. El conductor puede estar distraído (leyendo, durmiéndose) y no reaccionar a tiempo. En nivel 4, el coche está diseñado para no necesitar intervención humana nunca dentro de su ODD, resolviendo por sí mismo o deteniéndose de forma segura.

02 / Sensores

Sensores y percepción: cómo el coche “ve” el mundo (cámaras, radar, LiDAR, ultrasonidos)

Un coche autónomo de nivel 4 integra múltiples sensores con diferentes principios físicos, para que sus puntos débiles se compensen entre sí. Los principales:

01 Cámaras (ópticas, color) Proporcionan textura, color, lectura de señales de tráfico y semáforos. Vulnerables a la luz directa, noche, niebla. Usan redes neuronales convolucionales (CNN) para detectar objetos. Resolución típica: 1-8 MP, 30-60 fps. Tesla usa 8 cámaras (360°).

02 Radar (onda milimétrica) Mide distancia y velocidad radial (efecto Doppler) muy bien. No le afecta la lluvia, niebla o polvo, pero tiene baja resolución angular (no distingue bien objetos estáticos como un coche parado). Frecuencias 76-81 GHz. Rango 200-300 m.

03 LiDAR (Light Detection and Ranging) Emite pulsos láser (905 nm o 1550 nm) y mide el tiempo de vuelo para generar una nube de puntos 3D de alta resolución (300-1500 puntos por grado). Excelente para detectar geometría y objetos estáticos, pero caro, sensible a la lluvia y nieve. Waymo y Cruise usan LiDAR de Velodyne, Luminar, Innoviz.

04 Ultrasonidos (parachoques) Rango corto (<5 m) para aparcamiento, detección de peatones a muy corta distancia y evitar atropellos al arrancar.

Tesla ha apostado por una estrategia sin LiDAR (solo cámaras + radar + ultrasonidos) argumentando que si los humanos conducimos con dos ojos, la IA debe poder hacerlo igual. La mayoría de los expertos creen que el LiDAR aporta una redundancia crítica en condiciones adversas. Waymo, Cruise, Baidu y otras empresas de robotaxi usan LiDAR + radar + cámaras. El debate sigue abierto.

03 / Fusión de datos

Fusión de datos: combinando sensores para obtener una imagen robusta

Cada sensor tiene sus fortalezas y debilidades. La fusión de sensores combina las mediciones en una representación común (por ejemplo, objetos en un sistema de coordenadas global). Hay dos enfoques principales:

Fusión temprana (early fusion): Se combinan las señales en bruto (píxeles + nube de puntos) antes de la detección. Computacionalmente exigente.
Fusión tardía (late fusion): Cada sensor detecta objetos por separado y luego se asocian y fusionan las listas de objetos (kalman filtering). Más robusta y fácil de implementar. Se usa un filtro de Kalman extendido o un algoritmo de asignación de hipótesis (SORT, DeepSORT) para seguir los objetos a lo largo del tiempo (tracking).

El resultado de la fusión es un modelo de entorno (world model): una lista de objetos con su posición (3D), velocidad, aceleración, clase (coche, peatón, ciclista, vehículo de emergencia), y una estimación de incertidumbre (covarianza). Además, se construye un mapa de ocupación en 2D/3D que identifica el espacio libre y los obstáculos estáticos (bordillos, barreras, vegetación). Esta representación se actualiza cada 50-100 ms.

04 / Localización

Localización y SLAM: saber dónde estás sin GPS preciso

El GPS convencional tiene una precisión de 3-5 metros, insuficiente para circular por un carril (necesitas 10-30 cm). Los coches autónomos usan técnicas de localización relativa combinando:

GPS de alta precisión (RTK-GPS o PPP): Con correcciones por satélite o red de estaciones base, se alcanzan 2-5 cm de precisión. Necesita cobertura de red móvil o satélites específicos (GNSS).
IMU (Unidad de medición inercial): giroscopios y acelerómetros que miden movimientos en 6 grados de libertad. Integrando la aceleración dos veces se obtiene la posición, pero la deriva aumenta con el tiempo.
Odometría visual (VO): Comparando fotogramas consecutivos de las cámaras se calcula el desplazamiento (flujo óptico, features de ORB/SIFT, deep learning).
LiDAR odometría: Registro de nubes de puntos (ICP, NDT) para estimar el movimiento relativo entre scans.

El algoritmo central es el SLAM (Simultaneous Localization And Mapping), que construye un mapa del entorno mientras simultáneamente localiza el vehículo en ese mapa. En nivel 4, se suele tener un mapa HD (High-Definition) precargado con centímetros de precisión (carriles, bordillos, señales, estructura 3D de edificios). El coche se localiza en ese mapa mediante el registro de las observaciones LiDAR/cámara con el mapa (localización basada en mapa). Esto permite conocer la posición y orientación con error <5 cm incluso en túneles.

Mapas HD y actualización en la nube

Empresas como HERE, TomTom, Google (Waymo) y Mobileye generan mapas HD que contienen información semántica (posiciones de carriles, semáforos, límites de velocidad, pendientes). Estos mapas se actualizan desde la flota de vehículos comerciales mediante crowdsourcing: cuando un coche detecta un cambio (obras, nuevo carril), lo sube a la nube y después se redistribuye a la flota. Es un sistema de actualización continua.

05 / Planificación

Planificación de trayectorias: de la ruta global al movimiento local

Una vez que el coche sabe dónde está y qué objetos hay alrededor, debe decidir qué hacer. La planificación se organiza en tres niveles jerárquicos:

Planificación de ruta (global): Usando un mapa estándar (OpenStreetMap, TomTom), se calcula la ruta desde el origen hasta el destino. Se pueden considerar el tráfico (datos históricos o en tiempo real). Es la misma lógica que Google Maps, pero ejecutada a bordo.
Planificación de comportamiento (toma de decisiones, behavioral planner): Decide las acciones de alto nivel: a qué velocidad circular, cambiar de carril, ceder el paso, detenerse ante un semáforo en rojo, girar en una intersección. Utiliza máquinas de estados finitos (FSM), árboles de decisión o aprendizaje por refuerzo (deep RL). También se usan redes neuronales de comportamiento (imitation learning) entrenadas con datos de conducción humana.
Planificación de movimiento local (motion planner): Genera una trayectoria concreta (polinomio o spline) que sea suave, segura y dinámicamente factible (respetando límites de aceleración, frenado y ángulo de giro). Debe evitar colisiones con los objetos detectados. Algoritmos comunes: planificación basada en muestreo (RRT, PRM), control predictivo de modelo (MPC) u optimización de trayectorias (cálculo de variaciones). El planificador local publica puntos de paso cada 20-50 ms.

06 / Control

Sistemas de control: acelerador, freno y dirección por ordenador

El planificador produce una trayectoria deseada (posición, velocidad, aceleración, ángulo de volante). El controlador de bajo nivel (PID, MPC o control por retroalimentación de estado) envía señales a los actuadores del vehículo (acelerador, freno, dirección asistida eléctrica) para seguir esa trayectoria.

Control longitudinal: Controla la velocidad y la distancia con el coche precedente. Tiene dos modos: control de velocidad (mantener referencia) y control de distancia (seguir al coche de delante sensando el radar). Se implementa con un PID con ganancias adaptativas o un controlador predictivo.
Control lateral (dirección): Mantiene el coche dentro del carril, siguiendo la curvatura de la carretera. El controlador calcula el ángulo de dirección necesario a partir del error lateral y de orientación. Se usa un PID o un controlador de modelo de bicicleta (cinemático o dinámico).

Los coches autónomos comerciales utilizan sistemas by-wire (x-by-wire): no hay conexión mecánica directa entre el volante y las ruedas; todo es electrónico (servomotores), lo que permite que la computadora controle directamente los ángulos. Los sistemas de seguridad deben ser redundantes (dos canales independientes, comunicación fail-operational).

07 / Redes neuronales

Redes neuronales profundas: YOLO, transformadores y aprendizaje por refuerzo

Donde realmente la IA brilla es en la percepción y la toma de decisiones complejas. Las arquitecturas actuales incluyen:

Detección de objetos (CNN): Redes como YOLOv8/YOLOv9, EfficientDet, CenterNet detectan vehículos, peatones, ciclistas y señales en tiempo real (30-60 fps). Se entrenan con millones de imágenes anotadas (datasets como Waymo Open Dataset, nuScenes, BDD100K).
Segmentación semántica (U-Net, DeepLab): Clasifica cada píxel de la imagen en categorías (carretera, acera, edificio, vegetación) para entender el espacio transitable.
Transformadores para fusión (BEVFormer, DETR3D): Proyectan características de múltiples cámaras a una vista de pájaro (Bird-Eye-View, BEV) de manera end-to-end, superando a los métodos clásicos de fusión.
Aprendizaje por refuerzo profundo (Deep RL): Se usa en planificación de comportamiento para aprender políticas óptimas mediante simulación (CARLA, AirSim, Waymo Sim). La función de recompensa penaliza colisiones y maniobras bruscas, premia el progreso hacia el destino. Luego se transfiere al mundo real (sim2real).
Modelos de lenguaje para interpretación de escenas (LLMs aplicados): Se están explorando modelos que entienden el contexto semántico (“un autobús escolar detenido con luces intermitentes requiere que te detengas”), pero aún no son fiables para producción.

El hardware de cómputo es crítico: unidades de procesamiento de IA (NPU) o GPU (NVIDIA Drive Orin, Tesla Dojo/FSD Chip, Qualcomm Snapdragon Ride, Mobileye EyeQ6) con una capacidad de 200-1000 TOPS (teraoperaciones por segundo). Consumen entre 50 y 800 W, y deben estar refrigerados (agua o aire).

El problema de los casos extremos (long tail)

Un coche autónomo puede conducir perfectamente el 99,999% del tiempo, pero el 0,001% restante incluye situaciones impredecibles: un niño corriendo tras una pelota, un cartel de desvío temporal, una grúa mal estacionada atravesada, niebla densa que ciega todos los sensores, hielo negro que reduce el agarre. Estos casos extremos (edge cases) son el principal obstáculo para el nivel 5. Se recopilan millones de kilómetros reales y simulaciones para entrenar y validar estos casos, pero aún no hay solución completa.

08 / FAQ

Preguntas frecuentes sobre coches autónomos e IA

¿Los coches autónomos ya son legales en España?

No, todavía no hay una regulación que permita la circulación de vehículos de nivel 4 o 5 en vías públicas abiertas. La normativa actual (Convenio de Viena, directiva europea) permite la conducción automatizada hasta nivel 3 bajo condiciones estrictas y con la obligación de que el conductor pueda retomar el control. Varios países europeos (Alemania, Francia, Países Bajos) tienen leyes piloto. En España, se están realizando pruebas con autorización especial (proyecto SEPA, autobuses autónomos en Málaga, plataforma de pruebas CARTIF). No hay fecha segura para la comercialización de nivel 3/4 al público.

¿Es cierto que Tesla ya tiene conducción autónoma total (FSD)?

Tesla ofrece un paquete llamado “Full Self-Driving (FSD)” que es, en la práctica, un sistema de nivel 2 (conducción asistida avanzada) en Europa y nivel 2/3 en EEUU (beta). El coche puede cambiar de carril, tomar salidas automáticas, detenerse en semáforos y ceda el paso, pero el conductor debe mantener las manos en el volante y la atención. No es nivel 4. No se permite que los ocupantes duerman ni que vayan en el asiento trasero. La compañía sigue prometiendo el “verdadero FSD” desde 2016, y aún no lo ha logrado.

¿La IA de un coche autónomo puede ser hackeada?

Es un riesgo real. Los sensores pueden ser atacados (spoofing de GPS, inyección de objetos falsos en LiDAR, pegatinas adversariales en stop). Los sistemas de control se diseñan con ciberseguridad en profundidad: redes separadas, cifrado, autenticación de mensajes y actualizaciones OTA (sobre el aire). Las arquitecturas modernas incorporan un módulo de detección de anomalías que, al detectar una inconsistencia (por ejemplo, el GPS indica una posición muy distinta al LiDAR), puede entrar en un modo de “fallo seguro” (minimal risk condition) y detener el coche lateralmente.

¿Qué capacidad de cómputo tiene un coche autónomo?

Un coche de nivel 4 como Waymo o Cruise usa una o varias GPUs o chips dedicados que suman 200-1000 TOPS (teraoperaciones por segundo). Un Tesla Model 3 con hardware 3.0 tiene dos chips FSD con 72 TOPS c/u (144 en total). El nuevo hardware 4.0 (presente en Cybertruck) alcanza los 500-800 TOPS. En comparación, una GPU NVIDIA RTX 4090 de consumo tiene unos 80-100 TOPS en FP16. La potencia necesaria sigue creciendo a medida que se mejoran los modelos de IA y se aumenta la resolución de las cámaras (hasta 8 MP).

¿Qué empresa líder en coches autónomos ha recorrido más kilómetros reales?

Waymo (propiedad de Alphabet) acumula más de 20 millones de millas en vías públicas (datos 2024) y decenas de miles de millones en simulación. Cruise (GM) tenía varios millones antes de la suspensión de su flota en 2023 por un accidente grave. Tesla, aunque tiene el “modo sombra” activado en millones de coches, no ha revelado datos oficiales de millas sin intervención. En el ranking de kilómetros sin desconexión entre intervenciones (MPI), Waymo mejora constantemente (más de 30.000 millas por desconexión en 2024).

Sigue aprendiendo sobre tecnología

Fuentes y referencias técnicas

SAE International. (2021). J3016: Taxonomy and Definitions for Terms Related to Driving Automation Systems for On-Road Motor Vehicles.

Geiger, A., Lenz, P., & Urtasun, R. (2022). Autonomous Vehicle Technology: A Guide for Policymakers. RAND Corporation.

Waymo LLC. (2024). Waymo Safety Report and Technical Methodology.

Kendall, A., & Cipolla, R. (2019). Geometric Loss Functions for Camera-based 3D Object Detection. CVPR 2019.

División de Vehículos Autónomos del Ministerio de Transportes (España). (2024). Estrategia de Movilidad Segura y Conectada – Pruebas de conducción autónoma.