La industria del coche autónomo lleva muchos años realizando importantes avances para poder ofrecer una tecnología que permita prescindir de la conducción humana haciéndola más segura y eficiente. En un momento, donde la tecnología está evolucionando a tal velocidad que plantea a los investigadores cada día nuevos retos.
Tradicionalmente, la conducción autónoma ha dependido de arquitecturas basadas en la percepción del entorno, planificación del movimiento, control y actuación. Sin embargo, con la aparición de los LLMs y, más concretamente, los Modelos Visión-Lenguaje (VLM) con enfoque multimodal, han emergido como una alternativa capaz de combinar la percepción visual y el procesamiento del lenguaje, lo que podría optimizar algunas de estas fases críticas.
Arquitectura tradicional de conducción autónoma
Tradicionalmente, los ingenieros e investigadores han establecido un enfoque de trabajo que les permitía tener el control sobre cada una de los aspectos de la conducción. Lo que se llama el pipeline completo. Estos se pueden resumir en:
- Percepción del entorno (Environment Perception and Mapping): Los sensores del vehículo, como cámaras, LIDAR y radares, recopilan datos visuales y de profundidad del entorno. De esto modo, los sistemas de percepción analizan estos datos para identificar objetos, peatones, señales de tráfico y obstáculos. Para ello, estos sistemas usan algoritmos de visión por computador, basados fundamentalmente en redes neuronales convolucionales (CNN).
- Planificación del movimiento (Motion Planning): Gracias al trabajo de percepción, se obtiene un mapeado preciso del entorno, así, el sistema planifica el movimiento del vehículo en base a su objetivo y las restricciones del entorno, considerando factores como la velocidad, la distancia a otros vehículos y la geometría de la carretera. En esta fase, intervienen algoritmos basados en gráficos y optimización matemática.
- Control y actuación (Controller and Actuation): Finalmente, los comandos generados en la fase de planificación del movimiento se traducen en acciones físicas sobre el vehículo: aceleración, frenado, dirección y otros controles que permiten que el vehículo se desplace de manera segura hacia su destino.
Este enfoque modular permite que cada fase se optimice de manera independiente, pero también introduce complejidades cuando se requiere una interacción fluida y rápida entre ellas. Por ejemplo, cualquier error en la percepción puede afectar negativamente a la planificación y, en última instancia, al control. Del mismo modo, el entrenamiento de cada algoritmo se realiza por separado sin poder optimizar en última instancia el objetivo general de la conducción: seguridad y eficiencia.
¿Cómo podrían mejorar los VLM estas etapas?
Un VLM capaz de combinar la percepción visual basada en imágenes de vídeo, las lecturas de los sensores LIDAR, el radar de largo alcance y, además texto (por ejemplo, instrucciones informativas de tráfico o señalización en la carretera) permite generar una comprensión multimodal del entorno. Esta tecnología permitiría crear este mundo virtual en el cual los vehículos autónomos podrían ser entrenados para tomar las mejores decisiones en milésimas de segundo.
Este enfoque end-to-end es mucho más potente desde el punto de vista de la fusión de información proveniente de todos los sensores del vehículo y propone un desarrollo basado en IA que eliminaría las barreras limitantes del aprendizaje supervisado por humanos.
En un mundo donde las máquinas por sí solas han superado en aprendizaje a los humanos, como nos mostró Deepmind con AlphaGO, parece este puede ser el enfoque definitivo.
¿Son los VLM más eficientes o añaden complejidad?
El uso de VLM en la conducción autónoma tiene el potencial de mejorar la comprensión del entorno y la toma de decisiones. Sin embargo, su integración en los sistemas actuales plantea tanto ventajas como inconvenientes.
Por un lado, puede mejorar considerablemente la eficiencia en la percepción y planificación. Es decir, la capacidad de un VLM para interpretar simultáneamente datos visuales y textuales podría reducir la necesidad de dependencias entre módulos independientes (percepción, planificación y control), creando un sistema más cohesivo. Al tener un modelo que procesa ambos tipos de datos a la vez, los vehículos podrían reaccionar de manera más precisa y contextualizada, especialmente en situaciones donde la combinación de imágenes y texto es crítica (por ejemplo, en intersecciones complejas o zonas de obras).
Por otro lado, la complejidad computacional y de entrenamiento se complica considerablemente, ya que los VLM requieren de grandes cantidades de datos para entrenarse y, más importante aún, mucha capacidad computacional para operar en tiempo real. Esto podría ser un desafío para la implementación en vehículos autónomos que necesitan procesar datos rápidamente y sin errores. Además, cualquier fallo en la interpretación tanto del lenguaje como de la imagen podría tener consecuencias graves en la toma de decisiones del vehículo. Del mismo modo, podemos esperar un incremente de riesgos de fallo en la dependencia multimodal, ya que, si bien los VLM pueden mejorar la interacción entre las etapas del proceso de conducción autónoma, también existe el riesgo de depender demasiado de un único modelo multimodal. Si el VLM falla en interpretar correctamente una señal visual o un texto, el impacto podría ser mayor que en los sistemas modulares tradicionales, donde los errores pueden ser corregidos en fases posteriores.
¿Qué papel juegan los VLMs en el futuro de la conducción autónoma?
Estamos seguros de que van a jugar un papel fundamental en el futuro inmediato, no obstante, no hay que olvidar los tres requisitos que mencionaba Raquel Urtasun, CEO de Waabi en el CES Las Vegas 2025, para que podamos ver soluciones desplegadas en situaciones reales.
- Deben ser muy eficientes para que puedan funcionar a bordo de cualquier vehículo, en cualquier circunstancia y con bajo consumo computacional.
- Deben ser capaces de generalizar y afrontar escenarios desconocidos.
- En todo caso, tienen que ser verificables y con capacidad de razonar en la toma de decisiones.