Autonomous Driving Concept

Científicos del MIT lanzan un simulador fotorrealista de código abierto para la conducción autónoma


VISTA 2.0 Open-Source Simulation Engine

VISTA 2.0 is an open-source simulation engine that can make realistic environments for training and testing self-driving cars. Credit: Image courtesy of MIT CSAIL

With this in mind, scientists from MIT’s Computer Science and Artificial Intelligence Laboratory (CSAIL) created “VISTA 2.0,” a data-driven simulation engine where vehicles can learn to drive in the real world and recover from near-crash scenarios. What’s more, all of the code is being released open-source to the public.

“Today, only companies have software like the type of simulation environments and capabilities of VISTA 2.0, and this software is proprietary. With this release, the research community will have access to a powerful new tool for accelerating the research and development of adaptive robust control for autonomous driving,” says the senior author of a paper about the research, MIT Professor and CSAIL Director Daniela Rus.

VISTA es un simulador fotorrealista basado en datos para la conducción autónoma. Puede simular no solo video en vivo, sino también datos LiDAR y cámaras de eventos, y también incorporar otros vehículos simulados para modelar situaciones de conducción complejas. VISTA es de código abierto y el código se puede encontrar a continuación.

VISTA 2.0, que se basa en el modelo anterior del equipo, VISTA, es fundamentalmente diferente de los simuladores AV existentes, ya que se basa en datos. Esto significa que fue construido y renderizado de forma fotorrealista a partir de datos del mundo real, lo que permite la transferencia directa a la realidad. Si bien la iteración inicial solo admitía el seguimiento de carril de un solo automóvil con un sensor de cámara, lograr una simulación basada en datos de alta fidelidad requería repensar los fundamentos de cómo se pueden sintetizar diferentes sensores e interacciones de comportamiento.

Ingrese a VISTA 2.0: un sistema basado en datos que puede simular tipos de sensores complejos y escenarios e intersecciones masivamente interactivos a escala. Usando muchos menos datos que los modelos anteriores, el equipo pudo entrenar vehículos autónomos que podrían ser sustancialmente más robustos que los entrenados con grandes cantidades de datos del mundo real.

“Este es un salto masivo en las capacidades de simulación basada en datos para vehículos autónomos, así como el aumento de la escala y la capacidad para manejar una mayor complejidad de conducción”, dice Alexander Amini, estudiante de doctorado de CSAIL y coautor principal de dos nuevos artículos, junto con su compañero estudiante de doctorado Tsun-Hsuan Wang. “VISTA 2.0 demuestra la capacidad de simular datos de sensores mucho más allá de las cámaras 2D RGB, pero también lidars 3D de dimensiones extremadamente altas con millones de puntos, cámaras basadas en eventos cronometrados irregularmente e incluso escenarios interactivos y dinámicos con otros vehículos también”.

El equipo de científicos pudo escalar la complejidad de las tareas de conducción interactiva para cosas como adelantar, seguir y negociar, incluidos escenarios de múltiples agentes en entornos altamente fotorrealistas.

Debido a que la mayoría de nuestros datos (afortunadamente) son solo la conducción del día a día, el entrenamiento de modelos de IA para vehículos autónomos implica forraje difícil de asegurar de diferentes variedades de casos extremos y escenarios extraños y peligrosos. Lógicamente, no podemos simplemente chocar contra otros autos solo para enseñarle a una red neuronal cómo no chocar contra otros autos.

Recientemente, ha habido un cambio desde los entornos de simulación más clásicos diseñados por humanos hacia aquellos creados a partir de datos del mundo real. Estos últimos tienen un fotorrealismo inmenso, pero los primeros pueden modelar fácilmente cámaras virtuales y lidars. Con este cambio de paradigma, ha surgido una pregunta clave: ¿Se puede sintetizar con precisión la riqueza y complejidad de todos los sensores que necesitan los vehículos autónomos, como lidar y cámaras basadas en eventos que son más escasas?

Los datos del sensor Lidar son mucho más difíciles de interpretar en un mundo basado en datos: está intentando generar nubes de puntos 3D completamente nuevas con millones de puntos, solo a partir de vistas dispersas del mundo. Para sintetizar nubes de puntos lidar 3D, los investigadores utilizaron los datos que recopiló el automóvil, los proyectaron en un espacio 3D proveniente de los datos lidar y luego dejaron que un nuevo vehículo virtual condujera localmente desde donde estaba el vehículo original. Finalmente, proyectaron toda esa información sensorial de vuelta al marco de visión de este nuevo vehículo virtual, con la ayuda de redes neuronales.

Junto con la simulación de cámaras basadas en eventos, que operan a velocidades superiores a miles de eventos por segundo, el simulador fue capaz no solo de simular esta información multimodal sino también de hacerlo todo en tiempo real. Esto hace posible entrenar redes neuronales fuera de línea, pero también realizar pruebas en línea en el automóvil en configuraciones de realidad aumentada para evaluaciones seguras. “La cuestión de si la simulación multisensor a esta escala de complejidad y fotorrealismo era posible en el ámbito de la simulación basada en datos era una pregunta abierta”, dice Amini.

Con eso, la autoescuela se convierte en una fiesta. En la simulación, puede moverse, tener diferentes tipos de controladores, simular diferentes tipos de eventos, crear escenarios interactivos y simplemente agregar vehículos nuevos que ni siquiera estaban en los datos originales. Probaron el seguimiento de carril, el cambio de carril, el seguimiento de automóviles y escenarios más arriesgados, como adelantamientos estáticos y dinámicos (ver obstáculos y moverse para no chocar). Con la multiagencia, tanto los agentes reales como los simulados interactúan, y se pueden colocar nuevos agentes en la escena y controlarlos de cualquier manera.

Al llevar su automóvil a gran escala a lo “salvaje”, también conocido como Devens, Massachusetts, el equipo vio la transferencia inmediata de resultados, tanto con fallas como con éxitos. También pudieron demostrar la palabra mágica y elegante de los modelos de automóviles autónomos: “robusto”. Demostraron que los AV, entrenados completamente en VISTA 2.0, eran tan robustos en el mundo real que podían manejar esa escurridiza cola de fallas desafiantes.

Ahora, una barandilla en la que confían los humanos que aún no se puede simular es la emoción humana. Es el gesto amistoso, el movimiento de cabeza o el interruptor intermitente de reconocimiento, que son el tipo de matices que el equipo quiere implementar en el trabajo futuro.

“El algoritmo central de esta investigación es cómo podemos tomar un conjunto de datos y construir un mundo completamente sintético para el aprendizaje y la autonomía”, dice Amini. “Es una plataforma que creo que algún día podría extenderse en muchos ejes diferentes a través de la robótica. No solo la conducción autónoma, sino muchas áreas que dependen de la visión y comportamientos complejos. Estamos emocionados de lanzar VISTA 2.0 para ayudar a la comunidad a recopilar sus propios conjuntos de datos y convertirlos en mundos virtuales donde pueden simular directamente sus propios vehículos autónomos virtuales, conducir por estos terrenos virtuales, entrenar vehículos autónomos en estos mundos y luego puede transferirlos directamente a autos autónomos reales de tamaño completo”.

Referencia: “VISTA 2.0: un simulador abierto basado en datos para detección multimodal y aprendizaje de políticas para vehículos autónomos” por Alexander Amini, Tsun-Hsuan Wang, Igor Gilitschenski, Wilko Schwarting, Zhijian Liu, Song Han, Sertac Karaman y Daniela Rus, 23 noviembre 2021, Informática > Robótica.
arXiv:2111.12083

Amini y Wang escribieron el artículo junto con Zhijian Liu, estudiante de doctorado de MIT CSAIL; Igor Gilitschenski, profesor asistente de informática en la Universidad de Toronto; Wilko Schwarting, científico investigador de IA y MIT CSAIL PhD ’20; Song Han, profesor asociado del Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT; Sertac Karaman, profesor asociado de aeronáutica y astronáutica en el MIT; y Daniela Rus, profesora del MIT y directora del CSAIL. Los investigadores presentaron el trabajo en la Conferencia Internacional IEEE sobre Robótica y Automatización (ICRA) en Filadelfia.

Este trabajo fue apoyado por la Fundación Nacional de Ciencias y el Instituto de Investigación de Toyota. El equipo agradece el apoyo de NVIDIA con la donación del Drive AGX Pegasus.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *