Analyse multimodale d'interaction humaine dans le cockpit d'un véhicule - IRIT - Université Toulouse III Paul Sabatier Accéder directement au contenu
Communication Dans Un Congrès Année : 2021

Analyse multimodale d'interaction humaine dans le cockpit d'un véhicule

Résumé

Nowadays, every car maker is thinking about the future of mobility. Electric vehicles, autonomous vehicles and sharing vehicles are the most promising opportunities. The lack of control authority in autonomous and sharing vehicles raises different issues like the passenger safety. To ensure it, new systems able to understand interactions and possible conflicts between passengers have to be designed. They should be able to predict and trigger with high accuracy, an alert to a remote controller before a critical situation happens in the cockpit. In order to better understand the features of these insecure situations, we recorded an audio-video dataset in real vehicle context. Twenty-two participants playing three different scenarios ("curious","argued refusal" and "not argued refusal") of interactionsbetween a driver and a passenger were recorded. We propose a deep learning approach which achieves a balanced accuracy of 81%. Practically, we highlight that combining multimodality, namely video, audio and text as well as temporality are the keys to perform such accurate predictions in scenario recognition.
Aujourd'hui, les constructeurs automobiles se concentrent sur l'avenir de la mobilité. Les véhicules électriques, les véhicules autonomes et les véhicules partagés sont les opportunités les plus prometteuses. Le manque d'autorité dans les véhicules partagés soulève différents problèmes comme la sécurité des passagers. Pour garantir cette dernière, il faut concevoir de nouveaux systèmes capables de comprendre les interactions et les conflits éventuels entre les passagers, avant qu'une situation critique ne se produise dans le cockpit. Afin de mieux comprendre les caractéristiques de ces situations d'insécurité, nous avons enregistré un corpus audio-vidéo dans un contexte de véhicule réel. Vingt-deux participants jouant trois différents scénarios (« curieux », « refus argumenté » et « refus non argumenté ») d'interactions entre un conducteur et un passager ont été enregistrés. Notre approche, basée sur de l'apprentissage profond, atteint une précision de 81%. Nous démontrons que la combinaison des modalités vidéo/audio/texte et la temporalité permettent d'améliorer les prédictions de reconnaissance de scénarios in situ.
Fichier principal
Vignette du fichier
ORASIS_2021_1_.pdf (2.6 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-03339623 , version 1 (09-09-2021)

Identifiants

  • HAL Id : hal-03339623 , version 1

Citer

Quentin Portes, Julien Pinquier, Frédéric Lerasle, Jose Mendes-Carlalho. Analyse multimodale d'interaction humaine dans le cockpit d'un véhicule. 18èmes journées francophones des jeunes chercheurs en vision par ordinateur (ORASIS 2021), Centre National de la Recherche Scientifique [CNRS]; Equipe REVA, IRIT : Institut de Recherche en Informatique de Toulouse, Sep 2021, Saint Ferréol, France. ⟨hal-03339623⟩
114 Consultations
71 Téléchargements

Partager

Gmail Facebook X LinkedIn More