Apprentissage Interactif en Robotique Autonome : vers de nouveaux types d'IHM

Un robot autonome collaborant avec des humains doit être capable d'apprendre à se déplacer et à manipuler des objets dans la même tâche. Dans une approche classique, on considère des modules fonctionnels indépendants gérant les différents aspects de la tâche (navigation, contrôle du bras...). A...

Full description

Bibliographic Details
Main Author: Rolland de Rengerve, Antoine
Other Authors: Cergy-Pontoise
Language:fr
Published: 2013
Subjects:
Online Access:http://www.theses.fr/2013CERG0664/document
Description
Summary:Un robot autonome collaborant avec des humains doit être capable d'apprendre à se déplacer et à manipuler des objets dans la même tâche. Dans une approche classique, on considère des modules fonctionnels indépendants gérant les différents aspects de la tâche (navigation, contrôle du bras...). A l'opposé, l'objectif de cette thèse est de montrer que l'apprentissage de tâches de natures différentes peut être abordé comme un problème d'apprentissage d'attracteurs sensorimoteurs à partir d'un petit nombre de structures non spécifiques à une tâche donnée. Nous avons donc proposé une architecture qui permet l'apprentissage et l'encodage d'attracteurs pour réaliser aussi bien des tâches de navigation que de contrôle d'un bras.Comme point de départ, nous nous sommes appuyés sur un modèle inspiré des cellules de lieu pour la navigation d'un robot autonome. Des apprentissages en ligne et interactifs de couples lieu/action sont suffisants pour faire émerger des bassins d'attraction permettant à un robot autonome de suivre une trajectoire. En interagissant avec le robot, on peut corriger ou orienter son comportement. Les corrections successives et leur encodage sensorimoteur permettent de définir le bassin d'attraction de la trajectoire. Ma première contribution a été d'étendre ce principe de construction d'attracteurs sensorimoteurs à un contrôle en impédance pour un bras robotique. Lors du maintien d'une posture proprioceptive, les mouvements du bras peuvent être corrigés par une modification en-ligne des commandes motrices exprimées sous la forme d'activations musculaires. Les attracteurs moteurs résultent alors des associations simples entre l'information proprioceptive du bras et ces commandes motrices. Dans un second temps, j'ai montré que le robot pouvait apprendre des attracteursvisuo-moteurs en combinant les informations proprioceptives et visuelles. Le contrôle visuo-moteur correspond à un homéostat qui essaie de maintenir un équilibre entre ces deux informations. Dans le cas d'une information visuelle ambiguë, le robot peut percevoir un stimulus externe (e.g. la main d'un humain) comme étant sa propre pince. Suivant le principe d'homéostasie, le robot agira pour réduire l'incohérence entre cette information externe et son information proprioceptive. Il exhibera alors un comportement d'imitation immédiate des gestes observés. Ce mécanisme d'homéostasie, complété par une mémoire des séquences observées et l'inhibition des actions durant l'observation, permet au robot de réaliser des imitations différées et d'apprendre par observation. Pour des tâches plus complexes, nous avons aussi montré que l'apprentissage de transitions peut servir de support pour l'apprentissage de séquences de gestes, comme c'était le cas pour l'apprentissage de cartes cognitives en navigation. L'utilisation de contextes motivationnels permet alors le choix entre les différentes séquences apprises.Nous avons ensuite abordé le problème de l'intégration dans une même architecture de comportements impliquant une navigation visuomotrice et le contrôle d'un bras robotique pour la préhension d'objets. La difficulté est de pouvoir synchroniser les différentes actions afin que le robot agisse de manière cohérente. Les comportements erronés du robot sont détectés grâce à l'évaluation des actions proposées par le modèle vis à vis des corrections imposées par le professeur humain. Un apprentissage de ces situations sous la forme de contextes multimodaux modulant la sélection d'action permet alors d'adapter le comportement afin que le robot reproduise la tâche désirée.Pour finir, nous présentons les perspectives de ce travail en terme de contrôle sensorimoteur, pour la navigation comme pour le contrôle d'un bras robotique, et son extension aux questions d'interface homme/robot. Nous insistons sur le fait que différents types d'imitation peuvent être le fruit des propriétés émergentes d'une architecture de contrôle sensorimotrice. === An autonomous robot collaborating with humans should be able to learn how to navigate and manipulate objects in the same task. In a classical approach, independent functional modules are considered to manage the different aspects of the task (navigation, arm control,...) . To the contrary, the goal of this thesis is to show that learning tasks of different kinds can be tackled by learning sensorimotor attractors from a few task nonspecific structures. We thus proposed an architecture which can learn and encode attractors to perform navigation tasks as well as arm control.We started by considering a model inspired from place-cells for navigation of autonomous robots. On-line and interactive learning of place-action couples can let attraction basins emerge, allowing an autonomous robot to follow a trajectory. The robot behavior can be corrected and guided by interacting with it. The successive corrections and their sensorimotor coding enables to define the attraction basin of the trajectory. My first contribution was to adapt this principle of sensorimotor attractor building for the impedance control of a robot arm. While a proprioceptive posture is maintained, the arm movements can be corrected by modifying on-line the motor command expressed as muscular activations. The resulting motor attractors are simple associations between the proprioceptive information of the arm and these motor commands. I then showed that the robot could learn visuomotor attractors by combining the proprioceptive and visual information with the motor attractors. The visuomotor control corresponds to a homeostatic system trying to maintain an equilibrium between the two kinds of information. In the case of ambiguous visual information, the robot may perceive an external stimulus (e.g. a human hand) as its own hand. According to the principle of homeostasis, the robot will act to reduce the incoherence between this external information and its proprioceptive information. It then displays a behavior of immediately observed gestures imitation. This mechanism of homeostasis, completed by a memory of the observed sequences and action inhibition capability during the observation phase, enables a robot to perform deferred imitation and learn by observation. In the case of more complex tasks, we also showed that learning transitions can be the basis for learning sequences of gestures, like in the case of cognitive map learning in navigation. The use of motivational contexts then enables to choose between different learned sequences.We then addressed the issue of integrating in the same architecture behaviors involving visuomotor navigation and robotic arm control to grab objects. The difficulty is to be able to synchronize the different actions so the robot act coherently. Erroneous behaviors of the robot are detected by evaluating the actions predicted by the model with respect to corrections forced by the human teacher. These situations can be learned as multimodal contexts modulating the action selection process in order to adapt the behavior so the robot reproduces the desired task.Finally, we will present the perspectives of this work in terms of sensorimotor control, for both navigation and robotic arm control, and its link to human robot interface issues. We will also insist on the fact that different kinds of imitation behavior can result from the emergent properties of a sensorimotor control architecture.