L’AI Research Team de Facebook vient de publier un papier intitulé “DensePose: Dense Human Pose Estimation In The Wild”. Il ne s’agit ni plus ni moins que d’un nouveau modèle de Deep Learning permettant d’estimer la pose 3D de multiples personnes dans une vidéo, et ce, à l’aide d’un simple GPU.
Le process passe par 3 étapes:
- La détection d’objet et la segmentation de l’objet: on utilise pour cela un réseau de neurones de type classificateur (le même type qu’on utilise pour labéliser des objets par exemple). La base de données (le dataset) utilisée est COCO (Common Objects in Context).
- La prédiction des coordonnées, en mappant chaque pixel d’un “ensemble détecté” sur un modèle de type mannequin 3D. Et cela, en utilisant un système de régression.
Plus précisément, le modèle utilisé est de type Mask-RCNN avec un Feature Pyramid Network (FPN), avec un ROI-Align pooling.
A ce sujet, je vous conseille les vidéo d’Ardian Umam sur le sujet qui sont vraiment bien documentées.
Au final, les résultat est bluffant. Voici la vidéo en entier du projet:
Le site officiel présentant le projet est le suivant: http://densepose.org/. Vous trouverez plus d’informations en lisant le papier publié par l’équipe.
j’ai contacté de mon coté Rıza Alp Güler pour le féliciter et pour qu’il m’accepte comme contact Facebook. Affaire à suivre…
Laisser un commentaire