Multi-Modal Hand Gesture Recognition using Machine Learning
Autor*in
Erscheinungsdatum
2025-04-15
Datum der Freigabe
2025-05-13
Export Metadaten
Dissertation oder Habilitation

Zusammenfassung
Mit der steigenden Relevanz von Mensch-Maschinen-Interaktion rückt die Handgestenerkennung immer mehr in das Zentrum der Aufmerksamkeit. Handgesten besitzen ein breites Anwendungsfeld, wie zum Beispiel in der Robotersteuerung oder in Anwendungen der virtuellen Realität. Durch die größere Verfügbarkeit kleiner und günstiger Sensoren, sowie immer größer werdender Rechenleistung spielt auch Multi-Modalität eine immer größere Rolle. Handgesten können damit nicht nur von einem einzigen Sensor, sondern von mehreren unterschiedlichen Sensoren gleichzeitig erfasst werden. Dies ermöglicht die Kombination verschiedener Sichtweisen auf eine Geste, um damit die Erkennung robuster und zuverlässiger zu machen. Das Ziel dieser Dissertation ist die Untersuchung der Robustheit heutiger, weit verbreiteter Methoden der Handgestenerkennung. Ein wichtiges Augenmerk wird dabei auf die Möglichkeit der Verbesserung durch die Kombination verschiedener Sensor-Modalitäten, wie z.B. Tiefendaten, Audio, und Beschleunigungsdaten, gelegt. Außerdem wird im Rahmen dieser Dissertation der umfangreiche Multi-Modale Handgesten-Datensatz (MMHGD) vorgestellt, sowie der davon abgeleitete GestureMNIST-Datensatz. Dieser Datensatz ist öffentlich zugänglich und kann somit auch von anderen Forschern für Experimente im Bereich der Sequenzerkennung und der Multi-Modalen Fusion verwendet werden. Die darin vorhandenen Gestenklassen sind so gestaltet, dass eine Kombination verschiedener Sensor-Modalitäten notwendig ist, um eine zuverlässige Gestenerkennung zu erreichen. Umfangreiche Experimente zeigen die Eignung dieses Datensatzes für die Verwendung in diesen Bereichen. Benchmark-Experimente wurden hierfür mit gängigen Sequenzerkennungs-Verfahren durchgeführt, beispielsweise mit Long Short-Term Memory (LSTM) Netzwerken, Convolutional Neural Networks (CNNs) oder Gaussian Mixture Models (GMMs). Dabei wurden vor allem die Genauigkeit der Gestenerkennung und eine frühzeitige Erkennung der Gesten betrachtet. Ein zweiter Aspekt ist die Robustheit der Gestenerkennung. Im Rahmen dieser Dissertation wird gezeigt, dass die weit verbreiteten LSTM Netzwerke anfällig sind für den Effekt des katastrophalen Vergessens. Gleichzeitig sind sie anfällig für eine Variabilität des Anfangs- und Endzeitpunktes der Gesten. Letzteres kann umgangen werden, wenn die Trainingsdaten bereits mit variablen Start- und Endzeitpunkten erweitert werden. Es konnte gezeigt werden, dass hierfür Augmentationsstrategien verwendet werden können, die sich schon bei der Objekterkennung bewährt haben. Außerdem wird der sogenannte Shifted Recognizer-Ansatz vorgestellt, der verwendet werden kann, um eine zuverlässige Sequenzerkennung zu erreichen, auch wenn der Start- und Endzeitpunkt von Sequenzen nicht bekannt ist. Der dritte Aspekt ist die Fusion mehrerer Sensor-Modalitäten. Hier konnte im Rahmen dieser Dissertation in mehreren Beispielen der frühen und intermediären Fusion gezeigt werden, dass dadurch die Leistung von Sequenzerkennungsverfahren verbessert werden kann, vor allem im Rahmen der frühzeitigen Erkennung.
With the increasing relevance of human-machine interaction, hand-gesture recognition also receives more and more attention. Hand gestures have many applications, such as human-robot control or virtual reality applications. Due to the greater availability of small and cheap sensors, as well as ever-increasing computing power, multi-modality is also playing an increasingly important role in today's research. Hand gestures can thus be detected not only by a single sensor but by several different sensors simultaneously. This allows the combination of different perspectives on a gesture to make the detection more robust and reliable. This dissertation aims to investigate the robustness of state-of-the-art methods of hand gesture recognition. A primary focus is placed on the possibility of improvement by combining different sensory modalities, such as depth data, audio, and acceleration data. In addition, an extensive dataset is presented as part of this dissertation: Multi-Modal Hand Gesture Dataset (MMHGD) as well as the GestureMNIST dataset derived from it. This dataset is publicly available and, therefore, can be used by the research community for experiments in the field of sequence recognition and multi-modal fusion. The gesture classes are designed so that a combination of different sensor modalities is necessary to achieve reliable gesture recognition. Extensive experiments show the suitability of this dataset for use in the areas mentioned above. Benchmark experiments were conducted with state-of-the-art sequence classification methods, such as Long Short-Term Memory (LSTM) networks, Convolutional Neural Networks (CNNs), and Gaussian Mixture Models (GMMs). Above all, the accuracy of gesture recognition and ahead-of-time classification was evaluated. A second aspect is the robustness of gesture recognition. This dissertation shows that the commonly used LSTM network is prone to the catastrophic forgetting effect. At the same time, it is vulnerable to the variability of gesture onset and offset. The latter can be improved if gesture onset variability is already available during the training process. It could also be shown that augmentation strategies, commonly used in object detection, can be used for this. In addition, the so-called Shifted Recognizer Approach is presented, which can be used to achieve reliable sequence detection, even if the start and end times of sequences are not known. The third aspect is the fusion of multiple sensory modalities. Here, experiments with several early and intermediate fusion strategies show that multi-modal fusion improves the performance of sequence recognition methods, especially in the context of ahead-of-time classification.
Fachgebiete (DDC)
000 Informatik, Informationswissenschaft, allgemeine Werke
Identifikator
Einrichtung
Promotionszentrum Angewandte Informatik (PZAI)
Link zur Veröffentlichung
Sammlungen
