On Neural Representations for Point Cloud-based 3D Shape and Motion Modeling
Übersicht
Dies ist die Doktorarbeit, welche ich über das Thema neuronale Repräsentationen für punktwolken-basierte Anwendungen gemacht habe.
Zusammenfassung
3D-Repräsentationen für Szenen sind ein bedeutender Aspekt für viele Anwendungen im Bereich der Computer Vision und Computergrafik. Während traditionelle Repräsentationen wie Punktwolken, Dreiecksnetze und Voxelraster seit Jahrzehnten erforscht und verwendet werden, hat die Entwicklung von neuronalen Netzwerken und Deep Learning zu kontinuierlicher Entwicklung neuer Repräsentationen geführt. Jede dieser Repräsentation bringt ihre eigenen Vor- und Nachteile mit sich, und die Wahl hängt oft von der konkreten Aufgabe ab. Punktwolken sind oft leicht verfügbar (z. Bsp. aus Tiefenkameras) und bilden die Grundlage vieler Computer-Vision-basierter Aufgaben. Neuronale Repräsentationen bieten hingegen neue Vorteile, beispielsweise weniger Speicher-Allokation und natürlichere, datenbasierte Interpolation von Szenen-bezogenen Eigenschaften. Die Nutzung von neuronalen Repräsentationen im Kontext von Punktwolken-basierten Anwendungen führt zu neuen Herausforderungen, beispielsweise die effiziente Extraktion von detaillierter Geometrieinformation aus großen Punktwolken, die Berechnung von Szeneflüssen zwischen zwei Punktmengen oder das Tracking von menschlichen Posen basierend auf Punktwolken. Mit dieser Arbeit sollen einige dieser Herausforderungen angegangen werden, wobei der Schwerpunkt auf vier Hauptaufgaben liegt: Rekonstruktion großer Punktwolken, Berechnung von Dreiecksnetzen aus neuronalen impliziten Repräsentationen, Modellierung des menschlichen Körpers und die Berechnung von Szeneflüssen. Zunächst untersuchen wir neuronale implizite Funktionen als Szenerepräsentation für das Problem der statischen Rekonstruktion aus Punktwolken, wobei ein besonderer Fokus auf größeren Szenen liegt. Als Nächstes stellen wir fest, dass diese Art von Repräsentationen einen zusätzlichen Nachbearbeitungsschritt benötigen, um ein Dreiecksnetz zu extrahieren. Aus diesem Grund schlagen wir eine neuartige Methode zur Extraktion solcher Dreiecksnetze vor. Anschließend wechseln wir von allgemeinen Szenen zur Modellierung des menschlichen Körpers und schlagen eine Repräsentation vor, welche die Pose von der Form trennt und es gleichzeitig ermöglicht, die Pose zu steuern. Schließlich richten wir unser Augenmerk erneut auf 3D-Repräsentationen in Bezug auf Bewegungsmodellierung, insbesondere auf die Berechnung von Szeneflüssen, und schlagen eine Methode vor, welche die Kamerabewegung von nicht-rigiden Szeneflüssen trennt.