Echtzeit-Rekonstruktion dynamischer Szenen basierend auf Voxel-Hashing
Überblick
Dies ist die Masterarbeit, die ich zum Thema Echtzeit-Rekonstruktion dynamischer Szenen durchgeführt habe.
Problemstellung
Die dynamische Rekonstruktion ist bekannterweise sehr herausfordernd, selbst noch heutzutage. Der Grund dafür ist, dass sich im Gegensatz zur statischen Rekonstruktion die Szene im Laufe der Zeit ändern kann, z.B. eine Person läuft vor der Kamera vorbei oder Kleidung bewegt sich im Wind. Dies führt zu Mehrdeutigkeiten im Rekonstruktionsprozess oder anders ausgedrückt: Es gibt zu viele unbekannte Variablen, wie z. Bsp die Position der Kamera, die Geometrie der Szene oder die Veränderung der Geometrie über die Zeit.
Trotz dieser Herausforderungen haben einige frühe Ansätze sich mit dieser Problematik auseinandergesetzt, wobei eine Arbeit besonders hervorsticht: DynamicFusion [1]. Ähnlich wie sein Vorgänger für statische Szenen, KinectFusion [2], ermöglichte dieser Ansatz die Echtzeit-Rekonstruktion dynamischer Szenen ohne die Verwendung von Annahmen an die Szene (z. Bsp dass eine Person modeliert wird).
Nichtsdestotrotz sind einige Probleme, die in KinectFusion vorhanden und gelöst wurden, auch in DynamicFusion vorhanden. Eines dieser Probleme ist die Verwendung eines festgelegten Rasters von Voxeln für die Rekonstruktion, welches die Größe und Auflösung beschränkt, mit der die Szene rekonstruiert werden kann. Dieses spezielle Problem wurde für Pipelines wie KinectFusion durch die Verwendung von Voxel-Hashing gelöst [3].
Ansatz
Im Rahmen dieses Projekts wurde das Problem des festgelegten Voxel-Rasters, das in DynamicFusion verwendet wird, durch die Verwendung von Voxel-Hashing angegangen und gelöst.
Aufgrund der Änderungen an der KinectFusion-Pipeline, die nötig waren, um dynamische Szenen zu rekonstruieren, ist die Integration von Voxel-Hashing alles andere als trivial. Aber genau dies machte den herausfordernden Aspekt dieses Projektes aus.
Das Ergebnis dieses Projekts war eine Neu-Implementierung von DynamicFusion basierend auf Voxel-Hashing.
Verwendete Technologien
Dieses Projekt wurde in C++ implementiert und basiert auf einem bestehenden Framework namens InfiniTAM [4]. Aufgrund des Echtzeit-Aspekts wurden mehrere Teile des Algorithmus zur Ausführung auf der GPU durch die Verwendung von CUDA implementiert.
Referenzen
- Newcombe, Richard A., Dieter Fox, and Steven M. Seitz. "Dynamicfusion: Reconstruction and tracking of non-rigid scenes in real-time." Proceedings of the IEEE conference on computer vision and pattern recognition. 2015.
- Izadi, Shahram, et al. "Kinectfusion: real-time dynamic 3d surface reconstruction and interaction." ACM SIGGRAPH 2011 Talks. 2011. 1-1.
- Nießner, Matthias, et al. "Real-time 3D reconstruction at scale using voxel hashing." ACM Transactions on Graphics (ToG) 32.6 (2013): 1-11.
- Kähler, Olaf, et al. "Very high frame rate volumetric integration of depth images on mobile devices." IEEE transactions on visualization and computer graphics 21.11 (2015): 1241-1250.