2010-06-18 5 views
11

Momentan habe ich Tiefenpunkte extrahiert, um ein 3D-Modell aus 2 Stereokameras zu konstruieren. Die Methoden, die ich verwendet habe, sind openCV graphCut Methode und eine Software von http://sourceforge.net/projects/reconststereo/. Die erzeugten 3D-Modelle sind jedoch nicht sehr genau, was mich zur Frage bringt: 1) Was ist das Problem mit der pixelbasierten Methode? 2) Sollte ich meine pixelbasierte Methode auf Feature-basierte oder Objekterkennung-basierte Methode ändern? Gibt es eine beste Methode? 3) Gibt es andere Möglichkeiten, diese Rekonstruktion durchzuführen?Wie baue ich ein 3D-Modell eines Raumes aus 2 Stereokameras? Was ist der entscheidende Faktor für eine genaue Konstruktion?

Darüber hinaus kommt die extrahierte Tiefe nur aus 2 Bildern. Was passiert, wenn ich die Kamera um 360 Grad drehe, um ein Video zu erhalten? Ich freue mich auf Vorschläge, wie Sie diese Tiefeninformationen kombinieren können.

Vielen Dank :)

+0

Allgemeine Informationen zum Erstellen von 3D-Bildern und Videos aus Filmmaterial von 2 Kameras finden Sie hier: http://forum.videohelp.com/threads/321678-Output-to-a-3D-TV-via-dual- Kopf-DVI-Hardware-vorhanden-Laptop-scrn? s = 60b9858d8ecfd11a989b30ecd9fccbca & p = 1993356 & viewfull = 1 # post1993356 – therobyouknow

+0

:) Ich dachte, 3D-Modelle in den Computer zu bekommen – yasumi

Antwort

0

Was passiert, wenn ich die Kamera 360 Grad am Drehen Sie ein Video zu erhalten?

Ich denke, du meintest 180 Grad. Wenn Sie beide Kameras (d. H. Das Stereo-Rig) um 180 Grad drehen, dann ist es in Ordnung.

Aber wenn beide Kameras 180 Grad zueinander stehen, und da es keine Überlappung gibt, gibt es nichts, was Sie tun können.

 V 
    [.] 

    [.] 
    ^ 

Auch für Deine Frage zu pixelbasierte vs. merkmalsbasierte vs. Objekterkennung basierenden --- was Ihr Endziel ist?

+0

Ich denke, er meint "was wäre, wenn ich die Kameras drehen und mehrere nehmen würde Bilder aus verschiedenen Winkeln der gleichen Szene " – Niki

+0

Das wäre das erste Szenario, das in Ordnung ist. – Jacob

+0

:) yup, mehrere Bilder. Mein Hauptziel ist es, ein 3D-Modell ohne menschliche Hilfe zu erhalten. z.B. Der Computer wird schlau genug sein, um zu erkennen, dass es ein Tisch ist und seine Tiefe wahrnimmt. Es ist mehr wie die Umgebung und nicht nur auf ein Objekt. – yasumi

0

Gibt es eine beste Methode?

Die beste Methode ist, das Modell selbst zu machen. Benötigt einige Wochen Training mit blender. Mit mehreren hochauflösenden Kameras können Sie schnell ein recht gutes Ergebnis erzielen. Sie werden einen besseren Job machen als ein Computer.

Gibt es andere Möglichkeiten, eine solche Rekonstruktion durchzuführen?

Laserscannen. Google für "hausgemachte Laser-Scanner" oder "hausgemachte 3D-Scanner". Mehrere Leute versuchten, solche Systeme mit unterschiedlichem Erfolg zu entwickeln. Sie benötigen einen Linienlaser (kann einen vom Laserpointer machen). Aber auf diese Weise erhalten Sie keine Farbinformationen - nur Erleichterung.

Was passiert, wenn ich die Kamera um 360 Grad drehe, um ein Video zu erhalten?

Sie können keine Tiefeninformationen von nur einer Kamera erhalten, selbst wenn Sie sie drehen. Sie benötigen 2 oder mehr überlappende Aufnahmen von verschiedenen Punkten. Oder Sie könnten versuchen, einen Gegenstand auf den Plattenspieler zu stellen (obwohl Sie einen Raum schaffen, ist das nicht möglich).

+0

:) hmm ... aber warum kann ich nicht Tiefe von einer Kamera bekommen, da die Bilder einander überlappen – yasumi

+0

@yasumi: Weil sie alle von einem einzigen Punkt genommen werden. Um die Entfernung zum Objekt zu ermitteln, benötigen Sie mindestens zwei Bezugspunkte. Dies ist Geometrie - um Seiten des Dreiecks (Entfernung zum Objekt) zu finden, müssen Sie mindestens die Länge einer Seite (Abstand zwischen zwei Kameras) und zwei Winkel (Winkel zwischen der Sichtlinie der Kamera und der Linie zum Objekt für jede Kamera) kennen) – SigTerm

+0

tatsächlich ist es möglich, Szene Rekonstruktion von einer beweglichen Kamera, Google Monokulare Rekonstruktion/Slam (es gibt ein Papier auf CVPR 2010 von Newcombe & Davison) zu bekommen. es ist jedoch aktuelles Forschungsthema und noch nicht praktikabel. Benutze Laserscanner :) – Cfr

1

Es gibt Projekt für das in Source: 3D Reconstruction

+0

:) Ich benutzte das, aber bei näherer Betrachtung gab es Spikes, die aufgrund von Geräuschen aus den Bildern kamen ... also auf der Suche nach einem besseren Weg, damit umzugehen – yasumi

+0

Das ist ziemlich üblich, wenn Erstellen von 3D-Bildern aus 2D-Bildern. Ich denke, Sie schieben die Grenzen dessen, was derzeit getan werden kann. – Harriv

+0

Ich denke derzeit, vielleicht ist es auf die Oberfläche ohne Struktur zu konzentrieren. – yasumi

5

Das Hauptproblem, das die Genauigkeit von Stereo-Rekonstruktion definiert ist Disparitätsschätzung. Dieser Bereich wurde ausführlich untersucht, aber die neuesten Ergebnisse werden auf der folgenden Seite gesammelt: http://vision.middlebury.edu/stereo/eval/ Ich empfehle Ihnen, eine der besten Methoden zu wählen. Wahrscheinlich müssen Sie es selbst implementieren (Verweise auf die Papiere finden Sie am Ende der Seite) oder versuchen, eine Implementierung auf den Homepages der Autoren zu finden. Siehe auch http://vision.middlebury.edu/MRF/code/.

Sie sollten auch versuchen, den Grund der geringen Genauigkeit herauszufinden. Es kann die Unfähigkeit des Algorithmus sein, die Struktur einer Szene oder nur eine niedrige Auflösung einer Ausgabe zu erfassen. Im letzteren Fall müssen Sie zur Subpixel-Genauigkeit gehen. Die Anzahl der Methoden adressiert dieses Problem. Verwenden Sie das Kombinationsfeld Fehlerschwelle, um die Algorithmen nach der gewünschten Genauigkeit zu sortieren.

Mehrere Kameras könnten auch helfen. Keywords sind "Multi-View Stereo".

+0

Haben Sie nach dem Anschauen eine Ahnung, warum die Tiefenschätzung scheitert, wenn es sich um eine strukturlose Oberfläche handelt (z. B. Lampe in tsukuba)? – yasumi

+0

Welche Methode meinst du? Eine einfache fensterbasierte Methode kann die Ungleichheit in einer strukturlosen Region nicht schätzen, da sie zwei Fenster aus den verschiedenen Bildern nicht zuordnen kann. Sie haben keine Funktionen und jede Verschiebung ist gleicherweise möglich. Moderne Verfahren haben dieses Problem nicht, da sie den Kontext z. über MRFs. Sie kennen die Disparität an der Grenze der Lampe und propagieren sie in der Mitte. –