Che cos'è la visione artificiale 3D?

La visione artificiale tridimensionale (3D) è un metodo di utilizzo delle fotocamere che consente ai computer di emulare la visione umana per creare un’immagine 3D. Con la computer vision 3D, un computer utilizza due fotocamere contemporaneamente, proprio come una persona usa due occhi, per creare un’immagine profonda. Oltre al suo utilizzo nella creazione di immagini e filmati 3D con dispositivi di registrazione, la visione artificiale 3D viene utilizzata frequentemente anche con la robotica, consentendo ai robot di catturare veri ambienti 3D. Uno dei maggiori problemi nello sviluppo di questo sistema era garantire che le telecamere fossero allineate correttamente, ma molti sistemi hanno perfezionato questa tecnica. Questo metodo rende anche la tecnologia 3D più economica per il mercato consumer, perché non sono necessari costosi processori di immagini per costruire l’immagine 3D.

Affinché la visione artificiale 3D funzioni, il computer deve utilizzare due fotocamere diverse nello stesso modo in cui le persone usano due occhi. Entrambe le fotocamere registrano o catturano un ambiente da diverse angolazioni, consentendo al computer di utilizzare un algoritmo per fondere le immagini e formare la profondità della vita reale. I computer sono anche in grado di acquisire immagini 3D in tempo reale, senza la necessità di molte elaborazioni tra l’acquisizione e l’edificio 3D. Ciò rende la visione artificiale 3D utile per i mercati dei giochi, dei film e della registrazione.

Oltre a utilizzare la computer vision 3D per realizzare immagini e filmati, questo metodo viene spesso utilizzato anche in robotica, in particolare con robot fatti per muoversi e interagire con un ambiente. Utilizzando le due telecamere, il robot è in grado di comprendere la profondità di un ambiente, rendendolo più abile nel lavorare con altri oggetti e nel superare ostacoli fisici come spazi vuoti e dossi. Anche il movimento robotico è più fluido grazie a questa comprensione della profondità.

Il problema principale nella creazione di visione artificiale 3D era allineare le due telecamere in modo che funzionassero come gli occhi. Molti dei sistemi iniziali che utilizzavano questa tecnologia non riuscivano ad allineare le telecamere, quindi le immagini risultavano sfocate o combinate in modi incoerenti. A partire dal 2011, molti sistemi hanno superato questo problema e alcuni sono disponibili per i consumatori.

Prima della visione artificiale 3D, esistevano processori di immagini 3D in grado di svolgere lo stesso compito di acquisire immagini e combinarle per formare la profondità. Il problema principale di questa tecnica è che i processori di immagini sono costosi, il che li rende in gran parte inaccessibili per il mercato consumer. Il costo non è un grosso problema per la computer vision 3D, perché il processo di combinazione delle immagini è piuttosto semplice. Ciò consente al mercato consumer di godere della tecnologia 3D senza un prezzo elevato.