Adaptive Depth Map Estimation for Light Field Cameras using Machine Learning

Figueiredo, Daniel Jorge Oliveira

Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/81638

Title:	Adaptive Depth Map Estimation for Light Field Cameras using Machine Learning
Other Titles:	Mapa denso de profundidade para câmaras de campo de luz multi-focus - uma implementação melhorada e eficiente
Authors:	Figueiredo, Daniel Jorge Oliveira
Orientador:	Gonçalves, Nuno Miguel Mendonça da Silva
Keywords:	Câmaras Plenópticas; Campo de luz; Estimação de profundidade; Dados plenópticos simulados; Raytrix; Plenoptic Cameras; Light Field; Depth Estimation; Synthetic Plenoptic data; Raytrix
Issue Date:	29-Sep-2016
metadata.degois.publication.title:	Adaptive Depth Map Estimation for Light Field Cameras using Machine Learning
metadata.degois.publication.location:	DEEC
Abstract:	Câmaras de campo de luz, também conhecidas por câmaras plenópticas, capturam informação redundante sobre a luz que emana de uma cena. Esta redundância permite a estimação da profundidade da cena, bem como a focagem da imagem depois desta ser tirada. Apesar do conceito por de trás das câmaras de campo de luz ter sido formalizado em 1908, foi apenas recentemente que estas câmaras começaram a ser comercializadas.Existem dois tipos de câmaras plenópticas, a câmara plenóptica standard e a câmara plenoptica multi-focus, sendo que a Lytro é o fabricante mais conhecido para a câmara plenóptica standard e a Raytrix para a multi-focus. Apesar das vantagens demonstradas pela câmara plenóptica standard, como a sua simplicidade e o seu preço reduzido, no nosso trabalho utilizamos imagens tiradas por uma câmara plenóptica multi-focus devido à sua qualidade e à sua maior resolução.Nesta tese apresentamos um algoritmo automático capaz de estimar a profundidade de uma cena como se fosse capturada por uma câmara convencional.A estimação de profundidade é iniciada com um algoritmo tipo RANSAC que gera uma nuvem de pontos. Uma vez que esta nuvem de pontos contém outliers, no trabalho anterior, foi aplicado um filtro de remoção de outliers de forma a obter um resultado mais preciso. Esta nuvem de pontos não é imune a oclusões. De forma a resolver este problema aplicamos um z-buffer, eliminando, desta forma, todos os pontos ocluídos. No que diz respeito às melhorias na estimação do mapa de profundidades, apresentamos um método de "supervised machine learning" que gera um mapa adaptativo com várias profundidades por micro lente, sendo uma alternativa sólida aos métodos apresentados nos trabalhos anteriores. Este mapa de profundidades irá servir como um passo intermédio para a geração do mapa denso de profundidades. Apresentamos ainda uma implementação do algoritmo de sintetização do mapa denso de profundidades. Com as melhorias introduzidas neste algoritmo somos capazes de estimar um mapa denso de profundidades independentemente do número de profundidades por micro lente presente no mapa intermédio.No trabalho anterior foi criado um simulador de imagens plenópticas, permitindo criar data sets plenópticos com parâmetros específicos. Sabendo a profundidade real destes data sets podemos calcular o erro presente nas nossas estimações. Isto permite-nos testar o algoritmo, melhorar o algoritmo e fornecer orientações para trabalhos futuros.O nosso algoritmo foi também testado com imagens plenópticas disponibilizadas publicamente pela Raytrix, mas, uma vez que a Raytrix não fornece a profundidade real dos seus data sets, não nos é possível calcular o erro das nossas estimações, desta forma apenas nos é possível fazer uma comparação visual dos resultados. Light field cameras, also known as plenoptic cameras, capture redundant information from the light that emanates from a scene. This redundancy allows a depth estimation of the captured scene and to refocus the image after it has been taken. Even though the light field camera's concept was first formalized in 1908, it was not until recently that these cameras were produced for commercial use. There are two types of plenoptic cameras, the standard plenoptic camera and the multi-focus plenoptic camera, being Lytro the most popular manufacturer of the standard plenoptic and Raytrix the most popular manufacturer of the multi-focus one. Despite the advantages of the standard plenoptic camera like their simplicity and lower price, our work uses results captured by a multi-focus plenoptic camera due to its quality and higher resolution images.In this thesis we present an automatic algorithm capable of estimating the depth of a captured scene as if it was taken by a pinhole camera. The depth estimation starts with a RANSAC-like algorithm, generating a point cloud. Since this point cloud contains some outliers, in the previous work, an outlier removal filter was applied to achieve a more accurate point set. This point cloud is not immune to occlusions so, in order to solve this problem, we applied a z-buffer, eliminating all the occluded points from the point cloud. Regarding the depth estimation improvements, we present a supervised machine learning method that generates an adaptive depth map with several depths per micro lens, presenting a solid alternative to the methods presented in the previous work. This depth map will serve as an intermediate step to the dense depth map generation.We also present an improved implementation of the dense depth map synthesization algorithm. With the improvements made to this algorithm we are able to estimate a dense depth map regardless of the number of depths per micro lens of the intermediate depth map. On the previous work a plenoptic data simulator was introduced, allowing us to create plenoptic data sets with specific parameters. By knowing the depth ground truth of these data sets we are able to measure the error between our estimation and the ground truth. Being able to do this we can test and improve our algorithm and provide guidelines to future work. Our algorithm was also tested with real plenoptic images provided by Raytrix, but, since Raytrix does not provide the depth ground truth of their data sets, we can not compute the error of our estimations, thus we are only able to make a visual comparison of the results.
Description:	Dissertação de Mestrado Integrado em Engenharia Electrotécnica e de Computadores apresentada à Faculdade de Ciências e Tecnologia
URI:	https://hdl.handle.net/10316/81638
Rights:	openAccess
Appears in Collections:	UC - Dissertações de Mestrado

Files in This Item:

File	Description	Size	Format
tese.pdf		82.37 MB	Adobe PDF	View/Open

Show full item record

Page view(s) 50

614

checked on Oct 29, 2024

Download(s) 50

548

checked on Oct 29, 2024

Google Scholar^TM

Check

This item is licensed under a Creative Commons License

Files in This Item:

Page view(s) 50

Download(s) 50

Google ScholarTM

Google Scholar^TM