Please use this identifier to cite or link to this item:
https://hdl.handle.net/10316/93918
Title: | Neural networks for 2D representations of cell expression | Other Titles: | Redes neuronais para representações 2D de expressão genética | Authors: | Cunha, Adriana Monteiro e | Orientador: | Arrais, Joel Perdiz | Keywords: | Redução De Features; Expressão Genética; Autoencoder; Aprendizagem Supervisionada; Visualização De Dados; Feature Reduction; Gene Expression Profiling; Autoencoder; Supervised Learning; Data Visualisation | Issue Date: | 23-Nov-2020 | metadata.degois.publication.title: | Neural networks for 2D representations of cell expression | metadata.degois.publication.location: | CISUC | Abstract: | The recent advances in transcriptome sequencing technologies lead to the increase of gene expression studies, with significant impact in the fields of cellular biology and medicine. Typically, the work developed based on this type of data resorts to feature reduction techniques to combat the problems risen by the curse of dimensionality and from data extraction (such as dropout events, noise, etc.), especially in projects involving classification tasks. This dissertation presents a novel dimensionality reduction model inspired by deep neural networks, the Supervised Autoencoder, which combines the architecture of traditional autoencoders with a SoftMax classification layer, so the latent space maximizes different classes’ separability. To account for the recurring dropout events in this type of datasets, a Dropout layer was implemented during training, improving the model’s robustness. The present study focuses particularly on two-dimensional reductions to ease the information’s visualisation. In addition to an analysis of the effect of label usage in the feature reduction process (prior to potential classification tasks), the possibility of inferring new similarity patterns between samples through the latent space was explored.The model was validated with three datasets, comparing its results with those of Principal Component Analysis and the equivalent simple autoencoder, as well as by analysing the heatmap of the complete gene expression clustered based on the engineered features. The results show the model is capable of meaningful representations of the original data that ease the classification task compared to the ones resultant of state-of-the-art techniques. However, it is not possible to draw new parallels between samples based on those features. Os recentes avanços nas tecnologias de sequenciação do transcriptoma humano levaram ao aumento de estudos baseados em dados de expressão genética, com notável impacto nas áreas da biologia e medicina. Tipicamente, o trabalho desenvolvido com base neste tipo de informação recorre a técnicas de redução de features para combater os problemas que advêm da curse of dimensionality e associados à extração de dados de expressão (como eventos de dropout, ruído, etc.), sobretudo em projetos com tarefas de classificação.Nesta dissertação apresenta-se um modelo de redução de dimensionalidade inspirado em redes neuronais, o Autoencoder Supervisionado, que acopla a arquitetura tradicional de autoencoders com uma camada de classificação SoftMax, para que as representações no espaço latente maximizem a separabilidade entre diferentes classes. De forma a considerar os recorrentes eventos dropout neste tipo de dados, foi usada uma camada Dropout na fase de treino, conferindo maior robustez ao modelo. O estudo em causa foca-se em particular em reduções para duas dimensões, de forma a facilitar a visualização gráfica de informação. Além da análise do efeito da contabilização de classes no processo de redução de features (a priori de potenciais tarefas de classificação), explorou-se a possibilidade de o espaço latente obtido permitir aferir novos padrões de semelhança entre amostras.O modelo foi validado usando três conjuntos de dados, comparando os seus resultados com os obtidos através de Principal Component Analysis e do autoencoder simples equivalente, bem como através da análise do mapa de calor dos dados completos de expressão genética agrupados através do clustering hierárquico das features reduzidas.Os resultados mostram que o modelo é capaz de gerar representações adequadas dos dados originais, que permitem facilitar a tarefa de classificação quando comparadas com as resultantes das técnicas estado-da-arte. No entanto, não foi possível utilizá-las para estabelecer novos paralelos entre amostras. |
Description: | Trabalho de Projeto do Mestrado Integrado em Engenharia Biomédica apresentado à Faculdade de Ciências e Tecnologia | URI: | https://hdl.handle.net/10316/93918 | Rights: | openAccess |
Appears in Collections: | UC - Dissertações de Mestrado |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
tese final.pdf | 2.24 MB | Adobe PDF | View/Open |
Page view(s)
155
checked on Oct 30, 2024
Download(s)
136
checked on Oct 30, 2024
Google ScholarTM
Check
This item is licensed under a Creative Commons License