Project

General

Profile

Overview

Quando é realizada uma tarefa de agrupamento, busca-se dividir o conjunto de dados em subconjuntos de tal forma que os dados agrupados em um subconjunto sejam semelhantes entre si (ou tenham propriedades similares) e dados presentes agrupados em diferentes subconjuntos sejam não tenham muitas semelhanças (ou ainda, que as propriedades que os caracterizam sejam diferentes). A partir deste momento, através da análise dos diversos grupos formados pode-se buscar o que caracteriza cada grupo e, eventualmente, alguma forma de descrever e separar os dados segundo uma hierarquia ou ordenação que tenha significado dentro da área a que pertencem os dados. Quando se trabalha com dados de micro-arrays, cada registro representa um determinado gene submetido a diversas condições. Espera-se que a realização do agrupamento dos mesmos conduza a subconjuntos de genes que apresentem propriedades similares, tais como apresentarem funções semelhantes, ou participarem de uma mesma via metabólica. Para analisar a qualidade do agrupamento, existem procedimentos estatísticos utilizados que utilizam vários índices como figura de mérito [Ewens 2001]. Entretanto, a verdadeira prova da utilidade dos agrupamentos consiste em se verificar se os grupos resultantes têm sentido do ponto de vista biológico[Baldi2001]. O objetivo do projeto é verificar se a validação estatística da qualidade de agrupamentos de dados de micro-arrays conduz a resultados coerentes com a validação biológica dos mesmos grupos, através de uma extensa gama de técnicas tradicionais e inovadoras de pré-tratamento, agrupamento e validação. Como resultado do trabalho será disponibilizada uma indicação de quais técnicas estatísticas podem conduzir a resultados biologicamente significativos para validação dos agrupamentos de micro-arrays, sob quais condições estes resultados se mantém, e sua aplicação nos dados do Trypanossoma Cruzy do IBMP.