Project

General

Profile

Overview

O presente projeto é uma continuação dos projetos dos triênios anteriores, estendendo o foco para o estudo e desenvolvimento de métodos para o tratamento de problemas complexos de reconhecimento de padrões que envolvem um grande número de amostras de treinamento e vetores de característica de grandes dimensões. Pretendemos estudar de maneira abrangente ao longo do próximo triênio (2014-2016), principalmente o impacto da dimensionalidade dos dados e do tamanho do conjunto de treinamento no desempenho de algoritmos de reconhecimento de padrões utilizados atualmente em tarefas de classificação, bem como propor estratégias para lidar com tamanha quantidade de dados de maneira efetiva. Em particular restringiremos nosso domínio de aplicação à sinais de áudio tendo em vista a disponibilidade de conjuntos de dados que se enquadram no conceito de big data, bem como a disponibilidade de rica informação contextual que pode ser integrada no processo de decisão. O principal conjunto de dados que será utilizado neste projeto possui 280GB de dados armazenados em formato HDF5 representando um milhão de instâncias às quais podemos associar múltiplos rótulos, descritores com dimensionalidade superior a 1.000 e informação contextual na forma de texto e imagem.