por Natália Meira

A abordagem do DatasetGAN se concentra, principalmente, em tarefas de anotação em termos de pixel, como segmentação semântica e previsão de ponto-chave, uma vez que são exemplos típicos das tarefas de anotação manual mais demoradas.

Como são necesssário poucos exemplo rotulados, os autores rotularam um conjunto de dados para 7 tarefas de segmentação de imagem, com rótulos  a nível de pixel para 34 partes do rosto humano e 32 partes de automóveis. Além disso, os resultados superaram as baselines semi-supervisionadas.

Os autores sintetizaram  um pequeno número de imagens utilizando uma arquitetura GAN, a StyleGAN, e registraram seus mapas de características latentes correspondentes. Um anotador humano foi solicitado a rotular essas imagens com um conjunto de rótulos desejado.

Em seguida, treinaram um conjunto simples de classificadores MLP no topo dos vetores de recursos pixel-wise do StyleGAN. O DatasetGAN usa StyleGAN como o backbone gerador devido à sua impressionante qualidade de síntese.  As Figuras 1 e 2 fornecem uma visualização.

Arquitetura geral do DATASETGAN. Faz-se upsample dos mapas de recursos de StyleGAN para a resolução mais alta para construir vetores de recursos em termos de pixel para todos os pixels na imagem sintetizada. Um conjunto de classificadores MLP é então treinado para interpretar o conhecimento semântico no vetor de recursos de um pixel em seu rótulo de parte.
Figura 1: Arquitetura geral do DATASETGAN. Faz-se upsample dos mapas de recursos de StyleGAN para a resolução mais alta para construir vetores de recursos em termos de pixel para todos os pixels na imagem sintetizada. Um conjunto de classificadores MLP é então treinado para interpretar o conhecimento semântico no vetor de recursos de um pixel em seu rótulo de parte.
 Pequenos conjuntos de dados de rosto e carros com anotações humanas. A maioria dos conjuntos de dados para segmentação semântica (MS-COCO, ADE, Cityscapes) são muito grandes para que um usuário possa verificar todas as imagens de treinamento. Essa figura mostra todos os exemplos de treinamento rotulados para segmentação de face (a-c) e carro (d-f). a) mostra um exemplo de máscara de segmentação e rótulos associados, b) mostra a coleção completa de imagens de treinamento (amostras GAN) e c) mostra a lista de partes anotadas e o número de instâncias no conjunto de dados. Como um fato engraçado, observe que há mais rótulos em uma única imagem do que imagens no conjunto de dados.
Figura 2: Pequenos conjuntos de dados de rosto e carros com anotações humanas. A maioria dos conjuntos de dados para segmentação semântica (MS-COCO, ADE, Cityscapes) são muito grandes para que um usuário possa verificar todas as imagens de treinamento. Essa figura mostra todos os exemplos de treinamento rotulados para segmentação de face (a-c) e carro (d-f). a) mostra um exemplo de máscara de segmentação e rótulos associados, b) mostra a coleção completa de imagens de treinamento (amostras GAN) e c) mostra a lista de partes anotadas e o número de instâncias no conjunto de dados. Como um fato engraçado, observe que há mais rótulos em uma única imagem do que imagens no conjunto de dados.

Amostras aleatórias de cinco dos conjuntos de dados sintetizados para segmentação parcial de várias classes de objetos são mostradas na Figura 3. Embora não seja perfeito (por exemplo, rugas ausentes), nota-se a qualidade dos rótulos sintetizados.

Exemplos de imagens sintetizadas e rótulos do DATASETGAN para rostos e carros. O backbone StyleGAN foi treinado em CelebA-HQ (faces) em imagens de resolução 1024 x 1024 e em LSUN CAR (carros) em imagens de resolução 512 x 384. O DATASETGAN foi treinado em 16 exemplos anotados.
Figura 3: Exemplos de imagens sintetizadas e rótulos do DATASETGAN para rostos e carros. O backbone StyleGAN foi treinado em CelebA-HQ (faces) em imagens de resolução 1024 x 1024 e em LSUN CAR (carros) em imagens de resolução 512 x 384. O DATASETGAN foi treinado em 16 exemplos anotados.

Uma das limitações citadas pelos autores foi a qualidade da imagem, que pode interferir na rotulagem. Um exemplo é a rotulagem das pernas de pássaros, que são geralmente difíceis de serem vistas e borradas, o que torna a anotação um desafio.

O DatasetGAN é um código open source, e você pode encontrá-lo aqui: <https://github.com/nv-tlabs/datasetGAN_release>.

Referência: ZHANG, Y.; LING, H.; GEO, J.; YIN, K.; LAFLECHE, J.F.; BARRIUSO, A.; TORRALBA, A.; FODLER, S.. Datasetgan: Efficient labeled data factory with minimal human effort. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021. p. 10145-10155.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

*
*
Website