por Natália Meira
A abordagem do DatasetGAN se concentra, principalmente, em tarefas de anotação em termos de pixel, como segmentação semântica e previsão de ponto-chave, uma vez que são exemplos típicos das tarefas de anotação manual mais demoradas.
Como são necesssário poucos exemplo rotulados, os autores rotularam um conjunto de dados para 7 tarefas de segmentação de imagem, com rótulos a nível de pixel para 34 partes do rosto humano e 32 partes de automóveis. Além disso, os resultados superaram as baselines semi-supervisionadas.
Os autores sintetizaram um pequeno número de imagens utilizando uma arquitetura GAN, a StyleGAN, e registraram seus mapas de características latentes correspondentes. Um anotador humano foi solicitado a rotular essas imagens com um conjunto de rótulos desejado.
Em seguida, treinaram um conjunto simples de classificadores MLP no topo dos vetores de recursos pixel-wise do StyleGAN. O DatasetGAN usa StyleGAN como o backbone gerador devido à sua impressionante qualidade de síntese. As Figuras 1 e 2 fornecem uma visualização.
Amostras aleatórias de cinco dos conjuntos de dados sintetizados para segmentação parcial de várias classes de objetos são mostradas na Figura 3. Embora não seja perfeito (por exemplo, rugas ausentes), nota-se a qualidade dos rótulos sintetizados.
Uma das limitações citadas pelos autores foi a qualidade da imagem, que pode interferir na rotulagem. Um exemplo é a rotulagem das pernas de pássaros, que são geralmente difíceis de serem vistas e borradas, o que torna a anotação um desafio.
O DatasetGAN é um código open source, e você pode encontrá-lo aqui: <https://github.com/nv-tlabs/datasetGAN_release>.
Referência: ZHANG, Y.; LING, H.; GEO, J.; YIN, K.; LAFLECHE, J.F.; BARRIUSO, A.; TORRALBA, A.; FODLER, S.. Datasetgan: Efficient labeled data factory with minimal human effort. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021. p. 10145-10155.