Tipos de GenAI Imagem gerada por Inteligência Artificial

Tipos de GenAI mostram avanço contínuo da tecnologia

4 minutos de leitura

Especialistas apontam desenvolvimento crescente na última década e indicam principais características dos modelos atuais



Por Redação em 05/05/2025

Assunto recorrente na área de tecnologia (e também fora dela), a inteligência artificial generativa (GenAI) ganhou tração na última década. Na avaliação do consultor Bernard Marr, a maioria das técnicas tem em comum a criação de conteúdo com base nos desenvolvimentos mais recentes de deep learning (aprendizado profundo), redes neurais e modelos transformadores. 

O especialista fala de quatro tipos de GenAI, número que outros conhecedores do tema ampliaram. É o caso do site Eweek, que usamos como base para a listagem abaixo. Um alerta importante: novos modelos podem surgir, uma vez que estamos falando de uma área altamente dinâmica, inclusive com a criação de tecnologias híbridas, também indicados neste material.

George Lawton, articulista da Tech Target, destaca o que ele chama dos dois modelos mais populares: as Redes Adversariais Generativas (GANs) e os Autocodificadores Variacionais (VAEs). Uma diferenciação simplificada indica que as GANs tendem a ser mais utilizadas para gerar multimídia, enquanto as VAEs são mais adotadas para analisar e processar sinais em áudio, imagens e outros dados.

Independentemente do tipo, os modelos de GenAI aprendem padrões de um conjunto de dados de treinamento e usam esse conhecimento para gerar novas amostras, que se assemelham aos dados originais. Confira a lista a seguir.

Grandes Modelos de Linguagem (LLMs)

Tecnologia fundamental para ferramentas inovadoras, como ChatGPT, Claude e Google Gemini. Basicamente, são redes neurais treinadas com grandes quantidades de dados de texto, o que permite o aprendizado da relação entre palavras e, em seguida, prever a próxima palavra que deve aparecer em qualquer sequência, em uma frase. Os modelos podem então ser treinados em textos específicos relacionados a domínios especializados – o que é conhecido como “ajuste fino” –, para que possam realizar tarefas específicas.

Além de criar texto e código de computador, os LLMs possibilitaram que os computadores compreendessem entradas de linguagem natural para diversas tarefas, incluindo tradução de idiomas, análise de sentimentos e outras formas de IA generativa, como conversão de texto em imagem ou texto em voz. No entanto, seu uso gerou preocupações éticas em relação aos viéses, alucinações de IA, desinformação, deepfakes e o uso de propriedade intelectual para treinar algoritmos.

Modelos de difusão

Tipos de GenAI
Foto: Imagem gerada por Inteligência Artificial

Utilizados na geração de imagens e vídeos,  funcionam a partir de um prompt (comando, pergunta ou instrução) de texto que o computador consegue entender para criar uma imagem.

É como se criássemos uma imagem rabiscando aleatoriamente em um pedaço de papel e, gradualmente, os rabiscos fossem sendo refinados, utilizando dados de treinamento para entender quais características devem ser incluídas na imagem final. A cada etapa, a imagem é gradualmente ajustada para incluir as características desejadas.

Eventualmente, isso leva à criação de uma imagem inteiramente nova, que corresponde ao prompt de texto, mas ainda não foi encontrada nos dados de treinamento. Os modelos de difusão mais avançados podem criar imagens fotorrealistas, bem como aquelas que imitam pinturas e desenhos de qualquer estilo. Além disso, eles são cada vez mais capazes de gerar vídeos.

Redes Adversariais Generativas (GANs)

Surgiram em 2014 e rapidamente tornaram-se um dos modelos mais eficazes para a geração de conteúdo sintético, tanto em texto quanto em imagens. O princípio básico envolve a comparação entre dois algoritmos diferentes. Um é conhecido como “gerador” e o outro como “discriminador”, e ambos recebem a tarefa de se aprimorar cada vez mais, de forma a superarem um ao outro.

O gerador tenta criar conteúdo realista e o discriminador, por sua vez, tenta determinar se ele é real ou não. Cada um aprende com o outro, aprimorando-se cada vez mais em seu trabalho até que o gerador saiba como criar um conteúdo o mais próximo possível de ser “real”.

Campos de Radiância Neural (NeRFs)

Tecnologia surgida em 2020 que, ao contrário das outras GenAI, usa dados ​​especificamente para criar representações de objetos 3D com base em deep learning. Isso significa que pode criar um aspecto de uma imagem que não pode ser visto pela “câmera”. O recurso é possível, porque o modelo prevê elementos como as propriedades volumétricas de objetos, mapeando-os para coordenadas espaciais 3D.

Os NeRFs adotam redes neurais para modelar geometria e propriedades como o reflexo da luz ao redor de um objeto. Com isso, é possível recriar em 3D imagens bidimensionais. 

Modelos baseados em transformadores

Melhores para geração de texto e conclusão de conteúdo/código, esses modelos são projetados com redes neurais maciças e infraestrutura de transformadores que permitem reconhecer e memorizar relacionamentos e padrões em dados sequenciais. São treinados para analisar, armazenar e “lembrar” de grandes conjuntos de dados de diversas fontes e, às vezes, em diversos formatos.

As fontes de dados de treinamento podem ser sites e textos online, artigos de notícias, wikis, livros, coleções de imagens e vídeos e outros grandes conjuntos de dados que fornecem informações valiosas. 

Autocodificadores Variacionais (VAEs)

Ideais para criação de conteúdo de imagem, áudio e vídeo, especialmente quando dados sintéticos precisam ser fotorrealistas. Segundo a IBM, são usados no aprendizado de máquina (ML) para gerar novos dados na forma de variações dos registros de entrada nos quais foram treinados. Além disso, eles também executam tarefas comuns a outros autocodificadores, como a redução de ruído.

Como todos os autocodificadores, esses modelos são compostos por um codificador que aprende a isolar as variáveis latentes importantes dos dados de treinamento e um decodificador que, então, utiliza essas variáveis latentes para reconstruir os dados de entrada.

Modelos unimodais

Tipos de GenAI
Foto: Imagem gerada por Inteligência Artificial

Nesse tipo, a configuração aceita apenas um formato de entrada de dados. É o caso dos chatbots que recebem prompts de texto e geram respostas em texto, enquanto geradores de imagens podem receber prompts de texto e gerar imagens com base nessas perguntas.

Modelos multimodais

São projetados para aceitar vários tipos de entradas e prompts ao gerar saídas. O GPT-4, por exemplo, aceita texto e imagens como entradas. Esse modelo é o resultado dos avanços em deep learning, arquiteturas de redes neurais e processamento de linguagem natural, que permitiram que a IA compreendesse o mundo da mesma forma que os humanos. Agora, a GenAI pode gerar saídas multimodais, assim como nós. 

Modelos Híbridos

Combinam diversas técnicas para criar sistemas inovadores de geração de conteúdo. Esses modelos se baseiam nos pontos fortes de diferentes abordagens, como a combinação do treinamento adversarial das GANs para produzir resultados mais refinados e realistas. Ao integrar LLMs com outras redes neurais, os modelos híbridos podem oferecer contexto e adaptabilidade aprimorados, levando a resultados mais precisos e contextualmente relevantes.

A abordagem híbrida abre novas possibilidades para aplicações, como a geração de texto para imagem, onde a fusão de diferentes técnicas generativas leva a resultados mais complexos e diversos, bem como a ambientes virtuais aprimorados.



Matérias relacionadas

Claro HackTown 2025 Inovação

Claro leva inovações em tecnologia e negócios ao HackTown 2025

Conectividade, segurança, formação profissional e economia criativa marcaram as sessões na Casa Conectada

agentes de IA Inovação

Agentes de IA superam fase de testes e redefinem operação das empresas

Estudo indica foco em produtividade e qualidade, mas revela desafios com preparo da liderança, regulação e capacitação da força de trabalho

NFC Inovação

Tecnologia por aproximação impulsiona crescimento das transações sem contato

Projeções indicam salto na bilhetagem digital e no uso de carteiras digitais independentes, o que reforça o papel do NFC na infraestrutura das cidades inteligentes

Benchmark IA Inovação

Benchmarks de IA ganham acesso público

Com código aberto, a ferramenta da chinesa HongShan Capital Group testa modelos de inteligência artificial em tarefas do mundo real

    Embratel agora é Claro empresas Saiba mais