Blog DP6
Inteligência Artificial

Dados Sintéticos com GenAI: O Futuro da Coleta e Análise de Informações

Por
Renan Trindade
23/1/2025

Introdução

Ironicamente, umas das maiores dificuldades dentro do universo de análise de dados é a própria geração desses dados. Sim, houve grandes avanços que permitiram, por exemplo, o acompanhamento ação por ação de um usuário dentro de um site ou aplicativo, ou até mesmo a observação e classificação daquilo que é expresso pelos usuários das redes sociais, porém, captar interesses, intenções, opiniões e sentimentos ainda é uma dificuldade enorme. 

Uma das principais e mais eficientes formas de acesso a este tipo de informação ainda é a mais banal e talvez vista até como antiquada: simplesmente perguntar para as pessoas. Mas aqui surgem outras dificuldades, que envolvem o desenvolvimento de uma pesquisa, a definição do público pesquisado, a procura por pessoas destes grupos aptas a responder, o treinamento dos entrevistadores para que a coleta seja feita de forma adequada, a complexidade logística e armazenamento destes dados.

É em meio às dificuldades de produção de dados que surge a ideia de dados sintéticos. O pensamento é simples: se as máquinas são capazes de aprender com dados e gerar predições com forte acurácia, seriam elas capazes de gerar os próprios dados?

Esta discussão não é exatamente nova, ela surge praticamente junto com o advento da computação nos anos 70 e ganha novas camadas a partir do desenvolvimento de algoritmos de redes neurais. Porém, com as GenAIs, temos uma mudança estrutural neste tema. Para além da criação de dados estruturados e não estruturados, agora podemos simular justamente aquele tipo de informação que era tão difícil de coletar, isto é, interesses, intenções, opiniões e sentimentos.

Como GenAI traz novos rumos a criação de dados sintéticos?

Dados são registros de acontecimentos ou qualidades. Ao descrevermos um objeto, destacamos certas características, criando registros (ou metadados) sobre ele. Da mesma forma, ao descrevermos um evento, estamos registrando informações sobre esse acontecimento. Em resumo, dados são representações que descrevem, normalmente de maneira lógica e estruturada, objetos ou fatos.

Quando pensamos nestes registros, ou nessas características e fatos, nós normalmente pensamos neles por meio de um código específico, que é a linguagem. A ideia aqui não é cair em uma discussão semiótica de signos e significados, mas é importante termos em mente que a linguagem natural recebe este nome justamente por ela ser inerente ao ser humano, já que é por meio dela que conseguimos abranger, descrever e criar significados sobre as coisas e os eventos ao nosso redor.

Com Machine Learning, o que fazemos essencialmente é traduzir esses registros, que estão em linguagem natural, para um formato que as máquinas podem entender, ou seja, dados estruturados e numéricos. Isso permite que sejam identificados padrões nesses dados e, a partir deles, geradas previsões. Ao descrevermos uma imagem, poderíamos descrever as formas, os traços, as cores e a densidade. Poderíamos também descrever quais sentimentos ela provoca - isso do ponto de vista humano. Para uma máquina, essa imagem não é nada mais que uma matriz multidimensional que representa as características objetivas da imagem. A partir desta matriz, de e diversas outras relativas a outras imagens, a máquina é capaz de identificar padrões e, por meio deles, reconhecer outra imagem que possua características semelhantes. É dessa forma que o Google Fotos cria aquelas lembranças com imagens de um melhor amigo ou do seu pet, ele reconhece que as fotos compartilham elementos semelhantes. 

Vemos no processo descrito de machine learning um fluxo base:

  1. Registramos dados a respeito de algo
  2. Transformamos estes dados em uma linguagem entendível pela máquina
  3. A máquina identifica padrões nestes dados
  4. A máquina faz uma predição sobre estes dados

A chegada da GenAI traz uma ruptura estrutural nessa dinâmica entre máquinas e dados, adicionando uma nova etapa no fluxo descrito. Os dados traduzidos para uma linguagem inteligível pelas máquinas agora são processados e retraduzidos para a linguagem natural. A enorme quantidade de dados utilizados para treinamento destes modelos unida a uma enorme capacidade de processamento desses dados levou aquele processo essencial de identificação de padrões para um novo patamar, permitindo predições em uma escala que simula os próprios inputs do modelo. Tais predições, quando re-traduzidas para a linguagem natural, tornam-se uma resposta adequada a frase que serviu de input. 

Seguindo o exemplo dado anteriormente, as máquinas agora não só são capazes de reconhecer uma imagem, mas de criar uma inteiramente nova a partir dos padrões que ela conhece. Embora, em essência, a diferença no processo de aprendizado de máquina seja mais quantitativa, a evolução para GenAI trouxe uma mudança qualitativa na relação entre humanos e máquinas. 

Essa capacidade generativa das máquinas permite que elas escrevam poesias, composições musicais, roteiros de filmes e outras criações que muitos considerariam exclusivamente humanas. É claro que, como sistemas baseados em padrões, essas criações tendem a ser superficiais e desprovidas de autenticidade. Afinal, criar poesia não é apenas uma questão de padrões, mas também de visões de mundo e emoções — elementos humanos que ainda não são simulados pelas máquinas.

No entanto, quando pensamos em conteúdos mais simples, como a opinião de uma pessoa sobre um produto, a geração de dados em linguagem natural pode ser mais convincente. 

Em resumo, a ruptura que a GenAI traz é justamente sua capacidade geradora de  conteúdos novos, conteúdos estes baseados em padrões de suas gigantescas bases de treino e que, por conta da própria natureza dessas bases, refletem de maneira razoavelmente legítima as opiniões e sentimentos das pessoas.

Um exemplo prático: dados sintéticos para marketing research

O artigo Language Models for Automated Market Research: A New Way to Generate Perceptual Maps realizou um comparativo entre resultados de uma pesquisa feita com pessoas e outra a partir de dados sintéticos gerados por Gen Ai. 

Para realização desse levantamento, foi criado um questionário sobre opiniões a respeito de marcas de carros com o objetivo de compreender quais marcas são mais parecidas umas com as outras no imaginário popular. Esse questionário foi aplicado primeiro a pessoas reais e depois ao Chat GPT4, para a avaliação da semelhança entre as respostas dos humanos e das máquinas. O que temos, portanto, é um mesmo processo de coleta de dados qualitativos, mas em um dos casos as respostas são dadas pela inteligência artificial.

Os gráficos a seguir apresentam os resultados para cada um dos tipos de dados.

comparativo entre resultados de uma pesquisa feita com pessoas e outra a partir de dados sintéticos gerados por Gen Ai. 
Fonte: Synthetic data is suddenly making very real ripples

Em resumo, a pesquisa demonstrou uma semelhança de 90% entre os resultados. O artigo Synthetic data is suddenly making very real ripples cita ainda que existem mais de uma dúzia de estudos semelhantes apresentado resultados tão impressionantes quanto este. 

O que estes artigos estão provando é que ideias conceitualmente subjetivas, emitidas por pessoas, podem ser estatisticamente semelhantes a ideias geradas por máquinas.

Compreendendo o funcionamento da GenAI e porque seus outputs podem refletir opiniões humanas

Uma GenAI como Chat GPT não sabe a opinião das pessoas, nem possui opiniões próprias, ela apenas concatena palavras (ou pedaços de palavras conhecidas como tokens) na forma mais provável segundo o input que foi dado a ela. Podemos testar isso pedindo para o Chat GPT completar algumas frases:

Chat GPT completando frases
Fonte: Autoria Própria

Não é coincidência que esses nomes tenham sido escolhidos. João, Maria e Ana são os 3 nomes mais comuns do brasil nos anos 2000 segundo o censo do IBGE, tudo bem, Carlos é apenas o décimo segundo nome mais comum. Mas o que importa aqui é que estes nomes provavelmente são os que mais aparecem nas bases de treinos do Chat GPT, e é por isso que ele interpreta estes nomes como os mais prováveis complementos das frases. 

Outro exercício interessante é pedirmos trechos de música ou poesias.

Chat GPT escrevendo a poesia Canção do exílio
Fonte: Autoria Própria

Vemos aqui que, apesar de possuir a poesia em sua base de treinamento (e podemos testar isso pedindo estrofe por estrofe), o chat não conhece a poesia como nós conhecemos, o que ele faz é concatenar as palavras que mais provavelmente apareceriam umas depois das outras e, portanto, acaba criando uma obra bem diferente da original.

Estes exemplos demonstram como, no lugar de pensar como nós, as máquinas apenas dizem o que mais provavelmente seria dito após o input que foi inserido. É por isso que o ChatGPT não consegue escrever a poesia de Gonçalves Dias completa, mesmo contendo ela na sua base de treino: ele não pensou na poesia em si, ele usou modelos probabilísticos para prever as palavras que apareceriam em seguida do input. 

Porém, quando falamos de emitir opiniões, os modelos probabilísticos vão criar respostas que mais condizem com aquelas presentes em suas bases, que são, por sua vez, conteúdos criados originalmente por humanos. Se um algoritmo de GenAI procura concatenar palavras segundo padrões que ele encontrou em sua base de dados e esta base reflete um conteúdo originalmente humano, faz sentido, considerando os devidos limites, a ideia de utilizarmos opiniões e sentimentos sintéticos como expressões subjetivas genuínas.

Para além da forma como a GenAI entrega seus outputs, o que também torna possível a utilização desta tecnologia para geração de dados qualitativos sintéticos é o fato de que ela é capaz de interpretar personas. Isto se dá justamente por conta da forma de funcionamento descrita, como o Chat GPT se comunica concatenando as palavras mais prováveis segundo nosso input, ele levará em consideração elementos de uma persona fictícia informada na solicitação:

Chat GPT respondendo como se fosse um humano
Fonte: Autoria Própria

Apesar da ausência de autenticidade e da estereotipação simplória nas respostas, o ponto aqui é o fato de que o Chat GPT procura, segundo as características da pessoa descrita, uma resposta mais adequada. 

Um exemplo simples

Seguindo os exemplos aqui apresentados, não é difícil imaginar que possamos descrever uma persona e fazer perguntas relacionadas a uma marca para ela. No exemplo a seguir, tanto a persona quanto as perguntas foram também geradas pelo Chat GPT:

Persona e perguntas geradas pelo Chat GPT
Fonte: Autoria Própria

Apesar de ser um exemplo simples, vemos aqui a possibilidade de obtermos respostas padrão, ou mais prováveis, a respeito de uma marca para uma persona específica. Isto acontece justamente porque o modelo funciona concatenando os tokens mais prováveis, um em seguida do outro, levando em consideração o prompt inserido. Como os dados que treinaram o modelo são reais, o seu output necessariamente reflete, em algum nível, a realidade destes dados, e portanto, os registros gerados por uma GenAI podem ter paralelo com os registros do mundo real. Sendo assim, basta realizarmos uma tarefa semelhante à do exemplo, mas em uma escala maior e com um modelo mais rebuscado, para termos resultados factíveis e úteis para entendermos como uma marca ou produto é visto pelo público. 

Vantagens da utilização de dados sintéticos

Quando coletamos dados, uma grande preocupação é o quanto estes dados refletem a realidade. Erros de coleta, de armazenamento ou de transformação de dados podem levar análises a análises não condizentes com o que realmente aconteceu. Os processos mais clássicos de coleta de dados, como questionários estruturados, semi-estruturados e não estruturados, normalmente são custosos em tempo e dinheiro. Já processos automatizados de coleta, como Google Analytics 4, podem carregar erros técnicos e uma certa complexidade na transformação de dados, além de não permitirem uma coleta qualitativa. 

A geração de dados sintéticos atua justamente nestas dificuldades descritas. O cálculo aqui é: o quanto eu posso abrir mão de autenticidade para ganhar em valor e velocidade das informações? O que as pesquisas relacionadas a dados sintéticos com GenAI tem demonstrado é que, com esta nova tecnologia, o preço da autenticidade não é mais tão alto, e hoje permite inclusive a coleta de dados semelhantes àqueles produzidos com questionários semi ou não estruturados. 

Outra questão importante é a privacidade, que pode dificultar a coleta de dados relacionados a temas sensíveis. Com GenAI, estes dados podem ser gerados artificialmente de maneira que haja um paralelo com dados coletados por métodos mais usuais.

Em resumo, os algoritmos de GenAI trazem um novo momento na geração de dados sintéticos, de forma que podemos produzir informações qualitativas que simulam com um sucesso satisfatório a subjetividade presente nas opiniões e sentimentos humanos, com custo de tempo de dinheiro extremamente menor.

Na DP6, estamos prontos para ajudar sua empresa a navegar no mundo da GenAI e dados sintéticos, oferecendo soluções personalizadas para coleta, análise e aplicação estratégica de dados. Entre em contato conosco e descubra como podemos transformar seus dados em insights valiosos para impulsionar resultados. 

Fontes:

Nomes no Brasil 

Synthetic Data generation using GenAI

Synthetic data is suddenly making very real ripples

The Complete Guide to Synthetic Data Applied to Research

What is synthetic data? Examples, use cases and benefits

Compartilhe