Estudo Revela: Personas Não Melhoram Respostas Objetivas em IA

TL;DR: Um estudo da Universidade de Michigan testou o uso de personas (“Você é um expert”) em 9 modelos de IA com 2.410 perguntas objetivas e descobriu que essa técnica não melhora o desempenho em tarefas factuais, podendo até prejudicá-lo. Para perguntas objetivas, prompts diretos são mais eficazes, enquanto personas podem ainda ter valor em tarefas criativas e interpretativas.

Takeaways:

  • Role prompting (“Você é um especialista”) não melhora respostas factuais da IA e pode reduzir a precisão
  • Para perguntas objetivas, prompts diretos e específicos são mais eficazes que personas elaboradas
  • O estudo testou apenas conhecimento factual – personas podem ainda ser úteis para tarefas criativas e de estilo
  • Eliminar personas desnecessárias reduz custos de tokens e pode acelerar respostas
  • A estratégia ideal depende do tipo de tarefa: factual (sem persona) vs criativa (com persona estratégica)

O Efeito Personas na IA: Por Que “Você é um Expert” Pode Não Funcionar Como Você Pensa

Você já se perguntou se começar seus prompts com “Você é um copywriter experiente” ou “Atue como um consultor de marketing” realmente melhora as respostas da inteligência artificial?

Se a resposta é sim, você não está sozinho. Milhões de usuários ao redor do mundo utilizam essa técnica, conhecida como “role prompting”, acreditando que ela torna a IA mais eficaz e precisa.

Mas um estudo revolucionário publicado por pesquisadores da Universidade de Michigan pode mudar completamente a forma como você interage com modelos de linguagem. A pesquisa “When ‘A Helpful Assistant’ Is Not Really Helpful” revelou descobertas surpreendentes sobre o real impacto das personas em IA.

Prepare-se para questionar tudo o que você achava que sabia sobre prompting eficaz.

O Que Realmente Foi Testado: Uma Análise Científica Rigorosa

O estudo analisou nove modelos de linguagem open-source diferentes, incluindo algumas das arquiteturas mais populares do mercado atual. A escolha por modelos open-source não foi acidental – ela garantiu controle total sobre os prompts e reprodutibilidade dos resultados.

Os Modelos Avaliados

Os pesquisadores selecionaram cuidadosamente modelos de diferentes famílias e tamanhos:

FLAN-T5-XXL: Com 11 bilhões de parâmetros, utilizando formato de texto simples sem separação system/user.

LLaMA 3 Instruct (Meta AI): Testado nas versões de 8B e 70B parâmetros, usando formato de chat com system/user.

Mistral Instruct: Modelo de 7B parâmetros com arquitetura leve e alto desempenho.

Qwen2.5 Instruct (Alibaba Cloud): Cinco variações testadas – 3B, 7B, 14B, 32B e 72B parâmetros.

“A diversidade de modelos e tamanhos foi essencial para avaliar a consistência dos resultados across diferentes arquiteturas”, explicam os pesquisadores.

Por que não testaram GPT-4, Claude ou Gemini? A resposta é simples: falta de controle sobre os system prompts e dificuldade em garantir reprodutibilidade científica.

A Metodologia Por Trás da Descoberta

O experimento foi conduzido em escala impressionante, utilizando uma abordagem sistemática que eliminou variáveis de confusão.

Escopo do Experimento

  • 162 personas diferentes: Profissões, relações sociais e especialidades variadas
  • 2 tipos de prompts com persona:
    • Speaker-specific: “Você é um [papel]”
    • Audience-specific: “Você está falando com um [papel]”
  • 2.410 perguntas objetivas: Extraídas do benchmark MMLU
  • Cenário de controle: Perguntas feitas sem nenhuma persona para comparação

A metodologia garantiu que os resultados fossem estatisticamente significativos e cientificamente válidos.

MMLU: O Padrão-Ouro Para Avaliar Inteligência Artificial

O Massive Multitask Language Understanding (MMLU) é considerado um dos benchmarks mais rigorosos para avaliar modelos de linguagem. Ele funciona como um “vestibular” para IA, testando conhecimento factual em múltiplas disciplinas.

Características do MMLU

O benchmark abrange 26 disciplinas acadêmicas:

  • Direito e Jurisprudência
  • Medicina e Ciências da Saúde
  • Economia e Finanças
  • Física e Química
  • Ciência da Computação
  • Psicologia e Sociologia
  • Política e História
  • Matemática e Estatística

Cada pergunta possui uma resposta correta única e objetiva, eliminando ambiguidade na avaliação. Exemplos típicos incluem:

  • “Qual é a capital da Finlândia?”
  • “Qual a função da mitocôndria na célula?”
  • “Quem escreveu ‘O Contrato Social’?”

Esse formato permite medição precisa da acurácia dos modelos em conhecimento factual.

A Descoberta Que Mudou Tudo: Role Prompting Não Funciona Para Tarefas Objetivas

Os resultados do estudo foram claros e, para muitos, surpreendentes. O role prompting não apenas falhou em melhorar o desempenho dos modelos – em alguns casos, até o prejudicou.

Principais Conclusões

Ausência de melhoria geral: Inserir personas como “Você é um engenheiro especialista” não aumentou a acurácia das respostas em nenhum modelo testado.

Impacto negativo ocasional: Alguns modelos apresentaram desempenho inferior quando utilizaram role prompting comparado ao cenário de controle.

Consistência entre modelos: O padrão foi observado em todas as famílias testadas – LLaMA 3, Qwen 2.5, Mistral e FLAN-T5.

Fatores inexplicáveis: Análises de gênero, domínio, alinhamento semântico e perplexidade não conseguiram explicar as variações de desempenho.

“O efeito do persona parece ser aleatório em tarefas objetivas”, concluem os pesquisadores.

Até mesmo estratégias automáticas para escolher o “melhor papel” falharam consistentemente, frequentemente performando no nível do acaso.

O Que Isso Significa Para Tarefas Criativas e Interpretativas

Antes de descartar completamente o role prompting, é crucial entender uma limitação importante do estudo: ele avaliou exclusivamente tarefas objetivas com respostas únicas.

Tarefas Não Testadas

O estudo não examinou o impacto do role prompting em:

  • Escrita publicitária e copywriting
  • Criação de histórias e conteúdo narrativo
  • Coaching e mentoria personalizada
  • Atendimento ao cliente empático
  • Simulação de diálogos humanos realistas
  • Suporte técnico com estilo especializado
  • Análises subjetivas e interpretativas

Por Que Role Prompting Pode Funcionar em Tarefas Criativas

Em contextos criativos e interpretativos, a persona pode ser fundamental para:

Ajustar o estilo de resposta: Definindo tom formal, casual, técnico ou conversacional.

Moldar a estrutura argumentativa: Influenciando como as ideias são organizadas e apresentadas.

Definir o nível de formalidade: Adaptando a linguagem ao contexto e audiência.

Estabelecer expertise contextual: Trazendo perspectivas específicas de diferentes áreas.

Nesses casos, o role prompting funciona como direção para um ator – estabelecendo o “personagem” que a IA deve interpretar.

Como Aplicar Esse Conhecimento na Prática

Os insights do estudo têm implicações diretas para quem trabalha com inteligência artificial regularmente.

Para Perguntas Factuais: Seja Direto

Quando você precisa de informações objetivas, elimine personas desnecessárias:

Em vez de: “Você é um especialista em história. Qual foi a causa da Primeira Guerra Mundial?”

Use: “Qual foi a causa da Primeira Guerra Mundial?”

Em vez de: “Como um engenheiro experiente, explique como funciona um motor a combustão.”

Use: “Como funciona um motor a combustão?”

Para Outputs Criativos: Use Role Prompting Estrategicamente

Para tarefas criativas, trate o role prompting como “predefinição de comportamento”:

Para copywriting: “Você é um copywriter especializado em e-commerce que escreve de forma persuasiva e direta. Crie um email de vendas para…”

Para coaching: “Você é um mentor experiente que oferece conselhos práticos e encorajadores. Como você ajudaria alguém que…”

Para atendimento: “Você é um atendente empático e solucionador de problemas. Como responderia a um cliente que…”

Implicações Para o Futuro da Inteligência Artificial

Esta pesquisa levanta questões importantes sobre como otimizamos nossa interação com modelos de linguagem.

Eficiência em Prompting

O estudo sugere que muitos usuários podem estar desperdiçando tokens e tempo com personas desnecessárias em tarefas objetivas. Isso tem implicações para:

  • Custos de API: Menos tokens utilizados em prompts significa menores custos
  • Velocidade de resposta: Prompts mais diretos podem gerar respostas mais rápidas
  • Clareza de comunicação: Instruções simples podem ser mais eficazes

Direções Para Pesquisas Futuras

O estudo abre caminho para investigações mais específicas:

  • Avaliação sistemática do role prompting em tarefas criativas
  • Análise do impacto em diferentes tipos de conteúdo interpretativo
  • Desenvolvimento de frameworks para escolha estratégica de personas
  • Estudo de como diferentes culturas e contextos afetam a eficácia das personas

Conclusão: Repensando Nossas Estratégias de Prompting

O estudo “When ‘A Helpful Assistant’ Is Not Really Helpful” nos força a questionar práticas amplamente aceitas no uso de inteligência artificial.

Para tarefas objetivas e factuais, a evidência é clara: role prompting não oferece benefícios mensuráveis e pode até prejudicar o desempenho. A abordagem mais eficaz é ser direto e específico em suas perguntas.

Para tarefas criativas e interpretativas, o role prompting mantém seu valor como ferramenta para moldar estilo, tom e abordagem. A chave está em usá-lo estrategicamente, entendendo quando adiciona valor real versus quando é apenas ruído desnecessário.

A próxima vez que você interagir com uma IA, pare e pergunte: “Estou buscando uma resposta factual ou um output criativo?” Sua resposta deve determinar se você precisa ou não de uma persona.

O futuro da interação humano-IA está na precisão estratégica, não na complexidade desnecessária. Use esse conhecimento para tornar suas interações mais eficazes e seus resultados mais precisos.

Quer otimizar ainda mais suas interações com IA? Comece aplicando essas descobertas hoje mesmo. Para perguntas factuais, seja direto. Para tarefas criativas, use personas com propósito. A diferença nos resultados pode surpreender você.


Fonte: Zheng, M., Pei, J., Logeswaran, L., Lee, M., & Jurgens, D. (2023). “When ‘A Helpful Assistant’ Is Not Really Helpful: Personas in System Prompts Do Not Improve Performances of Large Language Models”. Disponível em: https://arxiv.org/abs/2311.10054

Inscrever-se
Notificar de
guest

Este site utiliza o Akismet para reduzir spam. Saiba como seus dados em comentários são processados.

0 Comentários
mais recentes
mais antigos Mais votado
Feedbacks embutidos
Ver todos os comentários