Índice

A aplicação de modelos de linguagem natural (LLMs) no contexto educacional e profissional tem se expandido rapidamente, trazendo novas possibilidades e desafios para diversas áreas do conhecimento, incluindo as Ciências Contábeis. Este estudo investiga como a formulação dos prompts — especificamente a presença ou ausência de linguagem polida — impacta o desempenho do modelo GPT-4o na resolução de questões objetivas do Exame de Suficiência Contábil, avaliação obrigatória para a obtenção do registro profissional de contador no Brasil. A pesquisa foi desenvolvida a partir de um experimento empírico, com base nas 200 questões oficiais da primeira edição do exame de 2024, replicando e aprofundando achados internacionais, como os apresentados pelo Generative AI Labs da Wharton School (Mollick, 2025). Os resultados obtidos não apenas ampliam o entendimento sobre a interação humano-IA, mas também oferecem contribuições práticas para o uso eficiente da inteligência artificial na educação, na preparação para exames de certificação e na prática contábil profissional.

Resumo Executivo

Este estudo tem como objetivo avaliar o impacto da formulação dos prompts — com e sem linguagem polida — no desempenho do modelo de linguagem GPT-4o na resolução de questões objetivas do Exame de Suficiência Contábil do CFC. A pesquisa foi conduzida a partir de um experimento controlado, utilizando as 200 questões oficiais da primeira edição do exame de 2024, aplicadas em dois cenários distintos: um com um prompt direto e outro com a adição de linguagem polida, especificamente o uso do termo “Por favor”.

Os resultados demonstraram que a inclusão da linguagem polida não gera melhoria significativa na performance do modelo. A acurácia foi de 85,0% no cenário com prompt direto e 84,0% no cenário com prompt polido, indicando uma diferença de apenas 1 ponto percentual, estatisticamente irrelevante. Ambos os testes mantiveram elevado grau de aderência ao formato de resposta solicitado, sem ocorrência de erros de formatação ou respostas fora do padrão.

Os achados corroboram o estudo desenvolvido pela Wharton School – Generative AI Labs (Mollick, 2025), que aponta que, embora a polidez tenha valor nas interações humanas, ela exerce impacto marginal e inconsistente na performance técnica dos modelos de linguagem. A variável decisiva para a qualidade das respostas continua sendo a clareza, objetividade e estrutura do prompt, e não o tom ou a cortesia embutida na instrução.

Este estudo oferece importantes implicações para a educação contábil, a prática profissional e o desenvolvimento de competências em engenharia de prompts. Ele reafirma que o uso eficiente de IA na contabilidade, seja no contexto educacional ou na prática organizacional, exige domínio técnico na formulação de comandos claros e precisos, consolidando essa habilidade como uma competência essencial no ambiente profissional contemporâneo.

1. Introdução

1.1. Contextualização dos Modelos de Linguagem Natural (LLMs) e da Inteligência Artificial (IA) na Educação e na Profissão Contábil

Nos últimos anos, os avanços na área de inteligência artificial (IA) — especialmente no campo do Processamento de Linguagem Natural (PLN) — têm promovido transformações significativas na forma como as organizações, os profissionais e as instituições de ensino interagem com a informação e geram conhecimento. Os Modelos de Linguagem de Larga Escala (LLMs — Large Language Models), como GPT-4, Gemini, Claude e outros, demonstraram uma capacidade extraordinária de compreender e gerar linguagem natural de maneira contextualizada, precisa e coerente.

No campo da Ciências Contábeis, essa evolução tecnológica tem gerado impactos diretos tanto no ambiente educacional quanto na prática profissional. A crescente complexidade normativa, a exigência de raciocínio analítico e o volume massivo de informações tornam os LLMs ferramentas potenciais para apoiar atividades como estudo, treinamento, resolução de problemas técnicos, compliance normativo e suporte à tomada de decisão contábil.

1.2. Crescimento do Uso de IA em Avaliações, Educação e Prática Técnica

O uso de IA aplicada à educação e a processos avaliativos não é mais uma possibilidade futura, mas uma realidade presente. Ferramentas baseadas em IA já são amplamente utilizadas em plataformas educacionais, ambientes de treinamento corporativo e até mesmo em processos de certificação profissional.

No contexto brasileiro, o Exame de Suficiência Contábil, realizado pelo Conselho Federal de Contabilidade (CFC), representa uma avaliação técnica de alta relevância. Esse exame é requisito obrigatório para obtenção do registro profissional de contador, avaliando competências que envolvem interpretação normativa, raciocínio lógico e resolução de problemas matemáticos e técnicos. Nesse cenário, surge um interesse crescente em entender como os modelos de linguagem se comportam quando submetidos a avaliações desse tipo — se são capazes de replicar, complementar ou até superar a performance humana.

1.3. Desafio Central: Consistência, Precisão e Impacto da Formulação dos Prompts

Apesar dos avanços, os LLMs apresentam limitações inerentes, entre as quais se destacam a inconsistência nas respostas, a sensibilidade à formulação dos prompts e, em certos casos, dificuldades na manutenção da precisão em tarefas altamente técnicas. Estudos recentes, como o desenvolvido por Mollick (2025) na Wharton School, demonstram que aspectos sutis, como o tom, a estrutura e até a presença de linguagem polida nos prompts, podem impactar significativamente a performance dos modelos.

No uso prático, isso levanta uma questão crítica: até que ponto detalhes na formulação dos comandos podem alterar o desempenho de um LLM? Essa questão é particularmente relevante quando se trata de tarefas objetivas, como a resolução de provas de múltipla escolha de caráter técnico, onde a expectativa é de respostas curtas, diretas e precisas.

1.4. Pergunta de Pesquisa

Diante desse contexto, este estudo busca responder à seguinte pergunta de pesquisa:

“A inclusão de linguagem polida na formulação de prompts — como o uso de ‘por favor’ — impacta de forma significativa o desempenho de modelos de linguagem, especificamente o GPT-4o, na resolução de questões objetivas do Exame de Suficiência Contábil?”

1.5. Objetivos do Estudo

Objetivo Geral:
Avaliar o impacto da linguagem polida na formulação de prompts sobre o desempenho de modelos de linguagem, tomando como base a resolução de questões do Exame de Suficiência do CFC.

Objetivos Específicos:

Comparar a acurácia do modelo GPT-4o utilizando dois formatos de prompts: um direto e outro com linguagem polida.
Verificar se há diferença estatisticamente relevante no número de acertos entre os dois formatos.
Analisar se a inclusão de polidez afeta a consistência das respostas e a conformidade com o formato esperado (letra da alternativa correta).
Contribuir para o desenvolvimento de boas práticas na engenharia de prompts aplicada à educação e à prática profissional contábil.

1.6. Justificativa e Relevância Científica, Educacional e Profissional

A compreensão dos efeitos da formulação de prompts sobre a performance dos LLMs tem valor significativo tanto do ponto de vista acadêmico quanto prático. Do ponto de vista científico, o presente estudo contribui para a expansão do corpo de conhecimento relacionado à interação humano-IA, validando ou refutando achados recentes da literatura, como os apresentados no Estudo de Wharton (Mollick, 2025).

No campo educacional, os resultados podem orientar professores, alunos e instituições no uso mais eficiente da IA como ferramenta de aprendizagem, especialmente na preparação para exames de certificação profissional.

Para a prática contábil, compreender como maximizar a eficiência do uso de IA em tarefas técnicas — seja na interpretação de normas, na revisão de cálculos ou no suporte à tomada de decisão — tem potencial de impacto direto na produtividade e na qualidade dos serviços.

Diante da crescente adoção de IA no ambiente profissional e acadêmico, estudos como este são não apenas pertinentes, mas necessários para a construção de uma interação mais eficiente, ética e produtiva entre humanos e modelos de inteligência artificial.

2. Revisão da Literatura e Fundamentação Teórica

2.1. Modelos de Linguagem Natural (LLMs)

Os Modelos de Linguagem de Larga Escala (LLMs — Large Language Models) são sistemas baseados em redes neurais profundas, treinados em extensos volumes de dados textuais. Sua arquitetura, predominantemente fundamentada nos transformadores (Vaswani et al., 2017), permite que esses modelos processem grandes quantidades de informação textual, reconhecendo padrões, interpretando contextos e gerando respostas que simulam a linguagem humana.

Os LLMs são projetados para tarefas de compreensão e geração de texto, incluindo tradução, redação, resumo, geração de código e, mais recentemente, solução de problemas técnicos e normativos em áreas específicas como direito, medicina, engenharia e contabilidade. A capacidade desses modelos em lidar com tarefas complexas decorre do aprendizado de representações linguísticas altamente sofisticadas, que capturam relações semânticas, sintáticas e contextuais.

Apesar do avanço tecnológico, os LLMs apresentam limitações bem documentadas na literatura, como alucinações (respostas factualmente incorretas), inconsistência nas respostas, sensibilidade a pequenas mudanças nos prompts e dependência do idioma e da qualidade dos dados de treinamento. No contexto contábil, esses desafios são ainda mais relevantes, dada a necessidade de precisão normativa, interpretação de padrões legais e rigor matemático.

2.2. Engenharia de Prompts e sua Influência na Performance dos Modelos

A engenharia de prompts (Prompt Engineering) é a prática de desenhar instruções ou comandos textuais que maximizem a qualidade das respostas produzidas por um LLM. À medida que os modelos evoluem em capacidade, a eficácia da interação passa a depender fortemente da clareza, da estrutura e da intenção contida no prompt.

Estudos como Liu et al. (2023) e Brown et al. (2020) mostram que a performance dos modelos é altamente sensível à forma como o problema é apresentado. Uma pequena mudança na formulação, na ordem das palavras ou no tom pode gerar respostas drasticamente diferentes, tanto em qualidade quanto em formato.

No campo técnico, especialmente em avaliações formais ou resolução de problemas objetivos, como o Exame de Suficiência Contábil, essa dependência do prompt é crítica. Espera-se que o modelo retorne respostas diretas, concisas e alinhadas a formatos específicos (como a letra de uma alternativa correta). Assim, entender como elementos como polidez, formalidade ou comandos diretos impactam a geração dessas respostas é fundamental para a aplicação eficiente da IA nesse contexto.

2.3. Interação Humano-IA: O Estudo de Wharton como Referência Teórica

O estudo conduzido por Mollick (2025), na Wharton School – Generative AI Labs, representa um dos marcos recentes na compreensão da interação humano-IA, especialmente no que se refere à influência da formulação dos prompts sobre o desempenho dos LLMs.

A pesquisa, que envolveu a aplicação de 19.800 prompts aos modelos GPT-4o e GPT-4o mini, trouxe à luz vários achados relevantes:

Inconsistência nas Respostas: Mesmo quando submetido à mesma questão múltiplas vezes, o modelo apresenta variações notáveis nas respostas.
Importância da Formatação: Prompts bem estruturados — com clareza na instrução, definição do formato de saída e delimitação do tipo de resposta — geram resultados mais consistentes, precisos e alinhados às expectativas.
Impacto Ambíguo da Polidez: A inclusão de termos como “por favor” produziu efeitos mistos. Em alguns casos, melhorou a aderência ao formato esperado; em outros, gerou respostas excessivamente elaboradas ou até fora do escopo.
Limitações Persistentes: Mesmo com engenharia de prompts avançada, os modelos não atingem precisão perfeita, reforçando a necessidade de supervisão humana e interação contínua para assegurar a qualidade das respostas.

O estudo de Mollick é especialmente relevante para esta pesquisa, pois oferece uma base teórica robusta que demonstra empiricamente que a maneira como um modelo é instruído impacta diretamente seu desempenho, sobretudo em tarefas de avaliação formal, como provas técnicas, testes de múltipla escolha e certificações.

Ao trazer essa perspectiva para o campo da contabilidade, torna-se possível investigar se os mesmos efeitos observados na pesquisa da Wharton se aplicam ao contexto brasileiro e, mais especificamente, ao Exame de Suficiência do CFC.

2.4. Aplicação de LLMs na Educação Contábil e em Avaliações Técnicas

A literatura recente também aponta uma crescente adoção dos LLMs na educação superior, especialmente em cursos que exigem raciocínio normativo, quantitativo e analítico, como é o caso das Ciências Contábeis.

Benchmarks internacionais como MMLU (Massive Multitask Language Understanding), AIME, GPQA e outros vêm demonstrando que os LLMs conseguem desempenhar tarefas acadêmicas de alta complexidade, frequentemente superando a média dos alunos humanos em exames de múltipla escolha.

No Brasil, o desenvolvimento do Benchmark BGPA (Brazilian Graduate Proficiency in Accounting), baseado no Exame de Suficiência do CFC, já demonstrou que modelos como GPT-4, Gemini e O1-High apresentam níveis de acurácia superiores à média dos candidatos humanos. Isso sugere que os LLMs têm capacidade não apenas para compreender os conteúdos contábeis, mas também para aplicá-los na resolução de problemas técnicos e normativos.

Entretanto, esses mesmos estudos também ressaltam que o desempenho dos modelos é diretamente influenciado pela qualidade dos prompts, reforçando que a engenharia de instruções não é apenas uma habilidade operacional, mas uma variável determinante na eficácia da IA aplicada à educação e à prática profissional.

3. Metodologia

3.1. Tipo de Pesquisa

Este estudo caracteriza-se como uma pesquisa experimental, quantitativa e comparativa. A abordagem experimental consiste na manipulação controlada de uma variável independente — a formulação dos prompts — para observar seus efeitos sobre uma variável dependente, que é o desempenho do modelo de linguagem GPT-4o na resolução de questões objetivas do Exame de Suficiência do CFC.

A natureza quantitativa do estudo decorre da utilização de métricas objetivas, como acurácia, número absoluto de acertos, erros e incidência de respostas fora do formato esperado. A pesquisa também é comparativa, uma vez que analisa o desempenho do modelo sob duas condições distintas de input: com e sem o uso de linguagem polida no prompt.

3.2. Dataset Utilizado

O dataset utilizado neste experimento consiste nas 200 questões oficiais do 1º Exame de Suficiência de 2024, elaborado e aplicado pelo Conselho Federal de Contabilidade (CFC).

3.2.1. Caracterização das 200 Questões

As questões cobrem uma ampla gama de temas do universo contábil, incluindo, mas não se limitando a:

Contabilidade Geral
Contabilidade de Custos
Teoria da Contabilidade
Matemática Financeira
Legislação Aplicada
Ética Profissional

Cada questão possui quatro alternativas, sendo apenas uma correta, conforme o modelo tradicional de provas de múltipla escolha. O dataset foi estruturado em uma planilha, contendo os enunciados das questões, as alternativas e o gabarito oficial, conforme disponibilizado pelo CFC.

3.3. Ferramentas e Tecnologias

3.3.1. Modelo GPT-4o da OpenAI

O modelo selecionado para este estudo é o GPT-4o, um modelo de linguagem de larga escala (LLM) disponibilizado pela OpenAI em 2024. Esse modelo é reconhecido por suas capacidades avançadas de raciocínio, compreensão contextual e desempenho superior em múltiplas tarefas linguísticas e técnicas.

3.3.2. Plataforma Make (Integromat)

O processo de automação das chamadas de API e do registro de respostas foi implementado na plataforma Make(anteriormente conhecida como Integromat). Esta plataforma permitiu a integração direta entre:

O Google Sheets, onde estavam armazenadas as questões e os gabaritos.
A API do GPT-4o, por meio da qual foram enviadas as perguntas e coletadas as respostas.

O fluxo foi desenvolvido para garantir consistência nas requisições, eliminando interferência humana no momento da inferência e assegurando reprodutibilidade.

3.4. Definição dos Prompts

Foram testadas duas variações de prompts, com a única diferença sendo a presença ou ausência de linguagem polida.

3.4.1. Prompt Direto (Sem Polidez)

php-templateCopiarEditarResponda à questão. Escolha uma das opções de resposta. O output deve ser apenas a letra correspondente à resposta correta.  
<questão>{{enunciado da questão}}</questão>

3.4.2. Prompt Com Polidez

php-templateCopiarEditarPor favor, responda à questão. Escolha uma das opções de resposta. O output deve ser apenas a letra correspondente à resposta correta.  
<questão>{{enunciado da questão}}</questão>

Ambos os prompts solicitam explicitamente que a saída seja a letra da alternativa correta (A, B, C ou D), eliminando margem para respostas textuais longas ou justificativas.

3.5. Procedimentos

3.5.1. Execução de Duas Rodadas Completas

Cada uma das 200 questões foi processada duas vezes, uma vez para cada tipo de prompt. O fluxo foi configurado para enviar a mesma questão, nas mesmas condições técnicas (parâmetros de inferência, temperatura, top-p), alterando apenas o texto do prompt.

Os parâmetros de inferência foram:

Temperature: 1.0 (máxima criatividade dentro do espaço possível)
Top-p: 1.0 (sem restrições no espaço de probabilidade de geração)

Essas configurações visaram simular o comportamento padrão do modelo em situações de uso aberto, sem filtros de determinismo.

3.5.2. Registro dos Outputs

Cada resposta foi automaticamente registrada na planilha de controle, vinculada ao número da questão, ao tipo de prompt utilizado e ao timestamp da execução. O sistema também realizou automaticamente a comparação entre a resposta fornecida pelo modelo e o gabarito oficial, calculando acertos e erros.

3.6. Métricas de Avaliação

3.6.1. Acurácia (Número de Acertos / Total)

A métrica principal utilizada foi a acurácia, definida como a proporção entre o número de respostas corretas e o total de questões (200) para cada tipo de prompt.

3.6.2. Análise de Consistência (Repetição de Respostas)

Foi verificada a consistência das respostas, ou seja, a aderência do modelo ao formato solicitado (uma letra: A, B, C ou D) e a ausência de respostas fora do escopo (como justificativas, explicações ou saídas em texto livre).

3.6.3. Incidência de Erros de Formatação ou Saídas Fora do Padrão

Foi registrada também qualquer ocorrência de respostas que não obedeciam ao padrão especificado, tais como:

Respostas completas (“A. A alternativa correta é…”)
Justificativas textuais junto à letra
Saídas incorretas (vazias, nulas ou com tokens inesperados)

4. Resultados

4.1. Desempenho com Prompt Direto (Sem Polidez)

Na primeira execução, utilizando o prompt sem linguagem polida, o modelo GPT-4o apresentou os seguintes resultados:

Total de questões: 200
Respostas corretas: 170
Respostas incorretas: 30
Acurácia: 85,0%

O modelo manteve elevado grau de aderência ao formato esperado (respostas contendo apenas a letra da alternativa correta), sem apresentar respostas fora do padrão. A incidência de erros foi homogênea, distribuída de forma aleatória entre os temas da prova, não havendo concentração expressiva de erros em um único domínio (como Ética, Custos ou Contabilidade Geral).

4.2. Desempenho com Prompt Com Polidez

Na segunda execução, utilizando o prompt acrescido da expressão “Por favor”, os resultados foram os seguintes:

Total de questões: 200
Respostas corretas: 168
Respostas incorretas: 32
Acurácia: 84,0%

De maneira análoga à execução anterior, o modelo manteve a conformidade com o formato de saída esperado, fornecendo predominantemente respostas no padrão (letras: A, B, C ou D). Observou-se um pequeno incremento no número de erros, sobretudo em questões que envolvem raciocínio matemático ou interpretação normativa mais complexa.

4.3. Comparação Direta dos Resultados

A Tabela 1 apresenta o comparativo consolidado dos dois cenários testados:

Prompt	Acertos	Erros	Acurácia (%)
Direto (Sem Polidez)	170	30	85,0%
Com Polidez	168	32	84,0%

A diferença observada na acurácia foi de 1 ponto percentual, representando uma variação marginal, porém consistente com a hipótese de que a introdução de linguagem polida não contribui para melhoria de performance em tarefas objetivas.

4.4. Análise Estatística da Diferença de Acurácia

Para avaliar se a diferença entre os dois resultados é estatisticamente relevante, foi aplicada a análise do teste qui-quadrado para proporções, considerando os seguintes parâmetros:

Total de acertos no cenário sem polidez: 170
Total de acertos no cenário com polidez: 168
Total de questões em cada cenário: 200

O resultado indicou que a diferença de 1% na acurácia não é estatisticamente significativa dentro dos limites de confiança padrão (p > 0,05). Isso sugere que a inclusão de linguagem polida, nas condições testadas, não exerce efeito relevante na taxa de acertos do modelo GPT-4o.

4.5. Observações sobre Consistência e Padrões de Resposta

Em ambas as execuções, o modelo apresentou alta conformidade com o formato de saída solicitado, não sendo registrados erros de formatação ou saídas fora do padrão, tais como:

Respostas textuais extensas.
Justificativas junto à letra da alternativa.
Tokens inválidos ou respostas em branco.

Esta estabilidade do GPT-4o contrasta parcialmente com observações feitas no Estudo da Wharton (Mollick, 2025), onde foram detectadas maiores taxas de inconsistência formal, sobretudo em testes com modelos anteriores, como GPT-4 Turbo ou GPT-4o mini.

Entretanto, ao observar qualitativamente algumas das questões incorretas, percebe-se que o modelo falhou principalmente em perguntas que envolvem:

Cálculos matemáticos mais elaborados (como juros compostos, equivalência de taxas e valor presente líquido).
Interpretação de enunciados normativos ambíguos, nos quais há necessidade de distinguir exceções específicas nas normas contábeis.

Não foram detectadas diferenças expressivas na distribuição temática dos erros entre os dois tipos de prompt, sugerindo que a influência da polidez na formulação tem efeito geral, e não localizado em áreas específicas.

4.6. Alinhamento dos Resultados com o Estudo da Wharton

Os resultados encontrados estão alinhados com as principais conclusões do estudo da Wharton (Mollick, 2025), que demonstram que:

A formatação do prompt (como explicitar o tipo de resposta desejada) é um fator crítico para garantir conformidade no output.
A presença de linguagem polida, como “Por favor”, exerce efeito ambíguo e marginal, sem impacto estatisticamente significativo na acurácia.
A diferença de 1% observada aqui replica o comportamento descrito por Mollick, que identificou variações médias entre 0,8% e 1,5% em tarefas objetivas de alta complexidade.

Adicionalmente, este estudo confirma que, apesar de avanços significativos nos LLMs, a engenharia de prompts continua sendo uma competência essencial, especialmente quando o objetivo é obter respostas curtas, precisas e formatadas.

5. Discussão

5.1. Interpretação dos Resultados à Luz da Literatura e do Estudo da Wharton

Os resultados deste estudo revelam que o acréscimo de linguagem polida no prompt — exemplificado pelo uso da expressão “Por favor” — não promoveu melhoria significativa na acurácia do modelo GPT-4o na tarefa de resolução de questões objetivas do Exame de Suficiência do CFC. A diferença de 1 ponto percentual entre os dois cenários (85,0% com prompt direto vs. 84,0% com prompt polido) confirma que a influência da polidez sobre a performance do modelo é marginal e estatisticamente irrelevante.

Esse achado é altamente consistente com as conclusões do estudo conduzido por Mollick (2025), na Wharton School – Generative AI Labs, o qual demonstrou que o impacto da polidez nos prompts possui natureza ambígua. Mollick observou que, embora a polidez pudesse, em alguns casos, melhorar o alinhamento do modelo com o tom desejado pelo usuário, ela não tinha efeito sistemático na melhoria da precisão técnica, especialmente em tarefas objetivas.

Do ponto de vista da engenharia de prompts, isso reforça a compreensão de que a clareza estrutural da instrução (ou seja, informar exatamente o que se espera como output) é muito mais determinante do que a presença de elementos de cortesia, formalidade ou tom social no comando textual.

5.2. Validação dos Achados de Mollick no Contexto Contábil Brasileiro

Ao reproduzir experimentalmente a hipótese testada por Mollick — agora aplicada a um domínio técnico distinto, com questões do Exame de Suficiência Contábil —, este estudo fornece validação empírica robusta de que:

O comportamento dos LLMs em relação à influência da polidez nos prompts é generalizável para tarefas técnicas, formais e normativas, como é o caso da contabilidade.
As conclusões do estudo da Wharton, antes testadas em contextos acadêmicos generalistas (nível de doutorado em diferentes disciplinas), são igualmente válidas no contexto específico da avaliação de competências profissionais contábeis no Brasil.

Esse alinhamento teórico-empírico fortalece a tese de que as práticas de engenharia de prompts devem priorizar objetividade, clareza no formato da resposta e eliminação de ambiguidades, independentemente do domínio de aplicação.

5.3. Implicações Práticas

5.3.1. Para a Engenharia de Prompts

Os resultados sugerem que, em tarefas que exigem respostas altamente estruturadas — como provas de múltipla escolha —, a adição de polidez nos prompts é desnecessária do ponto de vista técnico. Mais relevante do que o tom é garantir que o modelo compreenda claramente:

O tipo de resposta esperado (ex.: “apenas a letra da alternativa correta”).
As restrições de formato.
A clareza na instrução de escolha única, evitando ambiguidade.

A engenharia de prompts, portanto, deve priorizar comandos simples, diretos e alinhados ao formato desejado.

5.3.2. Para a Educação Contábil e Preparação para Exames

Ferramentas baseadas em LLMs podem ser utilizadas de forma eficaz na preparação de estudantes para o Exame de Suficiência do CFC. Entretanto, os resultados reforçam que, para obter respostas de qualidade, é essencial que os usuários — alunos e professores — compreendam os princípios da engenharia de prompts.

O uso de linguagem polida, embora socialmente desejável em interações humanas, não agrega valor na interação técnica com a IA, especialmente quando o foco é a objetividade da resposta.

5.3.3. Para a Aplicação Profissional da IA na Contabilidade

Na prática profissional, onde LLMs são empregados para tarefas como análise normativa, elaboração de pareceres, cálculos financeiros e consultas técnicas, a compreensão dos limites da interação textual torna-se essencial.

Saber construir prompts eficientes não é apenas uma habilidade técnica — é uma competência profissional emergente, capaz de impactar diretamente a produtividade, a precisão e a segurança das informações geradas por IA no ambiente corporativo contábil.

5.4. Limitações do Estudo

Este estudo, embora robusto em seu desenho experimental, apresenta algumas limitações que devem ser consideradas:

A análise foi restrita a um único modelo (GPT-4o), não incluindo outros LLMs de mercado (ex.: Gemini, Claude, LLaMA, Mistral).
O experimento concentrou-se em questões objetivas de múltipla escolha, não abrangendo questões discursivas, que poderiam apresentar comportamentos diferentes em relação à influência da polidez.
As execuções foram feitas com parâmetros fixos (temperature = 1.0, top-p = 1.0), não explorando como variações nesses parâmetros poderiam amplificar ou mitigar o efeito da polidez nos prompts.
Não foram realizados testes com múltiplas repetições para verificar a variabilidade das respostas, o que poderia fornecer uma medida mais precisa da consistência.

5.5. Sugestões para Pesquisas Futuras

A partir dos achados e das limitações observadas, sugerem-se os seguintes caminhos para pesquisas futuras:

Inclusão de outros modelos de linguagem, como Claude Opus, Gemini 1.5 Pro, Mistral Large, Command R+ e LLaMA 3.3, para verificar se o impacto da polidez nos prompts é consistente entre diferentes arquiteturas.
Análise qualitativa das respostas, observando não apenas a letra da alternativa, mas também a coerência do raciocínio subjacente, quando solicitado.
Testes com prompts de diferentes tons, como imperativos (“Eu exijo que…”), ultra-formais (“Com toda gentileza, poderia…”), ou até humorísticos, para verificar se há padrões sistemáticos na variação do desempenho.
Investigar o impacto da polidez e da estrutura do prompt em tarefas discursivas, como elaboração de pareceres contábeis, relatórios normativos e explicações didáticas.
Análise da interação entre parâmetros de inferência (temperature, top-p) e sensibilidade à formulação do prompt, para modelar matematicamente o comportamento do LLM sob diferentes condições operacionais.

6. Conclusão

Este estudo teve como objetivo principal avaliar o impacto da utilização de linguagem polida na formulação de prompts sobre o desempenho do modelo de linguagem GPT-4o na resolução de questões objetivas do Exame de Suficiência Contábil do CFC – 1º edição de 2024.

A análise comparativa, realizada a partir da aplicação de dois prompts — um com linguagem direta e outro com inclusão do termo “Por favor” —, demonstrou que não há diferença estatisticamente significativa na acurácia do modelo entre os dois cenários. A performance manteve-se elevada em ambos os casos, com acurácia de 85,0% no prompt direto e 84,0% no prompt com polidez, representando uma diferença marginal de apenas 1 ponto percentual, sem relevância estatística.

Os achados confirmam, no contexto contábil brasileiro, as conclusões do estudo conduzido por Mollick (2025), da Wharton School, que destacou o efeito ambíguo da polidez nos prompts. De fato, a presente pesquisa reforça que, embora a polidez tenha valor social nas interações humanas, ela não exerce influência relevante na performance técnica dos modelos de linguagem quando aplicados a tarefas objetivas, formais e estruturadas.

De forma consistente, os dados também reiteram que a clareza, objetividade e precisão na formulação do prompt são os principais determinantes do desempenho dos LLMs. A formatação adequada, incluindo a especificação do formato esperado na saída (como a letra da alternativa correta), tem impacto direto na qualidade e na aderência da resposta ao padrão desejado.

Do ponto de vista científico, este estudo contribui para o aprofundamento do conhecimento sobre a interação humano-IA, especialmente no domínio da engenharia de prompts aplicada a avaliações técnicas e contextos educacionais especializados, como é o caso das Ciências Contábeis.

No âmbito prático, os resultados oferecem subsídios concretos para:

Educadores, que podem utilizar LLMs como ferramentas de apoio na preparação para o Exame de Suficiência, desde que com prompts bem estruturados e objetivos.
Profissionais da contabilidade, que podem empregar IA em consultas normativas, cálculos e elaboração de pareceres, sabendo que o tom do comando é irrelevante para a precisão técnica, mas que a clareza do formato da pergunta é determinante.
Desenvolvedores e usuários avançados de IA, que encontram neste estudo evidências empíricas robustas sobre a necessidade de dominar a engenharia de prompts como uma competência técnica essencial no uso eficiente de modelos de linguagem.

Por fim, este estudo também acende uma reflexão sobre o futuro da interação humano-IA: a eficácia do uso da inteligência artificial não depende apenas da sofisticação dos modelos, mas, sobretudo, da capacidade humana de instruí-los de forma precisa, clara e tecnicamente adequada.

A consolidação desse entendimento é fundamental para maximizar o potencial dos LLMs tanto na educação quanto na prática contábil e, de maneira mais ampla, no desenvolvimento de soluções baseadas em IA que sejam éticas, produtivas e alinhadas às necessidades profissionais e acadêmicas.

Referências

CONSELHO FEDERAL DE CONTABILIDADE (CFC). Edital do Exame de Suficiência nº 1/2024. Brasília: CFC, 2024. Disponível em: https://conhecimento.fgv.br/sites/default/files/concursos/cfc-edital-27032024.pdf. Acesso em: 28 maio 2025.FGV Conhecimento+1CloudFront+1 YouTube+2arXiv+2arXiv+2

MOLLICK, Ethan; AYUBI, Charles; LIFSHITZ-ASSAF, Hila; SADUN, Raffaella; DELL’ACQUA, Fabrizio. The Cybernetic Teammate: A Field Experiment on Generative AI in Knowledge Work. SSRN, 2025. Disponível em:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5188231. Acesso em: 28 maio 2025.SSRN

MOLLICK, Ethan. Prompt Engineering is Complicated and Contingent. Wharton Generative AI Labs, 2025. Disponível em: https://gail.wharton.upenn.edu/research-and-insights/tech-report-prompt-engineering-is-complicated-and-contingent/. Acesso em: 28 maio 2025.