Índice

TL;DR: A pesquisa investiga se a polidez em prompts (uso de “por favor”) afeta o desempenho do GPT-4o em questões do Exame de Suficiência Contábil. Os resultados mostraram que a diferença na acurácia entre prompts diretos e polidos foi marginal, indicando que a clareza e objetividade são mais importantes. O estudo corrobora achados anteriores de que a polidez não se traduz em melhor desempenho técnico em LLMs.

Takeaways:

A inclusão de termos de polidez em prompts tem um impacto mínimo na acurácia do GPT-4o em questões objetivas do Exame de Suficiência Contábil.
A clareza e objetividade na formulação dos prompts são mais determinantes para o desempenho do modelo do que a inclusão de termos de cortesia.
A engenharia de prompts deve priorizar a simplicidade e precisão das instruções, especialmente em contextos de alta exigência técnica.
Os resultados reforçam a importância de avaliar criticamente quais elementos da linguagem realmente contribuem para a melhoria da interação com LLMs.
O estudo está alinhado com pesquisas anteriores, como o estudo da Wharton, que também apontam para efeitos ambíguos da polidez em LLMs.

Impacto da Polidez na Performance de LLMs em Questões do Exame de Suficiência Contábil

Introdução

O avanço dos modelos de linguagem natural (LLMs) tem revolucionado tanto a educação quanto a prática profissional, permitindo que ferramentas baseadas em inteligência artificial auxiliem na interpretação de normas, resolução de problemas técnicos e até na preparação para exames de alta exigência, como o Exame de Suficiência Contábil. Estudos recentes demonstram que esses sistemas podem complementar o trabalho humano e oferecer novos métodos de aprendizagem e análise, ampliando as fronteiras do conhecimento em áreas especializadas. Essa transformação tecnológica ocorre em um contexto de crescente complexidade normativa, onde a precisão e a consistência são essenciais para a qualidade das respostas geradas.

Neste cenário, a pesquisa que se apresenta investiga o impacto da formulação dos prompts – se com ou sem linguagem polida – no desempenho do modelo GPT-4o em questões objetivas do Exame de Suficiência Contábil. O estudo compara, de forma experimental e quantitativa, a acurácia dos modelos quando submetidos a comandos diretos e àqueles que incluem termos de cortesia, como “por favor”. Dessa forma, busca-se esclarecer se a polidez na comunicação pode alterar efetivamente os resultados em contextos de avaliação formal.

A importância dessa investigação reside na possibilidade de aprimorar as práticas de engenharia de prompts, orientando tanto educadores quanto profissionais na utilização otimizada das ferramentas baseadas em LLMs. Ao compreender melhor como pequenas variações na linguagem influenciam o desempenho dos modelos, é possível desenvolver diretrizes que maximizem a eficiência e a precisão das respostas. Assim, o estudo contribui para a consolidação de boas práticas no uso da inteligência artificial na educação e na contabilidade.

Introdução ao Uso de LLMs na Educação e na Contabilidade

Os modelos de linguagem natural, como o GPT-4o, têm se mostrado uma ferramenta inovadora no campo educacional e na prática contábil, oferecendo suporte na resolução de problemas técnicos e na interpretação de normativas complexas. Essa tecnologia permite que tanto estudantes quanto profissionais tenham acesso a análises detalhadas e respostas estruturadas, facilitando a compreensão de conteúdos que exigem rigor e precisão. A integração entre IA e contabilidade tem, assim, potencial para transformar processos de aprendizagem e aumentar a produtividade no cumprimento das exigências normativas.

No contexto do Exame de Suficiência Contábil, requisito indispensável para a atuação profissional, a utilização dos LLMs ganha destaque por sua capacidade de replicar respostas objetivas e, em alguns casos, superar o desempenho humano. A crescente complexidade das normas contábeis torna esses modelos aliados poderosos no auxílio à preparação para avaliações, proporcionando feedback e exemplificações que enriquecem o processo educativo. Essa abordagem inovadora vem despertando o interesse tanto de instituições acadêmicas quanto de órgãos reguladores, que buscam na tecnologia uma forma de aprimorar a formação dos profissionais.

Além disso, a aplicação de LLMs na contabilidade oferece uma nova perspectiva sobre a interação entre tecnologia e ensino, onde o uso da inteligência artificial complementa os métodos tradicionais de estudo. A capacidade desses modelos de lidar com questões normativas e técnicas evidencia o potencial de integração entre aprendizado automatizado e processos avaliativos formais. Dessa forma, a educação contábil se beneficia da expertise dos LLMs, que contribuem para o desenvolvimento de competências modernas e a adaptação aos desafios de um mercado em constante evolução.

Desafio da Consistência e Precisão dos Prompts

Apesar do seu potencial, os LLMs ainda enfrentam desafios relacionados à consistência e precisão das respostas quando submetidos a comandos formulados de maneiras distintas. A sensibilidade à forma como os prompts são estruturados pode gerar variações significativas nos resultados, evidenciando que pequenos detalhes na linguagem influenciam a performance do modelo. Essa questão torna-se ainda mais relevante em contextos de avaliação, onde a precisão e a objetividade são critérios essenciais.

Detalhes como o tom utilizado, a ordem dos elementos e a inclusão de termos de cortesia, por exemplo, podem alterar a interpretação do comando pelo modelo. Estudos apontam que a variação entre um prompt direto e um prompt com linguagem polida – que inclui expressões como “por favor” – pode resultar em respostas divergentes, mesmo que a tarefa solicitada seja a mesma. Essa sensibilidade ressalta a importância de se compreender minuciosamente o impacto da redação dos comandos para se obter resultados consistentes e confiáveis.

Como parte dos achados da pesquisa, foi constatado que a inclusão de polidez nos prompts produz efeitos ambíguos: “Impacto Ambíguo da Polidez: A inclusão de termos como ‘por favor’ produziu efeitos mistos” (Mollick, 2025). Esses resultados evidenciam que, embora a intenção de humanizar o comando seja positiva, a eficácia na obtenção de respostas precisas depende mais da clareza e objetividade do que do tom utilizado. Assim, torna-se fundamental investigar como refinar a engenharia de prompts para mitigar as variações indesejadas na performance dos LLMs.

Objetivos e Justificativa do Estudo

A pesquisa tem como objetivo principal avaliar se a inclusão de linguagem polida na formulação de prompts modifica de maneira relevante o desempenho do GPT-4o na resolução de questões objetivas do Exame de Suficiência Contábil. Esse enfoque visa comparar a acurácia dos modelos quando expostos a comandos diretos versus aqueles que incorporam termos de cortesia, permitindo uma análise detalhada dos efeitos dessa variação. Dessa forma, o estudo contribui para identificar práticas que possam otimizar a interação entre usuário e modelo em contextos exigentes.

A justificativa para essa investigação está fundamentada na necessidade de aprimorar os processos de engenharia de prompts em áreas técnicas e normativas. Considerando que os LLMs vêm sendo empregados em avaliações e projetos profissionais, a clareza e consistência dos comandos se tornam elementos críticos para o sucesso da interação. Assim, ao comparar diferentes abordagens de formulação dos prompts, a pesquisa busca oferecer insights que possam orientar tanto a aplicação prática quanto o desenvolvimento acadêmico de metodologias inovadoras no uso da IA.

Além disso, os resultados esperados têm o potencial de impactar diretamente a forma como a inteligência artificial é integrada no ambiente educacional e contábil. Ao demonstrar que a polidez na comunicação pode ter efeitos marginais na performance dos modelos, o estudo reforça a importância de focar em comandos diretos e objetivos. Essa contribuição é especialmente relevante para a elaboração de diretrizes e boas práticas no uso de LLMs em contextos que exigem excelência técnica e precisão normativa.

Modelos de Linguagem Natural e Engenharia de Prompts

Os LLMs fundamentam-se em arquiteturas de redes neurais profundas e são treinados com enormes volumes de dados textuais, o que lhes permite compreender contextos complexos e gerar respostas em linguagem natural com alto grau de sofisticação. Essa capacidade de processamento de linguagem faz com que os modelos sejam aplicáveis em diversas áreas, desde a educação até a elaboração de pareceres técnicos. No entanto, o sucesso na utilização desses sistemas depende, em grande parte, da forma como as instruções são fornecidas.

A engenharia de prompts surge como uma prática crucial para a maximização da qualidade das respostas dos LLMs, exigindo uma cuidadosa elaboração dos comandos que serão interpretados pelo modelo. Pequenas modificações na redação – como a escolha entre um tom direto ou uma abordagem polida – podem levar a variações significativas nos resultados, demonstrando que a arte de construir prompts é tanto uma ciência quanto uma técnica. Essa sensibilidade reforça a necessidade de se estabelecer diretrizes claras que auxiliem na obtenção de respostas consistentes e tecnicamente precisas.

Para ilustrar essa importância, pode-se comparar dois exemplos práticos utilizados na pesquisa. No prompt direto, a instrução é:
“Responda à questão. Escolha uma das opções de resposta. O output deve ser apenas a letra correspondente à resposta correta. {{enunciado da questão}}.”
Já no prompt com linguagem polida, a formulação é:
“Por favor, responda à questão. Escolha uma das opções de resposta. O output deve ser apenas a letra correspondente à resposta correta. {{enunciado da questão}}.”
Esses exemplos demonstram que, embora a diferença possa parecer sutil, a forma do comando pode afetar a interpretação e a resposta do modelo.

Estudo de Wharton como Referência Teórica

O estudo realizado na Wharton School, conduzido por Mollick (2025), estabeleceu um marco na compreensão da interação entre seres humanos e LLMs, especialmente no que se refere à engenharia de prompts. A pesquisa envolveu a aplicação de 19.800 prompts em diferentes configurações, possibilitando uma análise detalhada dos impactos da formulação das instruções na performance dos modelos. Essa investigação forneceu dados robustos que servem de referência para estudos subsequentes em diversos campos, inclusive na contabilidade.

Uma das principais descobertas apontadas pelo estudo de Wharton foi que a inclusão de termos polidos, como “por favor”, gera efeitos ambíguos na resposta dos modelos. Essa constatação ressalta a necessidade de se ponderar a importância de um tom adequado versus a clareza e objetividade do comando. Ao demonstrar que a resposta dos LLMs pode variar significativamente com pequenas mudanças na linguagem, o estudo reforça a relevância da supervisão humana na formulação dos prompts para tarefas de alta complexidade.

Uma citação técnica ilustra bem essa ideia:
“Os resultados deste estudo revelam que o acréscimo de linguagem polida no prompt — exemplificado pelo uso da expressão ‘Por favor’ — não promoveu melhoria significativa na acurácia do modelo GPT-4o.” (Roberto Dias Duarte, 2025).
Essa observação, juntamente com os dados quantitativos obtidos, reforça a necessidade de priorizar a objetividade e a clareza nas instruções, servindo de alicerce teórico para a presente pesquisa no contexto contábil brasileiro.

Metodologia da Pesquisa

A pesquisa foi conduzida com base em um delineamento experimental, quantitativo e comparativo, utilizando como base as 200 questões oficiais do 1º Exame de Suficiência de 2024, organizadas pelo Conselho Federal de Contabilidade (CFC). Esse conjunto de questões abrangeu uma ampla gama de temas técnicos e normativos, permitindo uma análise robusta dos efeitos das diferentes formulações dos prompts sobre o desempenho do modelo. A escolha metodológica visa garantir a reprodutibilidade e a clareza nos resultados obtidos.

O modelo GPT-4o foi submetido a duas condições experimentais distintas: uma utilizando um prompt direto e outra que incorporava linguagem polida, com a inserção do termo “Por favor”. A plataforma Make (Integromat) automatizou as chamadas de API e o registro das respostas, possibilitando um controle rigoroso dos parâmetros de inferência e garantindo a conformidade dos resultados. Essa padronização permitiu a comparação objetiva entre as duas abordagens, reforçando a validade dos achados.

Os resultados práticos evidenciaram que o prompt direto resultou em 170 respostas corretas de um total de 200, correspondendo a uma acurácia de 85,0%, enquanto o prompt com polidez obteve 168 acertos, representando 84,0%. Esse dado, que revela uma diferença marginal de apenas 1 ponto percentual entre as duas abordagens, corrobora a hipótese de que a formulação dos prompts, quando se trata apenas da inclusão de polidez, não altera de forma significativa a performance do modelo em tarefas objetivas.

Resultados e Discussão

Os experimentos realizados indicaram que a variação na fórmula dos prompts – especificamente a inserção de termos de cortesia – resultou em uma diferença marginal na acurácia do GPT-4o, com a abordagem direta alcançando 85,0% e a abordagem polida 84,0%. Esse resultado evidencia que, embora a inclusão do “Por favor” altere a estrutura da solicitação, seu impacto prático na performance do modelo é mínimo. A constatação reforça a importância de avaliar criticamente quais elementos da linguagem realmente podem contribuir para a melhoria da interação com os LLMs.

A discussão dos resultados aponta que, mesmo com a variação na formatação dos prompts, o modelo demonstrou alta conformidade com o formato de saída esperado, mantendo a consistência nas respostas. Essa observação está em consonância com os achados do estudo da Wharton, onde se constatou que a clareza e a objetividade dos comandos são mais determinantes para a eficácia do modelo do que a inclusão de elementos polidos desnecessários. Em termos práticos, os dados sugerem que a engenharia de prompts deve priorizar a simplicidade e a precisão das instruções.

Adicionalmente, a análise dos resultados reforça a ideia de que, em contextos de alta exigência técnica como o Exame de Suficiência Contábil, a complexidade do prompt não se traduz em melhor desempenho. O comparativo entre os dois tipos de prompt demonstra que a mudança no tom de comunicação é superficial quanto à influência na acurácia, evidenciando que a estratégia mais eficaz consiste em comandos diretos e claramente estruturados. Essa conclusão tem implicações relevantes para a aplicação prática dos LLMs em processos avaliativos e na rotina profissional.

Conclusão

O estudo demonstrou que a inclusão de linguagem polida na formulação de prompts, ao utilizar expressões como “Por favor”, não proporcionou uma melhoria significativa na acurácia do modelo GPT-4o no cenário do Exame de Suficiência Contábil. Os resultados, com uma diferença de apenas 1 ponto percentual entre as abordagens direta e polida, reforçam a ideia de que o essencial para a performance dos LLMs reside na clareza e objetividade dos comandos. Dessa forma, a polidez, embora socialmente desejável, não se traduz em vantagens técnicas nesse contexto.

Em consonância com o referencial teórico proveniente do estudo da Wharton School, os dados apontam para a necessidade de priorizar a simplicidade e a precisão na engenharia de prompts. A clareza na redação dos comandos permite que os modelos atinjam resultados consistentes, mesmo em tarefas que exigem alta conformidade com padrões técnicos e normativos. Tal constatação orienta tanto a pesquisa acadêmica quanto a prática profissional a focarem em diretrizes que maximizem a eficácia das interações com sistemas de IA.

Por fim, a pesquisa abre caminho para estudos futuros que poderão explorar outros aspectos da formulação dos prompts, como diferentes tons de linguagem e variações contextuais em tarefas discursivas. A ampliação do escopo para incluir outros modelos de IA e contextos de aplicação pode contribuir para o desenvolvimento de práticas mais refinadas na utilização das tecnologias baseadas em LLMs. Assim, a engenharia de prompts se consolida como uma ferramenta estratégica para otimizar o potencial da inteligência artificial na educação e na contabilidade.

Referências Bibliográficas

Fonte: CONSELHO FEDERAL DE CONTABILIDADE (CFC). “Edital do Exame de Suficiência nº 1/2024”. Disponível em: https://conhecimento.fgv.br/sites/default/files/concursos/cfc-edital-27032024.pdf
Fonte: MOLLICK, Ethan; AYUBI, Charles; LIFSHITZ-ASSAF, Hila; SADUN, Raffaella; DELL’ACQUA, Fabrizio. “The Cybernetic Teammate: A Field Experiment on Generative AI in Knowledge Work”. Disponível em: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5188231
Fonte: MOLLICK, Ethan. “Prompt Engineering is Complicated and Contingent”. Disponível em: https://gail.wharton.upenn.edu/research-and-insights/tech-report-prompt-engineering-is-complicated-and-contingent/
Fonte: Wharton Generative AI Labs. “Prompting Science Report 1: Prompt Engineering is Complicated and Contingent”. Disponível em: https://gail.wharton.upenn.edu/research-and-insights/tech-report-prompt-engineering-is-complicated-and-contingent/
Fonte: Crislaine de Fátima Gonçalves Godke et al. “Sucesso ou Fracasso? Desempenho do ChatGPT nas Habilidades Conceituais, Procedimentais e Atitudinais do Exame de Suficiência do CFC”. Disponível em: https://revista.crcsc.org.br/index.php/CRCSC/article/view/3525
Fonte: Roberto Dias Duarte. “Benchmarking de Modelos de IA no Exame de Suficiência Contábil: Um Estudo com GPT e O-Series”. Disponível em: https://www.robertodiasduarte.com.br/benchmarking-de-modelos-de-ia-no-exame-de-suficiencia-contabil-um-estudo-com-gpt-e-o-series/
Fonte: Roberto Dias Duarte. “O Papel em Evolução da Engenharia de Prompt com Modelos Avançados”. Disponível em: https://www.robertodiasduarte.com.br/o-papel-em-evolucao-da-engenharia-de-prompt-com-modelos-avancados–a9g4ej
Fonte: BMC News. “Faz sentido dizer ‘obrigado’ ao ChatGPT? Estudo revela algo surpreendente”. Disponível em: https://bmcnews.com.br/2025/04/19/faz-sentido-dizer-obrigado-ao-chatgpt-estudo-revela-algo-surpreendente/
Fonte: Consumidor Moderno. “Ser educado com a IA pode gerar melhores resultados melhores”. Disponível em: https://consumidormoderno.com.br/ia-gentileza-openai/

Polidez nos Prompts não Melhora Desempenho do GPT-4o no Exame Contábil

Impacto da Polidez na Performance de LLMs em Questões do Exame de Suficiência Contábil

Introdução

Introdução ao Uso de LLMs na Educação e na Contabilidade

Desafio da Consistência e Precisão dos Prompts

Objetivos e Justificativa do Estudo

Modelos de Linguagem Natural e Engenharia de Prompts

Estudo de Wharton como Referência Teórica

Metodologia da Pesquisa

Resultados e Discussão

Conclusão

Referências Bibliográficas

Curtir isso:

Impacto da Polidez na Performance de LLMs em Questões do Exame de Suficiência Contábil

Introdução

Introdução ao Uso de LLMs na Educação e na Contabilidade

Desafio da Consistência e Precisão dos Prompts

Objetivos e Justificativa do Estudo

Modelos de Linguagem Natural e Engenharia de Prompts

Estudo de Wharton como Referência Teórica

Metodologia da Pesquisa

Resultados e Discussão

Conclusão

Referências Bibliográficas

Gostou? Compartilhe!

Curtir isso: