Avaliação de Modelos de Linguagem Natural no Benchmark de proficiência Contábil

A inteligência artificial tem avançado rapidamente e, com ela, surgem novas possibilidades de aplicação em áreas especializadas, como a contabilidade. O Benchmark BGPA (Brazilian Graduate Proficiency in Accounting) foi desenvolvido para avaliar, de forma objetiva, a proeficiência técnica de modelos de linguagem natural (LLMs) em questões inspiradas no Exame de Suficiência do CFC. Ao replicar o rigor do exame aplicado a bacharéis em Ciências Contábeis no Brasil, o BGPA fornece uma base sólida para comparar diferentes modelos em um contexto real e desafiador.

A métrica central utilizada é a acurácia, definida como a proporção de respostas corretas sobre o total de questões. Essa métrica é fundamental, pois permite mensurar de maneira clara e padronizada o desempenho dos modelos, viabilizando comparações diretas entre arquiteturas e configurações. Ao alinhar-se com os critérios oficiais de aprovação humana (mínimo de 50% de acertos), o BGPA oferece não apenas uma avaliação técnica, mas também uma referência prática para o potencial uso dessas tecnologias no apoio à educação, à formação e à prática contábil.


1. Introdução

Este estudo preliminar apresenta os primeiros resultados da aplicação do Benchmark BGPA (Brazilian Graduate Proficiency in Accounting), desenvolvido para avaliar a proeficiência em contabilidade de modelos de linguagem de larga escala (LLMs – Large Language Models). O benchmark tem como referência o Exame de Suficiência do Conselho Federal de Contabilidade (CFC), exigido para a obtenção do registro profissional no Brasil.


2. Objetivo

O objetivo principal é mensurar, de forma objetiva e comparável, a capacidade dos LLMs em responder questões de contabilidade que exigem compreensão conceitual, interpretação normativa e raciocínio matemático. A metodologia visa estabelecer um padrão sistemático para avaliar o desempenho desses modelos no contexto contábil acadêmico e profissional.


3. Metodologia

Foram selecionadas 200 questões de múltipla escolha, estruturadas nos moldes do Exame de Suficiência do CFC. Cada questão possui um enunciado e quatro alternativas (A, B, C, D), com apenas uma resposta correta. Os modelos avaliados foram solicitados a indicar exclusivamente a letra correspondente à alternativa correta.

Durante os testes iniciais, foram utilizados, sempre que possível, os seguintes parâmetros de inferência, com o intuito de minimizar a aleatoriedade nas respostas geradas pelos modelos e garantir maior controle sobre a consistência das inferências:

  • Top-p = 1
  • Temperatura = 1

A acurácia foi a métrica utilizada, definida como a proporção de respostas corretas sobre o total de questões aplicadas.


4. Resultados Preliminares

Os dois primeiros modelos avaliados foram:

  • GPT-4o mini
  • O1 – High

Tabela 1: Desempenho dos Modelos no Benchmark BGPA

ModeloTotal de QuestõesAcertosErrosAcurácia
GPT-4o mini2001386269%
O1 – High200196498%

Ambos os modelos superaram o critério mínimo de aprovação adotado no Exame de Suficiência, que exige ao menos 50% de acertos (25 em 50 questões, equivalente a 100/200 no benchmark).


5. Análise Comparativa com o Desempenho Humano

Os dados oficiais do 2º Exame de Suficiência de 2024 revelam (conforme divulgado pelo Conselho Federal de Contabilidade – CFC, disponível em www.cfc.org.br) que as taxas de aprovação por estado variaram entre 6,24% (Rondônia) e 17,67% (Paraíba). Neste contexto, os modelos de linguagem avaliados demonstraram desempenho significativamente superior à média dos candidatos humanos.


6. Perspectivas e Trabalhos Futuros

O estudo será expandido com a inclusão de outros modelos representativos no mercado de LLMs, dentre eles:

  • OpenAI
  • Anthropic
  • Google Gemini
  • DeepSeek
  • Alibaba/Qwen
  • Grok
  • Outros modelos abertos e proprietários

7. Considerações Finais

Os resultados preliminares demonstram que os modelos de linguagem de grande porte possuem potencial expressivo para aplicações no domínio contábil, superando inclusive o desempenho médio de candidatos humanos em exames oficiais. O Benchmark BGPA mostra-se uma ferramenta promissora para avaliação sistemática e comparativa da proeficiência contábil de LLMs.

Dada a crescente integração de inteligência artificial nos processos educacionais e profissionais, estudos como este contribuem para o desenvolvimento de métricas confiáveis e para a discussão sobre o papel da IA na formação contábil.


8. Sobre o Autor

Roberto Dias Duarte (RDD) é especialista em inteligência artificial aplicada à contabilidade. Para saber mais, acesse: robertodiasduarte.com.br/rdd-por-rdd