A inteligência artificial tem avançado rapidamente e, com ela, surgem novas possibilidades de aplicação em áreas especializadas, como a contabilidade. O Benchmark BGPA (Brazilian Graduate Proficiency in Accounting) foi desenvolvido para avaliar, de forma objetiva, a proeficiência técnica de modelos de linguagem natural (LLMs) em questões inspiradas no Exame de Suficiência do CFC. Ao replicar o rigor do exame aplicado a bacharéis em Ciências Contábeis no Brasil, o BGPA fornece uma base sólida para comparar diferentes modelos em um contexto real e desafiador.
A métrica central utilizada é a acurácia, definida como a proporção de respostas corretas sobre o total de questões. Essa métrica é fundamental, pois permite mensurar de maneira clara e padronizada o desempenho dos modelos, viabilizando comparações diretas entre arquiteturas e configurações. Ao alinhar-se com os critérios oficiais de aprovação humana (mínimo de 50% de acertos), o BGPA oferece não apenas uma avaliação técnica, mas também uma referência prática para o potencial uso dessas tecnologias no apoio à educação, à formação e à prática contábil.
1. Introdução
Este estudo preliminar apresenta os primeiros resultados da aplicação do Benchmark BGPA (Brazilian Graduate Proficiency in Accounting), desenvolvido para avaliar a proeficiência em contabilidade de modelos de linguagem de larga escala (LLMs – Large Language Models). O benchmark tem como referência o Exame de Suficiência do Conselho Federal de Contabilidade (CFC), exigido para a obtenção do registro profissional no Brasil.
2. Objetivo
O objetivo principal é mensurar, de forma objetiva e comparável, a capacidade dos LLMs em responder questões de contabilidade que exigem compreensão conceitual, interpretação normativa e raciocínio matemático. A metodologia visa estabelecer um padrão sistemático para avaliar o desempenho desses modelos no contexto contábil acadêmico e profissional.
3. Metodologia
Foram selecionadas 200 questões de múltipla escolha, estruturadas nos moldes do Exame de Suficiência do CFC. Cada questão possui um enunciado e quatro alternativas (A, B, C, D), com apenas uma resposta correta. Os modelos avaliados foram solicitados a indicar exclusivamente a letra correspondente à alternativa correta.
Durante os testes iniciais, foram utilizados, sempre que possível, os seguintes parâmetros de inferência, com o intuito de minimizar a aleatoriedade nas respostas geradas pelos modelos e garantir maior controle sobre a consistência das inferências:
- Top-p = 1
- Temperatura = 1
A acurácia foi a métrica utilizada, definida como a proporção de respostas corretas sobre o total de questões aplicadas.
4. Resultados Preliminares
Os dois primeiros modelos avaliados foram:
- GPT-4o mini
- O1 – High
Tabela 1: Desempenho dos Modelos no Benchmark BGPA
Modelo | Total de Questões | Acertos | Erros | Acurácia |
---|---|---|---|---|
GPT-4o mini | 200 | 138 | 62 | 69% |
O1 – High | 200 | 196 | 4 | 98% |
Ambos os modelos superaram o critério mínimo de aprovação adotado no Exame de Suficiência, que exige ao menos 50% de acertos (25 em 50 questões, equivalente a 100/200 no benchmark).
5. Análise Comparativa com o Desempenho Humano
Os dados oficiais do 2º Exame de Suficiência de 2024 revelam (conforme divulgado pelo Conselho Federal de Contabilidade – CFC, disponível em www.cfc.org.br) que as taxas de aprovação por estado variaram entre 6,24% (Rondônia) e 17,67% (Paraíba). Neste contexto, os modelos de linguagem avaliados demonstraram desempenho significativamente superior à média dos candidatos humanos.
6. Perspectivas e Trabalhos Futuros
O estudo será expandido com a inclusão de outros modelos representativos no mercado de LLMs, dentre eles:
- OpenAI
- Anthropic
- Google Gemini
- DeepSeek
- Alibaba/Qwen
- Grok
- Outros modelos abertos e proprietários
7. Considerações Finais
Os resultados preliminares demonstram que os modelos de linguagem de grande porte possuem potencial expressivo para aplicações no domínio contábil, superando inclusive o desempenho médio de candidatos humanos em exames oficiais. O Benchmark BGPA mostra-se uma ferramenta promissora para avaliação sistemática e comparativa da proeficiência contábil de LLMs.
Dada a crescente integração de inteligência artificial nos processos educacionais e profissionais, estudos como este contribuem para o desenvolvimento de métricas confiáveis e para a discussão sobre o papel da IA na formação contábil.
8. Sobre o Autor
Roberto Dias Duarte (RDD) é especialista em inteligência artificial aplicada à contabilidade. Para saber mais, acesse: robertodiasduarte.com.br/rdd-por-rdd