Benchmarking de Modelos de IA no Exame de Suficiência Contábil: Um Estudo com GPT e O-Series

Este estudo apresenta os resultados preliminares do benchmark BGPA – Brazilian Graduate Proficiency in Accounting, desenvolvido por Roberto Dias Duarte com o objetivo de avaliar a proeficiência técnica de modelos de linguagem natural de larga escala (LLMs) na área contábil. A metodologia baseia-se em questões objetivas extraídas do Exame de Suficiência do Conselho Federal de Contabilidade (CFC), exigido para o exercício legal da profissão no Brasil.

Quatro modelos foram avaliados por meio de um processo automatizado que utilizou uma planilha Google Sheets integrada à plataforma no-code Make, garantindo padronização e reprodutibilidade. As respostas geradas pelos modelos foram comparadas com o gabarito oficial, e a principal métrica de desempenho foi a acurácia.

Os resultados revelam que todos os modelos superaram o critério mínimo de aprovação humana (50% de acertos), com destaque para o modelo O1 – High, que atingiu 98% de acurácia, seguido por O3 mini High (88%), GPT-4o (86,5%) e GPT-4o mini (69%). Esses índices são significativamente superiores às médias históricas de aprovação humana, que variaram entre 13% e 38% entre 2020 e 2023.

O estudo aponta que os LLMs demonstram potencial real para aplicações no ensino, capacitação e apoio à prática contábil. A continuidade do projeto prevê a avaliação de modelos adicionais de empresas como Anthropic, Google, DeepSeek e Qwen, além da ampliação do benchmark para análise por área temática. Os dados obtidos até o momento reforçam o papel crescente da inteligência artificial como ferramenta de transformação na formação e no exercício da contabilidade profissional.

1. Introdução

1.1 Contextualização

Nas últimas décadas, o avanço da inteligência artificial (IA) tem transformado significativamente diversos setores da economia, incluindo a contabilidade. Com o surgimento de modelos de linguagem natural de larga escala (LLMs – Large Language Models), tornou-se possível simular interações humanas, resolver problemas complexos e interpretar dados estruturados e não estruturados com alto grau de sofisticação. Dentre essas aplicações, destaca-se o potencial das LLMs na educação contábil e na automação de processos analíticos, com impactos diretos na formação profissional e na prática cotidiana dos contadores.

1.2 Justificativa

Apesar da popularização dos LLMs, ainda são escassos os estudos empíricos que avaliem sistematicamente sua competência técnica em áreas especializadas, como a contabilidade. Considerando a crescente adoção dessas tecnologias no ambiente corporativo e acadêmico, é essencial compreender seu real desempenho em tarefas que exigem raciocínio normativo, interpretação conceitual e habilidade matemática. Nesse contexto, o presente estudo utiliza um benchmark inspirado no Exame de Suficiência do Conselho Federal de Contabilidade (CFC) para avaliar a proeficiência contábil de modelos de linguagem natural.

1.3 Objetivo Geral e Específicos

O objetivo geral deste estudo é mensurar, de forma objetiva e comparável, o desempenho de diferentes LLMs na resolução de questões contábeis de múltipla escolha, simulando as condições do Exame de Suficiência do CFC. Os objetivos específicos incluem:

  • Desenvolver e aplicar um benchmark padronizado com base em questões reais;
  • Avaliar o desempenho de quatro modelos de linguagem em termos de acurácia;
  • Comparar os resultados obtidos com as taxas de aprovação de candidatos humanos;
  • Analisar as implicações desses resultados para a educação e a prática contábil.

1.4 Estrutura do Artigo

O artigo está estruturado em seis seções, além desta introdução. A seção 2 apresenta o referencial teórico relacionado aos modelos de linguagem, inteligência artificial na contabilidade, e avaliação por benchmark. A seção 3 detalha a metodologia utilizada na construção e aplicação do benchmark. A seção 4 discute os resultados obtidos, incluindo comparações com o desempenho humano. A seção 5 aborda perspectivas futuras e possibilidades de expansão do estudo. Por fim, a seção 6 apresenta as conclusões e considerações finais.

2. Referencial Teórico

2.1 Modelos de Linguagem Natural (LLMs)

Os modelos de linguagem natural de larga escala (LLMs) são arquiteturas baseadas em aprendizado profundo, treinadas com grandes volumes de texto para prever e gerar linguagem humana de forma autônoma. Modelos como o GPT-4, Claude, Gemini e outros têm demonstrado desempenho impressionante em tarefas de linguagem geral, respondendo perguntas, escrevendo textos e resolvendo problemas complexos. A capacidade desses modelos de compreender e operar sobre linguagem natural abre caminho para sua aplicação em domínios técnicos, como a contabilidade.

2.2 Inteligência Artificial na Contabilidade

A contabilidade é uma área caracterizada por regras normativas, raciocínio lógico e interpretação contextual de dados financeiros. A utilização de IA nesse setor vem crescendo, especialmente em atividades como automação de lançamentos contábeis, análise de conformidade, auditoria digital e consultoria fiscal. No entanto, o uso de LLMs ainda carece de métricas validadas que atestem sua precisão em tarefas específicas da área, o que exige avaliações padronizadas e baseadas em benchmarks.

2.3 Exame de Suficiência do CFC

O Exame de Suficiência é uma exigência legal no Brasil para o exercício da profissão contábil, sendo aplicado pelo Conselho Federal de Contabilidade (CFC). O exame avalia o domínio técnico dos candidatos em diversas áreas da contabilidade por meio de questões objetivas. Sua estrutura e conteúdo o tornam uma referência apropriada para testar a proeficiência de LLMs, dada sua abrangência e complexidade técnica.

2.4 Avaliação de IA via Benchmarks

Benchmarks são conjuntos padronizados de testes utilizados para comparar o desempenho de sistemas de IA. Em contextos técnicos, eles permitem uma análise rigorosa e reprodutível das capacidades dos modelos, facilitando comparações entre arquiteturas e configurações distintas. A criação do benchmark RDD10+ visa preencher uma lacuna no campo da contabilidade, oferecendo um instrumento validado para medir a proeficiência técnica de modelos de linguagem em tarefas típicas da área.

2.5 Modelos de IA Avaliados

Neste estudo foram avaliados quatro modelos de linguagem natural de larga escala (LLMs), escolhidos por sua relevância no cenário atual da inteligência artificial aplicada e por estarem entre os mais avançados em termos de arquitetura, treinamento e capacidade geral. Cada modelo foi submetido ao benchmark RDD10+, composto por 200 questões contábeis de múltipla escolha.

GPT-4o

GPT-4o (onde “o” representa “omni”) é uma variante avançada da série GPT desenvolvida pela OpenAI, projetada para integrar texto, imagem e áudio em uma única arquitetura multimodal. Com ampla capacidade de compreensão e geração de linguagem natural, o GPT-4o se destaca por sua fluência, precisão e habilidade em tarefas complexas. No presente estudo, foi avaliado com foco exclusivo em sua capacidade textual. Obteve acurácia de 86,5%, demonstrando alto nível de proeficiência contábil.

GPT-4o mini

GPT-4o mini é uma versão otimizada do GPT-4o, com menor capacidade computacional e footprint reduzido, ideal para aplicações embarcadas e com menor demanda de recursos. Embora apresente desempenho inferior à versão completa, destaca-se por sua eficiência e custo-benefício. No benchmark RDD10+, atingiu 69% de acurácia, superando o critério mínimo de aprovação do Exame de Suficiência do CFC.

O1 – High

O modelo O1 – High pertence à nova geração de LLMs de código fechado desenvolvidos para tarefas de alta precisão, sendo otimizado para raciocínio estruturado, consistência lógica e aderência normativa. Seus mecanismos de inferência foram ajustados para minimizar aleatoriedade e priorizar coerência conceitual. Obteve o melhor resultado entre os avaliados, com acurácia de 98%, errando apenas quatro das 200 questões, o que sugere forte domínio sobre os conteúdos contábeis apresentados.

O3 mini High

O3 mini High representa uma versão intermediária entre performance e eficiência. Combina arquitetura robusta com recursos otimizados de inferência, voltados para tarefas de linguagem técnica. Seu desempenho no benchmark foi igualmente expressivo, alcançando 88% de acurácia, o que o posiciona entre os modelos mais promissores para uso em contextos educacionais e profissionais da contabilidade.

Esses quatro modelos oferecem um panorama representativo da atual geração de LLMs em termos de sofisticação, especialização e aplicabilidade prática. Suas performances no benchmark RDD10+ contribuem para o entendimento comparativo de suas capacidades no domínio contábil.

3. Metodologia do Benchmark: BGPA – Brazilian Graduate Proficiency in Accounting

A metodologia adotada neste estudo é baseada no benchmark denominado BGPA – Brazilian Graduate Proficiency in Accounting, desenvolvido por Roberto Dias Duarte. Este benchmark tem como finalidade mensurar de forma sistemática e comparável o desempenho de modelos de linguagem natural de larga escala (LLMs) na resolução de questões contábeis inspiradas no Exame de Suficiência do Conselho Federal de Contabilidade (CFC). A proposta combina rigor técnico com automação prática, proporcionando um ambiente controlado e reprodutível para avaliação da proeficiência técnica de sistemas de inteligência artificial aplicados à contabilidade.

3.1 Descrição do Benchmark BGPA

BGPA é uma iniciativa inédita no contexto brasileiro, voltada à avaliação objetiva de LLMs por meio de questões contábeis reais. A metodologia baseia-se no formato, estrutura e conteúdo do Exame de Suficiência do CFC, exigido para o exercício legal da profissão contábil no Brasil. Com isso, o benchmark visa testar a capacidade dos modelos em tarefas que exigem conhecimento técnico, interpretação normativa e raciocínio matemático.

A sigla “BGPA” também remete à ideia de uma graduação técnica, simbolizando a equivalência conceitual entre o desempenho dos modelos e a formação acadêmica exigida dos bacharéis em Ciências Contábeis.

3.2 Seleção das Questões

Foram selecionadas 200 questões objetivas de múltipla escolha, retiradas de edições anteriores do Exame de Suficiência do CFC, com seus respectivos gabaritos oficiais. As questões foram organizadas em uma planilha no Google Sheets, que serviu como base de dados para o fluxo automatizado de testes.

As perguntas abrangem as principais disciplinas exigidas no exame, entre elas:

  • Contabilidade Geral
  • Contabilidade de Custos
  • Contabilidade Pública
  • Teoria da Contabilidade
  • Legislação e Ética Profissional
  • Noções de Direito e Matemática Financeira

Cada questão apresenta um enunciado e quatro alternativas (A, B, C, D), com apenas uma resposta correta.

3.3 Modelos Avaliados

Quatro modelos de linguagem natural foram avaliados nesta primeira fase do estudo:

  • GPT-4o
  • GPT-4o mini
  • O1 – High
  • O3 mini High

Esses modelos foram selecionados por representarem diferentes níveis de desempenho, arquitetura e capacidade computacional. Todos foram acessados via APIs, garantindo consistência nos testes.

3.4 Processo de Avaliação Automatizado

Para garantir padronização e reprodutibilidade, foi implementado um agente automatizado de inferência, utilizando a plataforma Make (no-code), que integrou a base de dados (planilha) com a API dos modelos.

O fluxo de avaliação foi estruturado da seguinte forma:

  1. Cada linha da planilha trazia uma questão e seu gabarito.
  2. O modelo recebia o seguinte prompt:php-templateCopiarEditarResponda à questão. Escolha uma das opções de resposta. O output deve ser apenas a letra correspondente à resposta correta. <questão>{{3.`2`}}</questão>
  3. A resposta gerada pelo modelo era comparada automaticamente com o gabarito.
  4. O resultado (certo ou errado) era registrado, e o processo repetido para as 200 questões.

Esse processo foi executado integralmente para cada modelo, assegurando igualdade de condições entre as avaliações.

3.5 Métricas Utilizadas

A métrica adotada foi a acurácia, calculada como: Acurácia=Número de acertos / Total de questões x 100

A escolha por essa métrica se dá por seu alinhamento com o critério de aprovação do Exame de Suficiência (mínimo de 50% de acertos), além de sua objetividade e facilidade de comparação entre diferentes modelos.

3.6 Expansão Futura do Estudo

O autor, Roberto Dias Duarte, planeja expandir o uso do benchmark BGPA para avaliar outros modelos de linguagem relevantes no mercado, incluindo:

  • Anthropic (Claude)
  • Google (Gemini)
  • DeepSeek
  • Qwen (Alibaba)
  • Modelos open-source e comerciais adicionais

Essa expansão permitirá análises comparativas mais amplas, contribuindo para a construção de uma base de conhecimento robusta sobre a aplicação de IA no domínio contábil.

4. Resultados e Discussão

A aplicação do benchmark BGPA – Brazilian Graduate Proficiency in Accounting permitiu aferir o desempenho de quatro modelos de linguagem natural de larga escala (LLMs) ao resolverem 200 questões contábeis objetivas. A avaliação foi conduzida de forma automatizada e padronizada, conforme descrito na metodologia. A seguir, são apresentados os resultados obtidos e sua análise comparativa com os dados disponíveis sobre o desempenho humano no Exame de Suficiência do Conselho Federal de Contabilidade (CFC).

4.1 Desempenho dos Modelos Avaliados

Os resultados de acurácia obtidos por cada modelo são sintetizados na Tabela 1:

ModeloAcertosErrosTotal de QuestõesAcurácia
GPT-4o1732720086,5%
GPT-4o mini1386220069,0%
O1 – High196420098,0%
O3 mini High1762420088,0%
Média Geral68311780085,4%

O modelo O1 – High demonstrou desempenho excepcional, com 98% de acertos, seguido por O3 mini High (88%) e GPT-4o (86,5%). Mesmo o modelo com menor desempenho, GPT-4o mini, atingiu 69%, superando com folga o critério mínimo de aprovação do exame humano (50%).

Esses resultados indicam que todos os modelos avaliados apresentaram proeficiência superior à média dos candidatos humanos, o que reforça o potencial dos LLMs para uso em contextos educacionais, de treinamento ou apoio profissional na contabilidade.

4.2 Comparação com o Desempenho Humano

Embora o CFC não divulgue publicamente notas individuais ou médias por edição, dados estatísticos e estudos acadêmicos revelam uma tendência de queda contínua nas taxas de aprovação. Conforme registros oficiais:

  • A aprovação caiu de 83,52% (2000) para 23,78% (2012), segundo Souza et al. (2025)[2].
  • Em 2023, a 1ª edição registrou apenas 13% de aprovação[1][5].
  • Entre 2020 e 2023, as taxas variaram entre 13% e 38% (Tabela 2).
Ano/EdiçãoInscritosAprovadosTaxa de aprovação
1ª edição de 202348.9946.74313%
2ª edição de 202244.0857.59517%
1ª edição de 202241.3887.67918%
1ª edição de 202039.90413.72038%

Além disso, o desempenho dos candidatos é altamente desigual entre as disciplinas. As áreas mais críticas incluem Contabilidade Gerencial (23%)Língua Portuguesa (26%) e Princípios de Contabilidade (29%), conforme o levantamento de 2023[1][5]. Essas são justamente áreas que exigem interpretação conceitual e domínio técnico — competências nas quais os LLMs demonstraram alta performance neste estudo.

4.3 Análise Crítica dos Resultados

Os dados obtidos evidenciam que, mesmo sem treinamento supervisionado específico em contabilidade brasileira, os modelos de linguagem são capazes de responder com precisão superior à média humana. Isso sugere que esses modelos possuem:

  • Capacidade de generalização em domínios técnicos;
  • Eficiência na compreensão semântica de linguagem normativa e matemática;
  • Potencial real para aplicações práticas em ambientes educacionais e corporativos.

No entanto, vale destacar que o benchmark avalia respostas objetivas e não inclui aspectos como argumentação escrita, justificativas ou análise multidisciplinar — competências importantes na atuação contábil real.

Além disso, a natureza automatizada do processo elimina fatores humanos como cansaço, ansiedade ou interpretação ambígua, o que pode favorecer os modelos em comparação com candidatos humanos.

4.4 Limitações do Estudo

Apesar dos resultados promissores, este estudo apresenta algumas limitações importantes:

  • Ausência de segmentação por área: o benchmark atual avalia acertos totais, sem discriminar o desempenho dos modelos por disciplina contábil.
  • Base de questões limitada: a amostra de 200 questões, embora representativa, ainda pode ser expandida para abranger um universo mais diversificado.
  • Foco apenas em alternativas objetivas: futuras versões do BGPA podem incluir questões discursivas ou estudos de caso.
  • Dados públicos limitados do CFC: a falta de dados granulares sobre o desempenho individual dos candidatos humanos limita a comparação mais refinada.

5. Perspectivas Futuras

5.1 Expansão da Avaliação de Modelos

O benchmark BGPA – Brazilian Graduate Proficiency in Accounting demonstra ser uma ferramenta robusta e escalável para mensurar a proeficiência técnica de modelos de linguagem em contabilidade. Como próxima etapa do estudo, o autor pretende expandir significativamente o número de LLMs avaliados, incluindo:

  • Modelos da Anthropic, como Claude 2 e versões futuras;
  • Modelos da Google DeepMind, especialmente a série Gemini;
  • Modelos da DeepSeek, com foco em inferência técnica;
  • Qwen (Alibaba), promissor no ecossistema open-source;
  • Outros modelos proprietários e de código aberto relevantes no mercado.

Essa ampliação permitirá uma comparação mais abrangente e transversal entre arquiteturas, origens e estilos de treinamento, contribuindo para o mapeamento do estado da arte na aplicação de IA à contabilidade.

5.2 Desenvolvimento de Indicadores por Área

Outra linha de evolução do BGPA será a avaliação segmentada por disciplina contábil, considerando o padrão de dificuldades identificado nas análises do Exame de Suficiência. Essa abordagem permitirá verificar se os LLMs reproduzem os mesmos padrões de erro dos candidatos humanos ou se apresentam vantagens específicas em determinadas áreas, como:

  • Contabilidade Gerencial (área crítica entre humanos)
  • Matemática Financeira (onde o desempenho humano é elevado)
  • Ética Profissional e Legislação

Indicadores por área podem também orientar o uso pedagógico dos modelos, tanto como tutores quanto como ferramentas de diagnóstico para alunos e professores.

5.3 Aplicações Educacionais e Profissionais

O desempenho dos modelos avaliados sugere forte aplicabilidade prática, sobretudo em ambientes educacionais. Entre as possibilidades, destacam-se:

  • Plataformas adaptativas de estudo para o Exame de Suficiência;
  • Assistentes de aprendizagem personalizados com base em IA;
  • Ferramentas de apoio ao ensino técnico contábil em cursos de graduação;
  • Consultores digitais para atividades profissionais de menor complexidade normativa.

Com a evolução dos LLMs, é plausível projetar cenários em que essas tecnologias sejam integradas ao cotidiano da prática contábil, otimizando tempo, ampliando a qualidade das análises e democratizando o acesso ao conhecimento técnico.


6. Conclusões

6.1 Principais Contribuições

Este estudo apresenta uma primeira aplicação do benchmark BGPA, desenvolvido para avaliar de forma sistemática a proeficiência contábil de modelos de linguagem natural. Os resultados indicam que os LLMs avaliados superaram com ampla margem a taxa de aprovação média dos candidatos humanos no Exame de Suficiência do CFC, evidenciando alto grau de compreensão conceitual, domínio normativo e raciocínio lógico-matemático.

Além disso, a metodologia automatizada, baseada em integração entre Google Sheets e a plataforma Make, demonstrou ser eficaz, reprodutível e escalável, viabilizando a avaliação contínua de múltiplos modelos.

6.2 Relevância para o Setor Contábil

A aplicação de IA no setor contábil não é mais uma previsão futura, mas uma realidade em consolidação. A capacidade dos LLMs de resolver problemas contábeis complexos com alta taxa de acerto abre oportunidades para sua adoção em:

  • Ambientes educacionais (como assistentes de estudo);
  • Ferramentas de apoio profissional (como guias normativos);
  • Automatização de análises técnicas e diagnósticos contábeis.

Tais recursos, se bem implementados, podem contribuir para o aprimoramento da formação contábil no Brasil e para o aumento da eficiência dos serviços prestados por profissionais da área.

6.3 Considerações Finais

O estudo demonstra que modelos de linguagem natural já são capazes de atuar com elevada proeficiência em tarefas tradicionalmente humanas no campo da contabilidade. No entanto, a sua adoção exige acompanhamento crítico, definição de critérios éticos e validação contínua de sua precisão.

O benchmark BGPA surge, portanto, como uma ferramenta estratégica para guiar esse processo com rigor técnico, e poderá ser continuamente expandido para apoiar o desenvolvimento, a pesquisa e a inovação na interface entre contabilidade e inteligência artificial.

7. Referências

[1] Portal Contábeis. “CFC: Apenas 13% são aprovados no Exame de Suficiência”. Disponível em: https://www.contabeis.com.br/noticias/61943/cfc-apenas-13-sao-aprovados-exame-de-suficiencia/. Acesso em: 28 mar. 2025.

[2] Souza, M. A. et al. “O Exame de Suficiência como Instrumento de Avaliação: um estudo das edições de 2010 a 2012”. Revista de Contabilidade e Controladoria, Curitiba, v. 6, n. 3, p. 107–124, 2014. Disponível em: https://revistas.ufpr.br/rcc/article/view/33455. Acesso em: 28 mar. 2025.

[3] Oliveira, J. M. et al. “Estudo do Desempenho dos Egressos de Ciências Contábeis no Exame de Suficiência”. Revista Contabilometria, v. 12, n. 1, 2023. Disponível em: https://revistas.fucamp.edu.br/index.php/contabilometria/article/view/3240/2054. Acesso em: 28 mar. 2025.

[4] Barros, R. F. et al. “Indicadores de qualidade no Exame de Suficiência: o impacto do ensino contábil”. In: Anais do 26º SEMEAD, São Paulo, 2023. Disponível em: https://login.semead.com.br/26semead/anais/download.php?cod_trabalho=1148. Acesso em: 28 mar. 2025.

[5] Academia Paulista de Contabilidade (APCSP). “Exame de Suficiência tem baixo índice de aprovação”. Disponível em: https://www.apcsp.org.br/exame-de-suficiencia-tem-baixo-indice-de-aprovacao. Acesso em: 28 mar. 2025.

[6] Conselho Federal de Contabilidade (CFC). “Notas mínimas e máximas por exame – Histórico 2016”. Disponível em: https://cfc.org.br/wp-content/uploads/2016/05/notas_max_min.pdf. Acesso em: 28 mar. 2025.

[7] Conselho Federal de Contabilidade (CFC). “Relatórios estatísticos do Exame de Suficiência”. Disponível em: https://cfc.org.br/registro/exame-de-suficiencia/relatorios-estatisticos-do-exame-de-suficiencia/. Acesso em: 28 mar. 2025.

[8] Nunes, R. A. et al. “A influência da formação acadêmica no desempenho do Exame de Suficiência”. ConTexto, Porto Alegre, v. 21, n. 46, p. 48–65, 2021. Disponível em: https://seer.ufrgs.br/ConTexto/article/download/69431/pdf/385153. Acesso em: 28 mar. 2025.

[9] Fundação Getulio Vargas (FGV). “CFC em números”. Disponível em: https://cfc.exames.fgv.br/. Acesso em: 28 mar. 2025.

[10] OpenAI. “Modelos de Linguagem Natural”. Disponível em: https://platform.openai.com/docs/models. Acesso em: 28 mar. 2025.