Índice

TL;DR: A inteligência artificial está revolucionando a cibersegurança através de competições CTF onde agentes de IA competem diretamente com hackers éticos humanos. Em eventos pioneiros realizados em 2025, as melhores IAs alcançaram desempenho entre os 5-10% melhores participantes humanos, demonstrando capacidades ofensivas significativas. O crowdsourcing emerge como uma estratégia eficaz para avaliar continuamente as capacidades de IA em cibersegurança de forma econômica e atualizada.

Takeaways:

Agentes de IA autônomos já conseguem competir efetivamente com especialistas humanos em desafios complexos de cibersegurança, resolvendo tarefas que exigem cerca de uma hora de esforço humano
O crowdsourcing através de competições CTF oferece uma alternativa superior às avaliações internas tradicionais, fornecendo perspectivas diversificadas e monitoramento contínuo das capacidades emergentes de IA
As IAs demonstram vantagem competitiva significativa em velocidade de processamento, embora humanos experientes consigam igualar essa velocidade através de expertise profissional
A métrica METR (50%-task-completion time horizon) permite comparações precisas entre capacidades de IA e esforço humano equivalente em cibersegurança
O futuro da governança responsável de IA depende de avaliações robustas e em tempo real das capacidades ofensivas, sendo as competições head-to-head mais interpretáveis que benchmarks tradicionais

Como a Inteligência Artificial Está Revolucionando a Cibersegurança: O Futuro das Competições CTF e Crowdsourcing

Você já imaginou um mundo onde agentes de inteligência artificial competem lado a lado com hackers éticos em desafios de cibersegurança? Esse futuro não é mais ficção científica – é realidade.

A crescente sofisticação dos sistemas de IA levanta questões fundamentais sobre suas capacidades ofensivas em cibersegurança. Como podemos avaliar com precisão o potencial dessas tecnologias? A resposta pode estar no crowdsourcing e nas competições Capture The Flag (CTF).

O Desafio da Avaliação de Capacidades Ofensivas da IA

À medida que os sistemas de inteligência artificial se tornam mais poderosos, compreender seu potencial ofensivo cibernético torna-se crucial para uma governança informada e implementação responsável.

O problema é real: avaliações imprecisas podem levar a subestimações dramáticas das capacidades da IA. Organizações de segurança tradicionalmente conduzem essas avaliações internamente, mas essa abordagem pode ser insuficiente.

Por que isso importa?

Sistemas de IA demonstram capacidades crescentes em cibersegurança ofensiva
Avaliações restritas a uma única equipe podem ser inadequadas
A natureza dinâmica das capacidades de IA exige monitoramento contínuo

A Revolução do Crowdsourcing na Elicitação de IA

A “elicitação de IA” refere-se à arte de extrair o máximo desempenho de uma IA para tarefas específicas. Tradicionalmente, essa prática era exclusiva de organizações internas.

Agora, o crowdsourcing emerge como uma alternativa promissora. Através de recompensas (bounties) e competições abertas, é possível manter uma consciência situacional atualizada e eficaz sobre as capacidades emergentes de IA.

Vantagens do Crowdsourcing

Complementaridade: A elicitação por mercado aberto complementa os esforços internos, oferecendo perspectivas diversificadas.

Escala: Permite coletar dados de desempenho humano em grande escala para comparação.

Atualização contínua: Mantém avaliações atualizadas conforme novas capacidades emergem.

Custo-efetividade: Oferece uma forma econômica de avaliar capacidades de IA.

CTF: O Campo de Batalha Digital

As competições Capture The Flag (CTF) representam uma forma clássica de testar habilidades em cibersegurança. Esses eventos apresentam desafios em áreas como:

Criptografia
Engenharia reversa
Exploração web
Forense digital

Cada desafio esconde uma “flag” – uma string única que deve ser encontrada através da identificação e exploração de vulnerabilidades do sistema.

O Evento Pioneiro: AI vs. Humans CTF

Em março de 2025, foi realizado o primeiro evento público colocando agentes de IA totalmente autônomos contra equipes humanas experientes em tempo real.

Números impressionantes:

403 equipes registradas
158 equipes resolveram pelo menos um desafio
152 equipes humanas vs. 6 equipes de IA
Prêmio total de $7.500

Os resultados superaram todas as expectativas iniciais. A melhor equipe de IA alcançou desempenho entre os 5% melhores, demonstrando capacidades notáveis.

“As equipes de IA excederam significativamente nossas expectativas iniciais e rapidamente saturaram os desafios.”

A Velocidade como Vantagem Competitiva

Uma das principais vantagens das IAs sobre os humanos é a velocidade de processamento. No evento AI vs. Humans CTF, as equipes de IA demonstraram desempenho comparável às melhores equipes humanas multi-jogador.

Surpreendentemente, os humanos conseguiram igualar a velocidade das IAs. Quando questionados, os participantes atribuíram essa capacidade à sua vasta experiência como jogadores profissionais de CTF.

Cyber Apocalypse: Testando em Grande Escala

O Cyber Apocalypse 2025 ofereceu uma oportunidade única de testar agentes de IA em um ambiente de competição massiva:

8.129 equipes humanas registradas
18.369 jogadores participantes
3.994 equipes resolveram pelo menos um desafio

Duas equipes de IA participaram, utilizando quatro agentes diferentes. O melhor agente alcançou desempenho no top-10%, demonstrando consistência em diferentes ambientes competitivos.

A Métrica METR: Medindo o Esforço Humano Equivalente

A metodologia METR (50%-task-completion time horizon) oferece uma forma inovadora de comparar capacidades de IA com esforço humano.

Esta métrica mede o tempo que humanos tipicamente levam para completar tarefas que modelos de IA conseguem resolver com 50% de taxa de sucesso.

Descoberta significativa: Os dados do Cyber Apocalypse revelaram que a IA consegue resolver desafios que exigem aproximadamente uma hora de esforço de um participante mediano de CTF.

Definindo Expertise: O Desafio da Comparação

Ao avaliar “desempenho de especialista humano”, é crucial definir quem consideramos especialista. A expertise varia drasticamente, desde amadores até jogadores profissionais de CTF.

A posição no leaderboard serve como métrica de expertise, e as estimativas do horizonte de tempo variam dependendo de qual percentil consideramos como “especialista”.

Estratégias de Design de Agentes de IA

Os participantes do evento compartilharam insights valiosos sobre o design de agentes:

Equipe CAI

Investimento de 500 horas de desenvolvimento
Design de harness personalizado
Foco em otimização específica para tarefas

Equipe Imperturbable

17 horas de design de agente
Uso de EnIGMA modificado e Claude Code
Prompts específicos para diferentes categorias

Exemplo de otimização de prompt:

"Prevent the model from trying to guess the flag based on semantics. 
Make sure the model actually carefully inspects the task before 
coming up with its strategy. Recommend particular tools that were 
easier for the LLM to use."

Vantagens das Competições Head-to-Head

Competições diretas entre equipes humanas e IA oferecem sinais mais interpretáveis e relevantes para políticas do que pontuações tradicionais de benchmark.

Resultados mensuráveis:

No Cyber Apocalypse, a melhor IA superou 90% dos humanos
Resolveu tarefas exigindo até uma hora de esforço humano
Demonstrou consistência em diferentes tipos de desafios

Recomendações Estratégicas para Stakeholders

Para Agências de Política e P&D

Aproveitar centenas de CTFs realizados anualmente
Utilizar dados ricos de avaliação disponíveis
Monitorar tendências de capacidades de IA

Para Laboratórios de IA de Fronteira

Usar avaliações de mercado aberto para descobrir capacidades negligenciadas
Validar avaliações internas com dados externos
Acelerar o processo de validação de capacidades

Para Organizadores de CTF

Adicionar trilhas de IA para aumentar visibilidade
Atrair novos participantes e interesse de pesquisa
Gerar interesse midiático adicional

O Futuro da Avaliação de IA em Cibersegurança

Os resultados sugerem que o crowdsourcing de elicitação é uma abordagem promissora para avaliar capacidades de IA. O desempenho da IA crowdsourced excedeu amplamente as expectativas iniciais.

Tendências emergentes:

IAs conseguem saturar competições com prêmios relativamente baixos
Avaliações robustas e em tempo real tornam-se essenciais
Mercado aberto oferece perspectivas complementares valiosas

Desafios e Limitações

Apesar dos resultados promissores, existem desafios importantes:

Engajamento de startups: Muitas empresas especializadas já atendem clientes específicos e podem não precisar de validação pública.

Credibilidade alternativa: Algumas organizações preferem rankings em programas estabelecidos de bug bounty.

Calibração de dificuldade: Encontrar o equilíbrio certo entre desafio e viabilidade para IA.

Conclusão: Um Novo Paradigma de Avaliação

A integração de crowdsourcing e competições CTF representa um novo paradigma para avaliar capacidades ofensivas de IA em cibersegurança. Os resultados demonstram que agentes de IA podem competir efetivamente com especialistas humanos em tarefas complexas de cibersegurança.

Esta abordagem oferece uma forma prática e econômica de manter consciência situacional atualizada sobre as capacidades emergentes de IA. Para organizações responsáveis pela governança de IA, esses insights são fundamentais para tomada de decisões informadas.

A pergunta não é mais se a IA será capaz de realizar tarefas ofensivas de cibersegurança, mas como podemos avaliar e governar essas capacidades de forma responsável.

O futuro da cibersegurança será moldado pela colaboração entre humanos e IA. Competições como essas não apenas avaliam capacidades, mas também pavimentam o caminho para uma implementação mais segura e responsável dessas tecnologias.

Você está preparado para esse futuro onde IA e humanos competem e colaboram na fronteira da cibersegurança?

Fonte: Petrov, A., & Volkov, D. “Evaluating AI cyber capabilities with crowdsourced elicitation”. Disponível em: https://arxiv.org/abs/2505.19915

IA em Competições CTF: Desempenho e Avaliação via Crowdsourcing

Como a Inteligência Artificial Está Revolucionando a Cibersegurança: O Futuro das Competições CTF e Crowdsourcing

O Desafio da Avaliação de Capacidades Ofensivas da IA