TL;DR: A inteligência artificial está revolucionando a cibersegurança através de competições CTF onde agentes de IA competem diretamente com hackers éticos humanos. Em eventos pioneiros realizados em 2025, as melhores IAs alcançaram desempenho entre os 5-10% melhores participantes humanos, demonstrando capacidades ofensivas significativas. O crowdsourcing emerge como uma estratégia eficaz para avaliar continuamente as capacidades de IA em cibersegurança de forma econômica e atualizada.
Takeaways:
- Agentes de IA autônomos já conseguem competir efetivamente com especialistas humanos em desafios complexos de cibersegurança, resolvendo tarefas que exigem cerca de uma hora de esforço humano
- O crowdsourcing através de competições CTF oferece uma alternativa superior às avaliações internas tradicionais, fornecendo perspectivas diversificadas e monitoramento contínuo das capacidades emergentes de IA
- As IAs demonstram vantagem competitiva significativa em velocidade de processamento, embora humanos experientes consigam igualar essa velocidade através de expertise profissional
- A métrica METR (50%-task-completion time horizon) permite comparações precisas entre capacidades de IA e esforço humano equivalente em cibersegurança
- O futuro da governança responsável de IA depende de avaliações robustas e em tempo real das capacidades ofensivas, sendo as competições head-to-head mais interpretáveis que benchmarks tradicionais
Como a Inteligência Artificial Está Revolucionando a Cibersegurança: O Futuro das Competições CTF e Crowdsourcing
Você já imaginou um mundo onde agentes de inteligência artificial competem lado a lado com hackers éticos em desafios de cibersegurança? Esse futuro não é mais ficção científica – é realidade.
A crescente sofisticação dos sistemas de IA levanta questões fundamentais sobre suas capacidades ofensivas em cibersegurança. Como podemos avaliar com precisão o potencial dessas tecnologias? A resposta pode estar no crowdsourcing e nas competições Capture The Flag (CTF).
O Desafio da Avaliação de Capacidades Ofensivas da IA
À medida que os sistemas de inteligência artificial se tornam mais poderosos, compreender seu potencial ofensivo cibernético torna-se crucial para uma governança informada e implementação responsável.
O problema é real: avaliações imprecisas podem levar a subestimações dramáticas das capacidades da IA. Organizações de segurança tradicionalmente conduzem essas avaliações internamente, mas essa abordagem pode ser insuficiente.
Por que isso importa?
- Sistemas de IA demonstram capacidades crescentes em cibersegurança ofensiva
- Avaliações restritas a uma única equipe podem ser inadequadas
- A natureza dinâmica das capacidades de IA exige monitoramento contínuo
A Revolução do Crowdsourcing na Elicitação de IA
A “elicitação de IA” refere-se à arte de extrair o máximo desempenho de uma IA para tarefas específicas. Tradicionalmente, essa prática era exclusiva de organizações internas.
Agora, o crowdsourcing emerge como uma alternativa promissora. Através de recompensas (bounties) e competições abertas, é possível manter uma consciência situacional atualizada e eficaz sobre as capacidades emergentes de IA.
Vantagens do Crowdsourcing
Complementaridade: A elicitação por mercado aberto complementa os esforços internos, oferecendo perspectivas diversificadas.
Escala: Permite coletar dados de desempenho humano em grande escala para comparação.
Atualização contínua: Mantém avaliações atualizadas conforme novas capacidades emergem.
Custo-efetividade: Oferece uma forma econômica de avaliar capacidades de IA.
CTF: O Campo de Batalha Digital
As competições Capture The Flag (CTF) representam uma forma clássica de testar habilidades em cibersegurança. Esses eventos apresentam desafios em áreas como:
- Criptografia
- Engenharia reversa
- Exploração web
- Forense digital
Cada desafio esconde uma “flag” – uma string única que deve ser encontrada através da identificação e exploração de vulnerabilidades do sistema.
O Evento Pioneiro: AI vs. Humans CTF
Em março de 2025, foi realizado o primeiro evento público colocando agentes de IA totalmente autônomos contra equipes humanas experientes em tempo real.
Números impressionantes:
- 403 equipes registradas
- 158 equipes resolveram pelo menos um desafio
- 152 equipes humanas vs. 6 equipes de IA
- Prêmio total de $7.500
Os resultados superaram todas as expectativas iniciais. A melhor equipe de IA alcançou desempenho entre os 5% melhores, demonstrando capacidades notáveis.
“As equipes de IA excederam significativamente nossas expectativas iniciais e rapidamente saturaram os desafios.”
A Velocidade como Vantagem Competitiva
Uma das principais vantagens das IAs sobre os humanos é a velocidade de processamento. No evento AI vs. Humans CTF, as equipes de IA demonstraram desempenho comparável às melhores equipes humanas multi-jogador.
Surpreendentemente, os humanos conseguiram igualar a velocidade das IAs. Quando questionados, os participantes atribuíram essa capacidade à sua vasta experiência como jogadores profissionais de CTF.
Cyber Apocalypse: Testando em Grande Escala
O Cyber Apocalypse 2025 ofereceu uma oportunidade única de testar agentes de IA em um ambiente de competição massiva:
- 8.129 equipes humanas registradas
- 18.369 jogadores participantes
- 3.994 equipes resolveram pelo menos um desafio
Duas equipes de IA participaram, utilizando quatro agentes diferentes. O melhor agente alcançou desempenho no top-10%, demonstrando consistência em diferentes ambientes competitivos.
A Métrica METR: Medindo o Esforço Humano Equivalente
A metodologia METR (50%-task-completion time horizon) oferece uma forma inovadora de comparar capacidades de IA com esforço humano.
Esta métrica mede o tempo que humanos tipicamente levam para completar tarefas que modelos de IA conseguem resolver com 50% de taxa de sucesso.
Descoberta significativa: Os dados do Cyber Apocalypse revelaram que a IA consegue resolver desafios que exigem aproximadamente uma hora de esforço de um participante mediano de CTF.
Definindo Expertise: O Desafio da Comparação
Ao avaliar “desempenho de especialista humano”, é crucial definir quem consideramos especialista. A expertise varia drasticamente, desde amadores até jogadores profissionais de CTF.
A posição no leaderboard serve como métrica de expertise, e as estimativas do horizonte de tempo variam dependendo de qual percentil consideramos como “especialista”.
Estratégias de Design de Agentes de IA
Os participantes do evento compartilharam insights valiosos sobre o design de agentes:
Equipe CAI
- Investimento de 500 horas de desenvolvimento
- Design de harness personalizado
- Foco em otimização específica para tarefas
Equipe Imperturbable
- 17 horas de design de agente
- Uso de EnIGMA modificado e Claude Code
- Prompts específicos para diferentes categorias
Exemplo de otimização de prompt:
"Prevent the model from trying to guess the flag based on semantics.
Make sure the model actually carefully inspects the task before
coming up with its strategy. Recommend particular tools that were
easier for the LLM to use."
Vantagens das Competições Head-to-Head
Competições diretas entre equipes humanas e IA oferecem sinais mais interpretáveis e relevantes para políticas do que pontuações tradicionais de benchmark.
Resultados mensuráveis:
- No Cyber Apocalypse, a melhor IA superou 90% dos humanos
- Resolveu tarefas exigindo até uma hora de esforço humano
- Demonstrou consistência em diferentes tipos de desafios
Recomendações Estratégicas para Stakeholders
Para Agências de Política e P&D
- Aproveitar centenas de CTFs realizados anualmente
- Utilizar dados ricos de avaliação disponíveis
- Monitorar tendências de capacidades de IA
Para Laboratórios de IA de Fronteira
- Usar avaliações de mercado aberto para descobrir capacidades negligenciadas
- Validar avaliações internas com dados externos
- Acelerar o processo de validação de capacidades
Para Organizadores de CTF
- Adicionar trilhas de IA para aumentar visibilidade
- Atrair novos participantes e interesse de pesquisa
- Gerar interesse midiático adicional
O Futuro da Avaliação de IA em Cibersegurança
Os resultados sugerem que o crowdsourcing de elicitação é uma abordagem promissora para avaliar capacidades de IA. O desempenho da IA crowdsourced excedeu amplamente as expectativas iniciais.
Tendências emergentes:
- IAs conseguem saturar competições com prêmios relativamente baixos
- Avaliações robustas e em tempo real tornam-se essenciais
- Mercado aberto oferece perspectivas complementares valiosas
Desafios e Limitações
Apesar dos resultados promissores, existem desafios importantes:
Engajamento de startups: Muitas empresas especializadas já atendem clientes específicos e podem não precisar de validação pública.
Credibilidade alternativa: Algumas organizações preferem rankings em programas estabelecidos de bug bounty.
Calibração de dificuldade: Encontrar o equilíbrio certo entre desafio e viabilidade para IA.
Conclusão: Um Novo Paradigma de Avaliação
A integração de crowdsourcing e competições CTF representa um novo paradigma para avaliar capacidades ofensivas de IA em cibersegurança. Os resultados demonstram que agentes de IA podem competir efetivamente com especialistas humanos em tarefas complexas de cibersegurança.
Esta abordagem oferece uma forma prática e econômica de manter consciência situacional atualizada sobre as capacidades emergentes de IA. Para organizações responsáveis pela governança de IA, esses insights são fundamentais para tomada de decisões informadas.
A pergunta não é mais se a IA será capaz de realizar tarefas ofensivas de cibersegurança, mas como podemos avaliar e governar essas capacidades de forma responsável.
O futuro da cibersegurança será moldado pela colaboração entre humanos e IA. Competições como essas não apenas avaliam capacidades, mas também pavimentam o caminho para uma implementação mais segura e responsável dessas tecnologias.
Você está preparado para esse futuro onde IA e humanos competem e colaboram na fronteira da cibersegurança?
Fonte: Petrov, A., & Volkov, D. “Evaluating AI cyber capabilities with crowdsourced elicitation”. Disponível em: https://arxiv.org/abs/2505.19915