Meta-Sistema da Poetiq Constrói Automaticamente um Harness Agnóstico a Modelos que Melhorou Todos os LLMs Testados no LiveCodeBench Pro Sem Fine-Tuning
O Meta-Sistema da Poetiq construiu e otimizou automaticamente um inference harness para o LiveCodeBench Pro usando apenas o Gemini 3.1 Pro — sem fine-tuning, sem acesso aos detalhes internos do modelo. O mesmo harness, aplicado sem modificação ao GPT 5.5 High, Kimi K2.6, Gemini 3.0 Flash e outros quatro modelos, melhorou o desempenho de todos eles. A publicação Poetiq’s Meta-System Automatically Builds a Model-Agnostic Harness That I
A Poetiq acaba de publicar alguns resultados muito interessantes mostrando que seu Meta-Sistema alcançou um novo estado da arte no LiveCodeBench Pro (LCB Pro), um benchmark de programação competitiva, construindo e otimizando automaticamente seu próprio inference harness — sem fazer fine-tuning em nenhum modelo subjacente ou acessar detalhes internos do modelo. O resultado: GPT 5.5 High com o harness da Poetiq pontua 93,9% no LCB Pro (25Q2), um aumento em relação à sua linha de base de 89,6%. O Gemini 3.1 Pro, modelo no qual o harness foi especificamente otimizado, salta de 78,6% para 90,9% — superando o próprio Gemini 3 Deep Think (88,8%) do Google, um modelo que nem mesmo é acessível via API para verificação externa. https://poetiq.ai/posts/recursive_self_improvement_coding/ O que é LiveCodeBench Pro? Antes de entrar na mecânica, é útil entender por que o benchmark é importante. O LiveCodeBench Pro (LCB) foi projetado para testar a capacidade de codificação de IA de uma forma que resista a dois modos de falha comuns em benchmarks: contaminação de dados e overfitting. O LCB Pro extrai problemas de grandes competições de programação competitiva e retém o código de referência público. Em vez disso, as soluções são validadas em relação a uma estrutura de teste abrangente. A saída correta sozinha não é suficiente — as soluções também devem satisfazer restrições específicas de memória e tempo de execução. O benchmark também está sujeito a atualizações contínuas, o que o diferencia de muitos benchmarks padrão que se tornam obsoletos. O benchmark se concentra em desafios de C++ e enfatiza a codificação criativa, testando a capacidade de um modelo para resolução de problemas complexos e lógica procedural performática e de alta qualidade. Isso o diferencia de conjuntos de dados como SWEBench que avaliam o uso de ferramentas ou fluxos de trabalho de correção de bugs. Os problemas são categorizados por dificuldade — Fácil, Médio e Difícil — com base nas taxas de resolução humanas competitivas. https://poetiq.ai/posts/recursive_self_improvement_coding/ Enquadramento Estratégico da Poetiq: Três Categorias de Tarefas LLM Este é o terceiro benchmark publicamente relatado da Poetiq, e a escolha do LCB Pro foi deliberada. A equipe de pesquisa enquadra o desempenho de LLMs em torno de três categorias de tarefas distintas: desafios de Raciocínio (ARC-AGI é o benchmark deles aqui), desafios de Recuperação (Humanity’s Last Exam, ou HLE), e desafios de Codificação — que, como a aplicação comercial mais difundida para IA atualmente, mesclam raciocínio e recuperação com a geração de lógica procedural especializada. A iniciativa deles de codificação tinha três objetivos específicos e declarados: primeiro, provar que um harness inteligente pode impulsionar
