Chroma Lança Context-1: Um Modelo de Busca Agente de 20B para Recuperação Multi-Hop, Gerenciamento de Contexto e Geração Escalável de Tarefas Sintéticas

Chroma Lança Context-1: Um Modelo de Busca Agente de 20B para Recuperação Multi-Hop, Gerenciamento de Contexto e Geração Escalável de Tarefas Sintéticas

No cenário atual da IA, a 'janela de contexto' tornou-se uma ferramenta grosseira. Dizem-nos que, se simplesmente expandirmos a memória de um modelo de fronteira, o problema de recuperação desaparece. Mas, como qualquer profissional de IA que trabalha com sistemas RAG (Retrieval-Augmented Generation) sabe, empilhar um milhão de tokens em um prompt geralmente leva a maior latência, custos astronômicos, e uma falha de raciocínio 'perdido no meio' que nenhuma quantidade de computação parece resolver completamente. A postagem Chroma R

No cenário atual da IA, a 'janela de contexto' tornou-se uma ferramenta grosseira. Dizem-nos que, se simplesmente expandirmos a memória de um modelo de fronteira, o problema de recuperação desaparece. Mas, como qualquer profissional de IA que trabalha com sistemas RAG (Retrieval-Augmented Generation) sabe, empilhar um milhão de tokens em um prompt geralmente leva a maior latência, custos astronômicos e uma falha de raciocínio 'perdido no meio' que nenhuma quantidade de computação parece resolver completamente. A Chroma, a empresa por trás do popular banco de dados vetorial de código aberto, está adotando uma abordagem diferente e mais cirúrgica. Eles lançaram o Context-1, um modelo de busca agente de 20B de parâmetros, projetado para atuar como um subagente de recuperação especializado. Em vez de tentar ser um motor de raciocínio de propósito geral, o Context-1 é um 'batedor' altamente otimizado. Ele foi construído para fazer uma coisa: encontrar os documentos de apoio corretos para consultas complexas e multi-hop e entregá-los a um modelo de fronteira downstream para a resposta final. A Ascensão do Subagente Agente O Context-1 é derivado do gpt-oss-20B, uma arquitetura Mixture of Experts (MoE) que a Chroma ajustou usando uma combinação de Supervised Fine-Tuning (SFT) e Reinforcement Learning (RL) via CISPO (uma otimização de currículo em fases). O objetivo não é apenas recuperar partes; é executar uma tarefa de raciocínio sequencial. Quando um usuário faz uma pergunta complexa, o Context-1 não apenas acessa um índice de vetores uma vez. Ele decompõe a consulta de alto nível em subconsultas direcionadas, executa chamadas de ferramentas paralelas (com uma média de 2,56 chamadas por turno) e pesquisa iterativamente o corpus. Para profissionais de IA, a mudança arquitetônica aqui é o ponto mais importante: Desacoplar a Busca da Geração. Em um pipeline RAG tradicional, o desenvolvedor gerencia a lógica de recuperação. Com o Context-1, essa responsabilidade é transferida para o próprio modelo. Ele opera dentro de uma estrutura de agente específica que lhe permite interagir com ferramentas como search_corpus (híbrido BM25 + dense search), grep_corpus (regex) e read_document. O Recurso Matador: Contexto de Autoedição A inovação tecnicamente mais significativa no Context-1 é o Contexto de Autoedição. À medida que um agente coleta informações ao longo de várias rodadas, sua janela de contexto se enche de documentos – muitos dos quais se mostram redundantes ou irrelevantes para a resposta final. Modelos gerais acabam 'sufocando' com esse ruído. O Context-1, no entanto, foi treinado com uma precisão de poda de 0,94. No meio da busca, o modelo revisa o contexto.

Modelos de LinguagemRecuperação de InformaçãoRAG