AI Weekly Edição #477: Jensen Huang diz que alcançamos a AGI. Os benchmarks dizem 0,37%.

💡 Insights A IA é super-humana em exames, mas não consegue resolver um jogo simples. O ARC-AGI-3 apresentou a modelos de fronteira ambientes interativos sem regras e sem objetivos — apenas para eles descobrirem. Humanos resolvem 100%. A melhor IA obteve 0,37%. Arquiteturas atuais conseguem fazer correspondência de padrões (pattern-match) para qualquer coisa em seus dados de treinamento, mas não conseguem se adaptar à novidade. Essa lacuna define o que a IA pode e não pode substituir em seu trabalho hoje. A IA

💡 Insights A IA é super-humana em exames, mas não consegue resolver um jogo simples. O ARC-AGI-3 apresentou a modelos de fronteira ambientes interativos sem regras e sem objetivos — apenas para eles descobrirem. Humanos resolvem 100%. A melhor IA obteve 0,37%. Arquiteturas atuais conseguem fazer correspondência de padrões (pattern-match) para qualquer coisa em seus dados de treinamento, mas não conseguem se adaptar à novidade. Essa lacuna define o que a IA pode e não pode substituir em seu trabalho hoje. A cadeia de valor da IA acabou de inverter. Esta semana, US$ 25 bilhões em negócios visaram infraestrutura, não modelos: IBM comprou a Confluent (US$ 11 bilhões) para streaming de dados em tempo real, Lilly comprou os pipelines de medicamentos da Insilico (US$ 2,75 bilhões), a Physical Intelligence levantou US$ 1 bilhão para sistemas de controle de robôs. Construir um LLM melhor é o básico. Possuir o fluxo de dados entre o modelo e o mundo real é onde o valor defensável está agora. Se você definir limites de segurança, os tribunais os protegerão. Um juiz federal decidiu que o Pentágono não pode incluir a Anthropic em lista negra por recusar o uso de armas autônomas — a primeira vez que as linhas vermelhas éticas de uma empresa de IA foram defendidas como discurso constitucionalmente protegido. Isso muda o cálculo para cada laboratório que negocia contratos governamentais: dizer não agora é legalmente mais seguro do que dizer sim para tudo.

AGIInteligência Artificial GeralBenchmarking