Cal Newport analisa o gráfico de horizonte temporal da METR, que mostra avanços em tarefas de programação, e argumenta que ele não indica uma explosão de inteligência artificial geral. Ele explica que o progresso é específico para programação, impulsionado por pós-treinamento e 'coding harnesses' artesanais, e critica interpretações alarmistas de comunidades transumanistas e de risco existencial.
Cal Newport (host, professor de ciência da computação e autor)
O gráfico da METR mede apenas tarefas específicas de programação, não capacidades gerais de IA.
Os avanços recentes vêm do pós-treinamento e de 'coding harnesses' complexos, não de melhorias na pré-treinamento.
O progresso em programação não se traduz automaticamente para outras áreas; cada aplicação é um 'afluente' diferente.
Interpretações exponenciais do gráfico ignoram que ele reflete um esforço concentrado em um nicho, não uma tendência geral.
Comunidades transumanistas e de risco existencial distorcem o significado do gráfico para alimentar narrativas apocalípticas.
Empresas de IA precisam se distanciar dessas comunidades e comunicar suas ferramentas como inovações práticas, não como prenúncios de AGI.
O que o gráfico da METR realmente mostra
A METR selecionou tarefas de software bem definidas (ex.: corrigir bugs, explorar buffer overflow) e mediu o tempo médio que programadores humanos levavam para concluí-las.
Para cada modelo de IA, eles o combinaram com um 'coding harness' (ex.: Claude Code, Cursor) e testaram se conseguia completar cada tarefa com sucesso em pelo menos 50% das tentativas (6 tentativas por tarefa).
O ponto no gráfico indica a tarefa de maior duração (em tempo humano) que o modelo + harness conseguiu completar com 50% de sucesso.
O eixo Y mostra a duração da tarefa em horas humanas; o eixo X mostra a data de lançamento do modelo.
A METR também mede com 80% de sucesso, mas aí o melhor modelo (Claude Mythos Preview) só alcança ~3 horas, versus ~16 horas com 50%.
O gráfico NÃO mede capacidades gerais do modelo, nem significa que o modelo pode fazer qualquer tarefa que um humano levaria X horas – apenas uma tarefa específica do conjunto.
O significado real das durações
As durações humanas são de 'low context persons' (novatos ou contratados remotos), não de profissionais experientes no dia a dia.
A METR admite que não sabe exatamente como os humanos gastaram esse tempo (ex.: aprendendo a tarefa, pesquisando).
O melhor uso das durações é como uma escala abstrata de dificuldade relativa entre tarefas, não como medida literal de produtividade.
Portanto, dizer 'IA agora faz trabalho de 12 horas' é enganoso – significa que uma tarefa específica, que levou 12h para novatos, é concluída pela IA 50% das vezes.
Por que os modelos melhoraram tanto em programação
Até meados de 2024, o foco era pré-treinamento (prever tokens em grandes corpora), que atingiu um platô (verão de 2024).
A partir do outono de 2024, a indústria migrou para pós-treinamento: ajuste fino com reinforcement learning em dados específicos (ex.: código correto).
Modelos de raciocínio (ex.: o1, Sonnet 3.5) melhoraram a capacidade de planejar soluções passo a passo.
Os 'coding harnesses' (ex.: Claude Code) evoluíram com lógica artesanal (expert systems) – o código-fonte do Claude Code vazou e revelou enormes blocos de if-then-else e chamadas a ferramentas externas.
A combinação de modelos pós-treinados + harnesses sofisticados gerou saltos a partir de Opus 4.6 e Claude Mythos (final de 2025/início de 2026).
O gráfico reflete esse esforço concentrado de ~2 anos em programação, não uma aceleração geral da IA.
Modelo mental correto: rio vs. água subindo
Muitos interpretam o progresso da IA como 'água subindo' (capacidade geral aumenta uniformemente), mas o modelo correto é o de 'rios e afluentes'.
Cada aplicação (programação, e-mail, etc.) é um afluente que precisa ser explorado com ferramentas específicas; o sucesso em um não garante sucesso em outro.
Programação se mostrou um afluente navegável (Hudson River), mas outras áreas podem ser rasas ou cheias de corredeiras.
O índice Epoch Capabilities Index (ECI), que mede múltiplas capacidades, mostra apenas um aumento linear e ruidoso nos mesmos modelos – contrastando com o salto exponencial no gráfico da METR (focado só em programação).
Crítica às interpretações alarmistas
Tweets citados (ex.: 'AI power doubling every 103 days', 'threshold of ergotic alien intelligences') são típicos de comunidades transumanistas e de risco existencial.
Transumanistas (influenciados por Ray Kurzweil) adoram extrapolar exponenciais para prever transcendência ou destruição – é uma narrativa quase religiosa.
O gráfico da METR tem apenas dois pontos no trecho 'exponencial' – insuficiente para qualquer extrapolação séria.
Newport defende que as empresas de IA (OpenAI, Anthropic) precisam se distanciar dessas comunidades e comunicar suas ferramentas como inovações práticas, não como prenúncios de AGI.
Comparação: como o Partido Republicano se distanciou da John Birch Society nos anos 1960.
Resumo final e chamado à ação
O gráfico da METR mostra que o investimento em ferramentas de programação baseadas em IA está dando resultados – um sucesso comercial e técnico.
Isso não diz nada sobre o futuro da humanidade, AGI ou superinteligência.
Newport pede que líderes de IA (Dario Amodei, Sam Altman) parem de alimentar narrativas apocalípticas e falem como engenheiros: 'construímos isso, funciona para isso, falhamos naquilo'.
A mensagem principal: leve a IA a sério, mas não tudo o que dizem sobre ela.
Passos práticos
Se você é desenvolvedor, experimente ferramentas como Claude Code ou Cursor para tarefas específicas de programação, mas entenda suas limitações (não substituem profissionais experientes).
Ao ver gráficos de IA com curvas exponenciais, questione: o que exatamente está sendo medido? É uma tarefa específica ou capacidade geral?
Desconfie de extrapolações baseadas em poucos pontos de dados (ex.: dois pontos não fazem uma exponencial).
Empresas de IA: comuniquem avanços como inovações em nichos específicos, não como passos rumo à AGI.
Leigos: não assumam que avanços em programação se aplicam a outras áreas (saúde, direito, etc.).
Frases marcantes
"The time horizon is closer to what a 'low context person' such as a new hire or remote internet contractor can accomplish. An 8 hour time horizon does not mean that AIs can do eight hours of work that a high context human professional can do as part of their day-to-day job."
"One tributary being navigable doesn't necessarily tell you anything about another unrelated tributary."
"Why can't we just look at a tool and say, that's really cool. Let's see what happens next?"
"The transhumanist love this story. They move from exponential to exponential."
"We need a Dario Amodei or Sam Altman to look at these 'AI is going to eat everything' and say that's not us. That's kooky."
"Take AI seriously, but not everything that people say about it."
Mencionados no episódio
METR (AI Safety and Evaluation Organization) - organização que publicou o gráfico de horizonte temporal
Gary Marcus - pesquisador e autor que compilou reações alarmistas ao gráfico
Claude Opus 4.5 / 4.6 / Mythos - modelos da Anthropic mencionados no gráfico
Claude Code - coding harness da Anthropic (código-fonte vazou)
Cursor - coding harness mencionado
Codec - coding harness mencionado
GPT-2, GPT-4, GPT-4.5 - modelos da OpenAI
o1 preview - modelo de raciocínio da OpenAI
Claude Sonnet 3.5 - modelo da Anthropic
Epoch Capabilities Index (ECI) - índice que mede múltiplas capacidades de IA (mostra aumento linear)
Ray Kurzweil - autor de 'A Singularidade Está Próxima', influenciador transumanista
Max Tegmark - autor de 'Inteligência 3.0' (modelo de água subindo)
John Birch Society - grupo conspiratório dos anos 1960 (comparação de Newport)