Sinal
🎙️ Dwarkesh Patel · 2026-05-15

What rebuilding AlphaGo teaches us about self-play, RL, and future of LLMs - Eric Jang

Eric Jang explica como reconstruiu o AlphaGo do zero durante seu sabático, detalhando Monte Carlo Tree Search, redes neurais de política e valor, e auto-aprendizagem. O episódio conecta esses conceitos ao futuro dos LLMs, destacando como a busca em árvore pode superar a ineficiência do RL tradicional em modelos de linguagem.

Dwarkesh Patel (host)Eric Jang (ex-VP de IA na 1X, ex-Google DeepMind Robotics)
▶ Assistir no YouTube

Principais lições

Regras do Go e diferenças entre regras humanas e computacionais

Monte Carlo Tree Search (MCTS) sem redes neurais

Redes de política e valor: arquitetura e treinamento inicial

MCTS com redes neurais: seleção, expansão, avaliação e backup

Auto-aprendizagem (self-play) e melhoria iterativa

Comparação com RL ingênuo e conexão com LLMs

Neural Fictitious Self-Play (NFSP) como alternativa sem busca

Conexão entre MCTS e Q-learning

Implicações para o futuro dos LLMs e problemas NP-difíceis

Passos práticos

Frases marcantes

"Uma rede neural de 10 camadas consegue amortizar e aproximar com alta fidelidade um problema de busca quase intratável."
"MCTS não tenta fazer crédito-assignment sobre vitórias; ele melhora o rótulo de cada ação individualmente."
"O que parece um problema NP-difícil no pior caso pode ter estrutura suficiente para ser resolvido na prática por redes neurais."
"Em RL ingênuo, você tem um sinal de supervisão para cada 99×300 ações neutras e uma ação realmente boa — a variância é péssima."
"A diferença entre MCTS e Q-learning é que um planeja sobre futuros não visitados, o outro sobre trajetórias já coletadas."
"Se você quer que MCTS funcione, a função de valor precisa ser precisa — senão a busca inteira desanda."

Mencionados no episódio