A nova e surpreendente IA ‘Gato’ da DeepMind me faz temer que os humanos nunca alcancem a AGI
A DeepMind revelou um novo sistema de IA multimodal capaz de realizar mais de 600 tarefas diferentes.
Apelidado de Gato, é sem dúvida o kit de aprendizado de máquina tudo-em-um mais impressionante que do mundo que você vera.
De acordo com uma postagem do blog da DeepMind:
O agente, ao qual nos referimos como Gato, funciona como uma política generalista multimodal, multitarefa e multicorporativa. A mesma rede com os mesmos pesos pode reproduzir Atari, legendar imagens, bate-papo, empilhar blocos com um braço de robô real e muito mais, decidindo com base em seu contexto se a saída de texto, torques de juntas, pressionamentos de botão ou outros tokens.
E, embora ainda não se saiba exatamente o quão bem ele se sairá quando pesquisadores e usuários fora dos laboratórios DeepMind colocarem as mãos nele, Gato parece ser tudo o que o GPT-3 gostaria que fosse e muito mais.
Eis por que isso me deixa triste: o GPT-3 é um modelo de linguagem grande (LLM) produzido pela OpenAI, a empresa de inteligência geral artificial (AGI) mais bem financiada do mundo.
Antes de podermos comparar o GPT-3 e o Gato, no entanto, precisamos entender de onde o OpenAI e o DeepMind estão vindo como empresas.
OpenAI é uma criação de Elon Musk, tem bilhões em apoio da Microsoft, e o governo dos EUA basicamente poderia se importar menos com o que está fazendo quando se trata de regulamentação e supervisão.
Tendo em mente que o único objetivo da OpenAI é desenvolver e controlar uma AGI (que é uma IA capaz de fazer e aprender qualquer coisa que um humano possa, com o mesmo acesso), é um pouco assustador que tudo o que a empresa conseguiu produzir seja um LLM realmente sofisticado .
Não me entenda mal, o GPT-3 é impressionante. Na verdade, é indiscutivelmente tão impressionante quanto o Gato da DeepMind, mas essa avaliação requer algumas nuances.
A OpenAI seguiu a rota do LLM em seu caminho para a AGI por uma razão simples: ninguém sabe como fazer a AGI funcionar.
Assim como levou algum tempo entre a descoberta do fogo e a invenção do motor de combustão interna, descobrir como passar do aprendizado profundo para a AGI não acontecerá da noite para o dia.
O GPT-3 é um exemplo de IA que pode pelo menos fazer algo que pareça humano: gera texto.
O que a DeepMind fez com o Gato é, bem, praticamente a mesma coisa. Pegou algo que funciona muito como um LLM e o transformou em um ilusionista capaz de mais de 600 formas de prestidigitação.
Como Mike Cook, do coletivo de pesquisa Knives and Paintbrushes, disse recentemente a Kyle Wiggers do TechCrunch:
Parece emocionante que a IA seja capaz de fazer todas essas tarefas que soam muito diferentes, porque para nós parece que escrever texto é muito diferente de controlar um robô.
Mas, na realidade, isso não é muito diferente do GPT-3, entendendo a diferença entre texto em inglês comum e código Python.
Isso não quer dizer que seja fácil, mas para o observador externo pode parecer que a IA também pode fazer uma xícara de chá ou aprender facilmente outras dez ou cinquenta outras tarefas, e não pode fazer isso.
Basicamente, Gato e GPT-3 são sistemas de IA robustos, mas nenhum deles é capaz de inteligência geral.
Aqui está o meu problema: a menos que você esteja apostando na AGI emergindo como resultado de algum ato aleatório de sorte – o filme Short Circuit vem à mente – provavelmente é hora de todos reavaliarem suas linhas do tempo na AGI.
Eu não diria “nunca”, porque essa é uma das únicas palavras malditas da ciência. Mas, isso faz parecer que a AGI não acontecerá em nossas vidas.
A DeepMind trabalha na AGI há mais de uma década e na OpenAI desde 2015. E nenhuma delas conseguiu resolver o primeiro problema no caminho para resolver a AGI: construir uma IA que possa aprender coisas novas sem treinamento.
Acredito que o Gato pode ser o sistema de IA multimodal mais avançado do mundo. Mas também acho que o DeepMind adotou o mesmo conceito sem saída para AGI que o OpenAI e apenas o tornou mais comercializável.
Considerações finais: O que a DeepMind fez é notável e provavelmente renderá muito dinheiro à empresa.
Se eu sou o CEO da Alphabet (empresa controladora da DeepMind), ou estou transformando Gato em um produto puro, ou estou empurrando a DeepMind para mais desenvolvimento do que pesquisa.
Gato pode ter o potencial de ter um desempenho mais lucrativo no mercado consumidor do que Alexa, Siri ou Google Assistant (com o marketing certo e casos de uso aplicáveis).
Mas Gato e GPT-3 não são pontos de entrada mais viáveis para AGI do que os assistentes virtuais mencionados acima.
A capacidade do Gato de executar várias tarefas é mais como um console de videogame que pode armazenar 600 jogos diferentes, do que um jogo que você pode jogar de 600 maneiras diferentes. Não é uma IA geral, é um monte de modelos estreitos e pré-treinados agrupados ordenadamente.
Isso não é uma coisa ruim, se é isso que você está procurando. Mas simplesmente não há nada no trabalho de pesquisa de Gato que indique que isso seja um olhar na direção certa para a AGI, muito menos um trampolim.
Em algum momento, a boa vontade e o capital que empresas como DeepMind e OpenAI geraram por meio de sua insistência de olhos de aço de que a AGI estava chegando terão que mostrar até o menor dos dividendos.
Não é meio que arriscado deixar uma maquina conseguir aprender sozinho as coisas? Acho que é melhor parar por ai, porque dos filmes que conhecemos a partir do momento que a maquina aprende a fazer as coisas por conta própria é óbvio que o ser humano é uma ameaça a existencia do planeta.
Então concordo com você, acho super arriscado terceirizar tudo para uma IA, existem gurus de IA que já estão falando que algumas profissões ligadas a internet vão morrer, por exemplo designers.