Demonstração do Google para ChatGPT Rival criticada por alguns funcionários
A recém-revelada tecnologia de IA do Google não funciona tão bem como algumas pessoas supunham, mas a empresa diz que mais atualizações virão no ano novo.
O Google surpreendeu os espectadores esta semana com um vídeo de demonstração de seu novo rival ChatGPT. Num caso, porém, a tecnologia não funciona tão bem como as pessoas supunham. Mas primeiro…
Três coisas para saber:
• Os representantes da UE continuam divididos sobre as regras da IA após quase 24 horas de debate
• Um fornecedor popular de sistemas drive-thru alimentados por IA depende fortemente de seres humanos para rever as encomendas
• A Air Space Intelligence, uma startup de IA para o setor aeroespacial, foi avaliada em cerca de 300 milhões de dólares em novos financiamentos
O problema do pato do Google
Quando o Google revelou o Gemini, sua tão esperada resposta ao ChatGPT, talvez o caso de uso mais impressionante envolvesse um pato. Em um vídeo de demonstração pré-gravado compartilhado na quarta-feira, uma mão desencarnada é mostrada desenhando o animal. O sistema de IA parece analisá-lo em tempo real à medida que é desenhado e responde com uma voz humana na conversa com o usuário.
O CEO do Google, Sundar Pichai, promoveu o vídeo no X, escrevendo: “A melhor maneira de entender as incríveis capacidades subjacentes do Gemini é vê-los em ação, dê uma olhada ⬇️.” Outros no X disseram que a demonstração era “ alucinante ” e “ irreal ”.
Mas a tecnologia não funciona tão bem como as pessoas supunham, como muitos apontaram rapidamente . No momento, Gemini não diz suas respostas em voz alta e você provavelmente não pode esperar que suas respostas sejam tão polidas quanto parecem no vídeo. Alguns funcionários do Google também denunciam essas discrepâncias internamente.
Um Googler disse à Bloomberg que, na opinião deles, o vídeo mostra uma imagem irreal de como é fácil obter resultados impressionantes do Gemini. Outro funcionário disse que não ficou muito surpreso com a demonstração porque está acostumado com algum nível de entusiasmo de marketing na forma como a empresa posiciona publicamente seus produtos. (Claro, todas as empresas fazem isso.) “Acho que a maioria dos funcionários que já brincaram com qualquer tecnologia LLM sabe que deve encarar tudo isso com cautela”, disse o funcionário, referindo-se à sigla para grandes modelos de linguagem, que potencializam Chatbots de IA: essas pessoas pediram para não serem identificadas por medo de repercussões profissionais.
“Nosso vídeo de demonstração Hands on with Gemini mostra resultados reais do Gemini. Criamos a demonstração capturando imagens para testar as capacidades do Gemini em uma ampla gama de desafios”, afirmou o Google em comunicado. “Em seguida, solicitamos Gemini usando quadros de imagens estáticas da filmagem e solicitando via texto.”
Para seu crédito, o Google revelou que o que é mostrado no vídeo não é exatamente como o Gemini funciona na prática. “Para os propósitos desta demonstração, a latência foi reduzida e as saídas do Gemini foram encurtadas por questões de brevidade”, diz uma descrição da demonstração enviada ao YouTube. Em outras palavras, o vídeo mostra uma versão mais curta das respostas originais do Gemini e o sistema de IA demorou mais para apresentá-las. O Google disse à Bloomberg que as palavras individuais nas respostas de Gêmeos não foram alteradas e a narração capturou trechos do texto real de Gêmeos.
Eli Collins, vice-presidente de produto do Google DeepMind, disse à Bloomberg que a demonstração de desenho de pato ainda era um recurso de pesquisa e não nos produtos reais do Google, pelo menos por enquanto.
Gemini, lançado na quarta-feira, é o resultado do trabalho do Google ao longo deste ano para alcançar o ChatGPT da OpenAI e recuperar sua posição como líder indiscutível na indústria de IA. Mas a demonstração do pato destaca a lacuna entre a promessa da tecnologia de IA do Google e o que os usuários podem experimentar agora.
O Google disse que o Gemini é o seu maior, mais capaz e flexível modelo de IA até o momento, substituindo o PaLM 2, lançado em maio. A empresa disse que o Gemini excede os principais modelos de IA em 30 dos 32 testes de benchmark para raciocínio, matemática, linguagem e outras métricas. Ele supera especificamente o GPT-4, um dos modelos de IA mais recentes da OpenAI, em sete dos oito benchmarks, de acordo com o Google, embora algumas dessas margens sejam pequenas. O Gemini também é multimodal, o que significa que pode compreender vídeo, imagens e código, diferenciando-o do GPT-4, que só pode inserir imagens e texto.
“É uma nova era para nós”, disse Collins em entrevista após o evento. “Estamos inovando do ponto de vista da pesquisa. Este é V1. É apenas o começo.”
O Google está lançando o Gemini em uma implementação em camadas. Gemini Ultra, a versão mais capaz e que a empresa afirma superar o GPT-4 na maioria dos testes, só será lançada no início do próximo ano. Outros recursos, como os demonstrados no vídeo do pato, permanecem em desenvolvimento.
Internamente, alguns Googlers têm discutido se mostrar o vídeo sem uma divulgação proeminente poderia ser enganoso para o público. Em um fórum corporativo envolvendo toda a empresa, um Googler compartilhou um meme sugerindo que o vídeo do pato foi editado de forma enganosa. Outro meme mostrava um desenho animado de Homer Simpson orgulhosamente em pé, de cueca, com a legenda: “Avisos de demonstração de Gêmeos”. Foi contrastado com uma imagem menos lisonjeira de Homer na mesma posição, visto de trás, com a pele solta e amontoada. A legenda: “as instruções reais”.
Outro Googler disse em um comentário: “Acho que os criadores do vídeo valorizaram mais o aspecto da ‘narrativa’”.
ChatGPT vs. Gemini: prática
Por enquanto, os usuários podem brincar com a versão média do Gemini no chatbot gratuito do Google, Bard. A empresa disse que esta iteração superou a versão comparável do modelo GPT da OpenAI (GPT 3.5) em seis dos oito testes de benchmark da indústria.
Em nossos próprios testes limitados com o novo e renovado Bard, descobrimos que ele estava no mesmo nível ou melhor que o ChatGPT 3.5 e, em alguns aspectos, melhor que o antigo Bard. No entanto, ainda não é confiável em algumas tarefas.
Das sete questões de matemática e raciocínio do SAT que solicitamos a Bard, ele respondeu corretamente quatro, respondeu incorretamente duas e disse que não sabia a resposta para uma. Ele também respondeu corretamente a uma em cada três questões de compreensão de leitura. Quando testamos o GPT 3.5, ele produziu resultados semelhantes, mas foi capaz de responder a uma pergunta que deixou Bard perplexo.
Bard, como todos os modelos de linguagem extensa, ainda tem alucinações ou às vezes fornece informações incorretas. Quando pedimos a Bard, por exemplo, para nomear em qual modelo de IA ele roda, ele me disse incorretamente PaLM2, a versão anterior que ele usava.
Em algumas tarefas orientadas para o planejamento, os recursos do Bard pareciam uma clara melhoria em relação à iteração anterior do produto e em comparação com o ChatGPT. Quando solicitado a planejar uma viagem de meninas para Miami, por exemplo, Bard me deu uma análise útil do dia a dia, separada em itinerários de manhã, tarde e noite. No primeiro dia começou com um “delicioso café da manhã cubano” em um restaurante local, um passeio de barco pela Baía de Biscayne e uma noitada em South Beach. Quando dei a mesma solicitação ao ChatGPT 3.5, as respostas foram mais longas e menos específicas.
Para testar a criatividade de Bard, pedimos que escrevesse um poema sobre o recente caos nas salas de reuniões da OpenAI. Ele surgiu com algumas frases taciturnas, incluindo: “OpenAI, nas garras da turbulência/Visões de Saw destruídas, alianças divididas”. O poema do GPT 3.5 também não capturou o clima porque só terá acesso a informações online até o início de 2022“ Quem paga pelo ChatGPT 4, no entanto, pode obter informações em tempo real, e sua poesia foi mais direta: “ Sam Altman, um nome, nas manchetes/Um líder em questão, um futuro vasto.”
Em nossa entrevista, Collins da DeepMind disse que Bard é “um dos melhores chatbots gratuitos” do mundo agora com a atualização Gemini. Com base em nossos testes limitados, ele pode estar certo.
Fonte: Bloomberg
No Comment! Be the first one.