Home  >  Plataformas

Nvidia leva IA para oferecer melhor experiência às plataformas de videoconferências

Com nova Nvidia Maxine Platform, fabricante busca tornar as videochamadas uma experiência mais 'cara a cara'

Carla Matsu

05/10/2020 às 10h05

Foto: Divulgação

Com a pandemia e medidas de isolamento social, as videoconferências se tornaram parte do nosso dia a dia muito mais do que nós gostaríamos de admitir. E a qualidade da transmissão e alguns ruídos não ajudam, certamente, a melhorar a experiência da interação virtual no dia a dia. A inteligência artificial e o alto poder de processamento na nuvem, entretanto, podem resolver parte do desconforto existencial dessa equação, promete a Nvidia ao anunciar nesta segunda-feira (5/10) o que chamou de Nvidia Maxine Platform.

Com a Maxine Platform, fornecedores de serviços de videochamadas que rodam a plataforma nas GPUs da Nvidia na nuvem poderão se beneficiar de recursos alimentados por IA. Entre os novos efeitos exemplificados pela Nvidia e otimizados com a IA que poderão ser desenvolvidos estão a “correção” do olhar, o que permitiria ao interlocutor a aparência de manter o contato visual com a câmera; super resolução; cancelamento de ruídos para além da voz daquele que fala; iluminação facial, entre outros.

Uma vez que os dados são processados na nuvem, e não em dispositivos locais, os usuários finais poderão aproveitar os novos recursos sem nenhum hardware especializado, reforçou a Nvidia.

“Videoconferências agora fazem parte da vida cotidiana, ajudando milhões de pessoas a trabalhar, aprender e se divertir, e até mesmo a ver o médico”, disse Ian Buck, vice-presidente e general manager de Accelerated Computing da NVIDIA. “Nvidia Maxine integra nossos recursos mais avançados de vídeo, áudio e IA de conversação para trazer inovadora eficiência e novos recursos para as plataformas que estão nos mantendo todos conectados.”

IA para otimizar a transmissão

Para entregar esse tipo de experiência mais fluida por intermédio das plataformas de videoconferência, a Nvidia explica que a Maxine Platform consegue reduzir drasticamente a quantidade de largura de banda necessária para chamadas de vídeo. Ao mesmo tempo, em vez de transmitir a tela inteira de pixels, o software de IA analisa os principais pontos faciais de cada pessoa em uma chamada e, em seguida, reanima de forma inteligente o rosto no vídeo do outro lado. Isso torna possível o streaming de vídeo com muito menos dados fluindo de um lado para outro na Internet.

De acordo com a Nvidia, usando esse tipo de tecnologia de compressão de vídeo baseado em Inteligência Artificial, os desenvolvedores podem reduzir o consumo de largura de banda de vídeo em até um décimo dos requisitos do padrão de compressão de streaming de vídeo H.264. "Isso corta custos para os provedores e oferece uma experiência de videoconferência mais fluida para os usuários finais, que podem desfrutar de mais serviços baseados em IA enquanto transmitem menos dados em seus computadores, tablets e telefones", diz a Nvidia.

A próxima geração na experiência de videochamadas

A Inteligência Artificial já faz parte do nosso dia a dia, sejam nas demandas unilaterais e autoritárias aos nossos assistentes de voz sejam nos algoritmos que atuam nos bastidores do nosso comportamento on-line para sugerir aquilo que possivelmente gostaríamos de clicar. Se a Inteligência Artificial já superou até mesmo os melhores jogadores de xadrez e Go, seria questão de tempo até ela atuar em uma das atividades que se tornaram mais corriqueiras na nossa rotina corporativa.

No caso da Nvidia, a fabricante referência em cards gráficos para a indústria de videogames e em GPUs para uso de IA e Machine Learning, entrar na indústria de aplicativos de colaboração e videochamadas, soa um movimento estratégico. E a companhia ainda possui sob sua vantagem uma área de pesquisas dedicada em Generative Adversarial Networks (GANs) para melhorar essa experiência.

Segundo a Nvidia, os novos avanços da sua área de pesquisa em GANs vêm para tornar a videoconferência mais parecida com uma conversa cara a cara. Entre as possibilidades: o alinhamento do rosto permite que os rostos sejam ajustados automaticamente para que as pessoas pareçam estar de frente uma para a outra durante a chamada, enquanto a correção do olhar ajuda a simular o contato visual, mesmo se a câmera não estiver alinhada com a tela do usuário. Esses recursos ajudam as pessoas a se manterem envolvidas na conversa, em vez de olhar para a câmera.

Com o SDK Nvidia Jarvis, framework da Nvidia para serviços de conversação com AI, desenvolvedores poderão integrar assistentes virtuais que usam modelos de linguagem de IA para reconhecimento de discurso e reconhecimento de linguagem, o que permitiria, por exemplo, tradução em tempo real. Os assistentes virtuais poderiam ainda tomar notas e responder às perguntas de pessoas.

Segundo a companhia, o design modular da plataforma Maxine permite que os desenvolvedores selecionem facilmente os recursos de IA para integrar em suas soluções de videoconferência.

Disponibilidade - De acordo coma Nvidia, desenvolvedores de IA de visão computacional, parceiros de software, startups e outros parceiros poderão se inscrever para acesso antecipado à plataforma Nvidia Maxine.