Home  >  Sem Categoria

Oracle lança plataforma de ciência de dados baseada na nuvem

Com aquisição do DataScience.com, Oracle desenvolveu plataforma de ciência de dados de nível empresarial focada na colaboração

Thor Olavsrud, CIO (EUA)

14/02/2020 às 17h00

Foto: Shutterstock

A Oracle anunciou uma nova plataforma de ciência de dados baseada em nuvem. A solução, construída a partir do DataScience.com, que foi adquirido pela companhia em 2018, é voltada para equipes de cientistas de dados trabalhando em colaboração. Seus recursos incluem projetos compartilhados, catálogos de modelos, políticas de segurança, reprodutibilidade e auditabilidade.

A plataforma possui o serviço Oracle Cloud Infrastructure Data Science em seu núcleo. Ele fornece aos usuários a capacidade de criar, treinar e gerenciar algoritmos de aprendizado de máquina no Oracle Cloud usando Python, TensorFlow, Keras, Jupyter e outras ferramentas populares de ciência de dados. Seis serviços adicionais completam a solução, incluindo novos recursos de aprendizado de máquina integrados ao Oracle Autonomous Database, o Oracle Cloud Infrastructure Data Catalog, o Oracle Big Data Service, o Oracle Cloud SQL, o Oracle Cloud Infrastructure Data Flow e o Oracle Cloud Infrastructure Virtual Machines para Data Science.

"O serviço é realmente o primeiro do seu tipo em termos de ser nativo em nuvem", disse Greg Pavlik, vice-presidente sênior de desenvolvimento de produtos da Oracle Data e AI Services. "Ele está focado em fornecer um ambiente de colaboração e governança para cientistas de dados."

Segundo Pavlik, a oferta visa o ciclo de vida completo do aprendizado de máquina na empresa, o que significa que não se trata apenas de desenvolver ou treinar modelos, mas também de levar esses modelos para a produção e mantê-los. "Conforme os dados mudam, os modelos se tornam potencialmente menos válidos e os usuários precisam continuar os aproveitando dentro de aplicativos ou em relatórios analíticos. Por outro lado, eles precisam ter uma alta confiabilidade na sua reutilização, dando boas respostas", acrescentou o executivo.

Simplificando a ciência de dados

Com o Oracle Cloud Infrastructure Data Science, a Oracle está adotando plataformas de concorrentes como Alteryx, KNIME Analytics Platform e RapidMiner, com foco na automação do fluxo de trabalho de ciência de dados.

A plataforma utiliza a seleção e o ajuste do algoritmo AutoML, usando modelos de aprendizado de máquina para selecionar o algoritmo mais adequado para aplicações específicas, ajudar o usuário a escolher entradas do algoritmo e ajustar os modelos. A solução também identifica automaticamente os principais recursos preditivos de conjuntos de dados maiores.

O Oracle Cloud Infrastructure Data Science auxilia, ainda, na avaliação do modelo, gerando um conjunto de métricas e visualizações para ajudar os usuários a medir o desempenho em relação a novos dados, classificando-os ao longo do tempo.

Para apoiar os esforços de conformidade e ajudar as equipes de dados a estabelecer confiança na saída de seus algoritmos, a oferta da Oracle fornece explicações automatizadas da importância dos fatores usados ​​para gerar uma previsão.

"Temos recursos avançados que desenvolvemos no Oracle Labs para a explicabilidade do modelo", afirmou Pavlik. "Isso é realmente proporcionar entendimento sobre o que está levando o modelo à sua previsão, o que é particularmente importante para situações regulatórias nas quais você deve ser capaz de explicar: Por que a empresa está tomando essa decisão? Por que o modelo está nos dizendo para fazer isso?"

Projetos compartilhados

Para apoiar a colaboração, a Oracle se inspirou nos modernos processos de desenvolvimento de software, adicionando recursos que suportam projetos compartilhados, catálogos de modelos, políticas de segurança, reprodutibilidade e responsabilidade.

"O grande problema que costumamos ver com as equipes é que os cientistas de dados estão baixando um monte de coisas em seus laptops e depois estão trabalhando em isolamento", explicou Pavlik. "Você perde parte do senso de responsabilidade, segurança, algumas das melhores práticas que você adotaria no desenvolvimento de software. Então, estamos procurando ajudar as organizações a resolver esse problema sem tirar nada do cientista de dados."

A plataforma permite que as equipes aproveitem o controle de versão e compartilhem sessões de dados. Usando catálogos de modelos, as equipes também podem compartilhar modelos e os artefatos necessários para modificá-los e implementá-los. As políticas de segurança baseadas em equipe fornecem controles de acesso a modelos, códigos e dados, todos integrados ao Oracle Cloud Infrastructure Identity and Access Management. As organizações também podem rastrear ativos por meio da plataforma, garantindo que os modelos possam ser reproduzidos e auditados, mesmo que os membros da equipe saiam.

Serviços adicionais

O Oracle Cloud Infrastructure Data Science está no centro da nova Oracle Cloud Data Science Platform, mas a gigante da tecnologia também lançou outros seis serviços de aprendizado de máquina e dados para dar suporte à plataforma e integrá-la à oferta geral de nuvem da empresa.

Os seis serviços adicionais incluem:

  • Novos recursos de aprendizado de máquina no Oracle Autonomous Database. A Oracle adicionou suporte ao Python e aprendizado de máquina automatizado ao Oracle Autonomous Database. A integração futura com o Oracle Cloud Infrastructure Data Science dará aos cientistas de dados a capacidade de desenvolver modelos usando algoritmos de código aberto e escalonáveis ​​no banco de dados.
  • Catálogo de Dados do Oracle Cloud Infrastructure. O catálogo de dados fornece a capacidade de descobrir, localizar, organizar, enriquecer e rastrear ativos de dados. Possui um glossário comercial incorporado.
  • Serviço de Big Data da Oracle. Este serviço oferece uma implementação completa do Cloudera Hadoop, além de aprendizado de máquina para o Spark.
  • Oracle Cloud SQL. Este serviço oferece aos usuários a capacidade de executar consultas SQL em dados no HDFS, Hive, Kafka e NoSQL.
  • Fluxo de dados do Oracle Cloud Infrastructure. O serviço permite que os usuários executem aplicativos Apache Spark sem implantar ou gerenciar a infraestrutura.
  • Máquinas virtuais do Oracle Cloud Infrastructure para Data Science. O serviço oferece ambientes pré-configurados baseados em GPU por US$ 30 por dia.