Mercado

Por Articulistas Convidados
Sobre esse blog:

Blog coletivo da Computerworld

Home > Mercado

Era da incerteza digital

20 de Dezembro de 2013 - 09h26

* Por Claudio Pinhanez

Nada representa melhor a inundação de Big Data do que estamos vivendo que a explosão da quantidade de dados e informações sobre indivíduos, causada, em grande parte, pela emergência dos sites de redes sociais como Facebook, Twitter e LinkedIn.

Nunca na história humana houve acúmulo tão grande de registros sobre a vida de cada um de nós, nossos pensamentos, desejos, amigos e loucuras. Possivelmente inspirados no desejo de imitação de celebridades, temos trazido a público um volume de dados sobre a experiência humana muito além do sonho mais idílico de qualquer antropólogo ou cientista social.

Mas o brilho nos olhos do cientista social é uma pífia lanterna se comparado com as possibilidades vislumbradas pelos marketeiros. Conhecer os desejos de cada consumidor, seu perfil e o que acontece na sua vida, usando essa informação para levar a oferta certa no momento oportuno e no preço exato, é agora o objeto universal do desejo corporativo. E também dos políticos, é claro.

Vive-se a impressão de que as informações estão lá, disponíveis, prontas para serem coletadas, agregadas e utilizadas, sendo necessário somente implementar aquele tal de sistema Hadoop tão mencionado pelo pessoal do aquário da TI, mais comprar um feed ou um crawler, que o departamento de marketing vai saber mais sobre cada consumidor do que o Obama e seu time do NSA.

Seria lindo se fosse assim, mas a vida é como ela é. Pessoas são incertas dos seus quereres, imprecisas, contraditórias, falsas, inexatas, fazem besteiras e têm o péssimo costume de não prover todas as informações de sua vida às redes sociais. Às vezes inventam múltiplas personalidades ou usam uma conta em conjunto com a namorada, ou pretendem ter uma vida que não têm, com amigos que não existem.

O mar de informações nas redes sociais é, porque a vida é como ela é, um oceano de imprecisão, incongruência, inexatidão e incorretude. Infernalmente impreciso. Hadoop e similares são poderosos aliados na navegação, mas seu mapeamento e redução infelizmente têm poderes limitados para diminuir o enjoo dantesco causado pelo movimento incessante, imprevisível e, por vezes, caótico desse mar de incertezas.

No contexto da panaceia hadoopiana em que vivemos, é compreensível cair na ilusão de que soluções simples serão remediadas pela enormidade dos big dados. Mas, como aprendemos com o fracasso dos sistemas inteligentes baseados em regras e lógica formal dos anos “áureos” da inteligência artificial na década de 80, lidar com imprecisão, incerteza e incorretude só é possível com sistemas computacionais que utilizem métodos e modelos probabilísticos.

Incerteza dos dados

A era de big dados sociais só consegue ser viabilizada em uma escala confiável se nossos sistemas conseguirem lidar com pessoas que, por exemplo, anunciam o noivado no Facebook e fazem, ao mesmo tempo, a inscrição em um site de encontros furtivos com vizinhos. Não se trata de dados contraditórios, talvez, um tanto incomuns. A vida como ela é, os dados como eles são.

A regata tecnológica por soluções e métodos para navegar o mar de incertezas já está em pleno andamento. A IBM investiu milhões de dólares para construir um computador capaz de lidar com o mar de trivialidades do programa de televisão americano Jeopardy, o programa de perguntas e respostas mais difícil do mundo.

O computador, chamado de “Watson”, digere textos de milhões de livros e cria uma estrutura gigante de busca na memória. Dada uma pergunta (às vezes com pegadinha!) o sistema filtra como uma baleia supersônica o mar de dados, encontra emaranhados de possíveis respostas, e determina qual possível resposta é mais provável combinando probabilisticamente centenas de informações possivelmente relevantes.

O “Watson” reduziu a pó de traque os antigos campeões humanos do Jeopardy, uma surra tão grande quanto a que o Kasparov levou no xadrez de outro computador da IBM, o “Deep Blue”, na década de 90. E está deflagrada a era da computação de grandes volumes de dados com incerteza, batizada pela IBM como a era da Computação Cognitiva.

Outros barcos estão na regata pelo domínio desse mar de dados incertos. No início de 2013, a Google contratou Geoffrey Hinton, o pai das redes neurais, para nortear a procura por soluções de aprendizado probabilístico de máquina para busca em dados humanos.

Hinton e Ray Kurzweil, aquele da Singularidade, estão trabalhando em projetos de desenvolvimento de sistemas capazes de lidar com dados de forma inteligente, utilizando o buzzword mais quente do momento, “deep learning”. O “map/reduce” está ficando mais fora de moda do que bolerinho.

Correndo por fora, em dezembro de 2013, a Facebook anunciou a abertura de um novo laboratório de inteligência artificial, chefiado por nada menos que Yann LeCun, o cientista que descobriu como treinar eficientemente sistemas de “deep learning”.
Eric Horvitz, o lendário defensor de raciocínio com incerteza, continua na Microsoft. E o pessoal do MIT acaba de anunciar a primeira versão do BayesDB, um banco de dados bayesiano que computa implicações de dados a partir de BQL, ou Bayesian Query Language.

“INFER salary FROM mytable WHERE age > 30 WITH CONFIDENCE 0.95” é a query do momento, SQL está mais por fora que sandália gladiadora. Será que o futuro de Python é semelhante ao de loja de brigadeiro?

Amanhece na era da incerteza digital. É hora de acordar para a vida como ela é, e para os dados como eles são. É hora dos profissionais de computação tirarem a poeira dos livros de probabilidade soterrados na estante ou, mais apropriadamente, buscarem um dos muitos cursos online de aprendizado de máquina e similares.  Aliás, cursos com os próprios LeCun e Hinton podem ser encontrados. A única certeza é o mar de dados incertos em que teremos que tentar navegar, nós novos Colombos e Cabrais, munidos com nossas novíssimas bússolas probabilísticas. Navegar é preciso!

* Claudio Pinhanez vive na fronteira entre o lógico e o probabilístico desde os seus tempos de doutorado no Media Lab do MIT. Hoje dirige um grupo de pesquisa no laboratório da IBM Research no Brasil, focado em análise de dados sociais e humanos.

Posts anteriores

Todos os Blogs