Data Science na indústria: aplicações e datasets no Kaggle

Hoje muito se fala a respeito de Data Science,Machine Learning e Inteligência Artificial. Exemplos de aplicações de sucesso,principalmente nos setores varejista (churn prediction e sistema de recomendação),bancário (detecção de fraude) e de tecnologia (sistemas de busca) são bem comuns de se encontrar.

Há também uma extensa quantidade de cursos online,muitos deles bem interessantes e práticos, nos quais vários exemplos são explorados mostrando como os algoritmos são utilizados em bases de dados conhecidas mundialmente (como a Iris dataset).

O gráfico abaixo ilustra os tipos de algoritmos mais utilizados pelos cientistas de dados segundo o Kaggle:

Com todo esse mar de informações, não é difícil se sentir perdido ou com a sensação de “não sair do lugar”. Principalmente, quando acordamos pela manhã, empolgados para começar a estudar algum algoritmo de machine learning, e começamos a ser bombardeados por posts legais no LinkedIn ou no feed de notícias high tech favorito.Tudo parece não fazer mais sentido e acabamos deixando aquele estudo de lado…quem nunca se encontrou nessa situação, não é verdade?

Mas até agora não falamos nada sobre indústria, né?Isso porque nesse setor o cenário que encontramos é bem diferente.

Se em outros setores sobram referências sobre aplicações de Data Science, na indústria há pouca informação disponível:bases de dados, casos de sucesso ou detalhes de implementação. Essa escassez leva até mesmo à indagação se o uso dessa tecnologia seria possível no meio industrial.

A falta de uma maior disponibilidade de referências têm diferentes razões. Primeiro, há um fator cultural: a indústria(principalmente a de base: mineração, siderurgia, óleo e gás) costuma ser um pouco mais conservadora em relação ao uso de novas tecnologias, até por não querer correr o risco de acidentes ou perdas de produção ao experimentar algo“pouco conhecido ou validado” no âmbito industrial. Segundo, muitas vezes os casos existentes não podem ser divulgados por questões de propriedade intelectual.

Mas fato é que o uso de Data Science na indústria é possível, e algumas empresas deste meio já têm investido nisso. Em um trabalho recente que fizemos para uma grande mineradora no Brasil, foram utilizadas técnicas de detecção de anomalia e regressão linear para detectar vazamentos em uma tubulação de transporte de minério. Já em um outro projeto para a Anglo American, utilizamos algoritmos de deep learning para predizer a qualidade em uma etapa do processo de beneficiamento de minério. Um último exemplo: na Nexa Resources (antiga Votorantim), implantamos toda uma infraestrutura de Big Data para processar os diversos dados de uma de suas unidades fabris.

Pensando em aumentar o número de informações disponíveis e elevar o nível da discussão, a ihm Stefanini criou seu perfil no Kaggle, a maior comunidade online de cientistas de dados do mundo. Nesse perfil foram disponibilizados dados reais da indústria num dataset que foi inclusive revisado pela própria equipe Kaggle. Mais dados serão disponibilizados em breve, assim como as abordagens utilizadas e os códigos desenvolvidos. Esperamos dessa forma contribuir para o crescimento do uso de Data Science nesse meio industrial e propiciar um maior aprendizado inclusive para nós mesmos, trocando informações com cientistas de dados de todo o globo.

O sucesso de um projeto depende, no entanto, de fatores que vão muito além do acesso aos dados e da capacidade de programação.Em 2017, um relatório da Gartner estimou que 60% dos projetos de analytics e big data falham. Mas a realidade é ainda mais grave: de acordo com o analista da Gartner Nick Heudecker‏, a Gartner foi “muito conservadora” com essa estimativa. A taxa real de falha, segundo ele, seria próxima de 85%.

Acreditamos que a alta taxa de falha de projetos de analytics tem relação com um quesito muito importante chamado Domain Knowledge:o conhecimento específico e o domínio dos processos com os quais se está lidando. No caso da indústria, tais processos costumam ter alta complexidade e seu conhecimento acaba sendo relativamente restrito. Porém, nos casos em que estivemos presentes, foi justamente o Domain Knowledge dos times envolvidos em cada projeto o que mais fez a diferença. A experiência em chão de fábrica acumulada ao longo dos anos foi de grande valia na construção da solução, sempre em consonância com as necessidades do cliente. A velha máxima é sempre válida:

          “Soluções simples para problemas simples, soluções complexas para problemas complexos.”

No fim das contas, é possível sim aplicar ciência dedados à indústria, independente da tecnologia e da linguagem de programação utilizadas (que podem incluir até mesmo uma regressão linear, em alguns casos).O que fará real diferença será o conhecimento que o time envolvido tem para compreender os problemas comuns da indústria.