Data science com tecnologia livre é possível? Spoiler: a resposta é sim
Uma nova área de conhecimento científico está nascendo e, quando pensamos no contexto em que vivemos, não é de se surpreender. Se estamos presenciando o desenvolvimento da indústria 4.0, é certo que ela será baseada no que mais importa para as empresas atualmente: dados, dados e mais dados.
“Em poucos anos haverá nas empresas uma área só para isso. O setor de tecnologia da informação vai existir, mas surgirá outro focado apenas na análise de dados”, prevê Márcio Junior Vieira.
Fundador e CEO da Ambiente Livre, cientista de dados e arquiteto de software, Vieira falou na manhã desta sexta-feira (13) na palestra Elaborando uma plataforma de Big Data & Analytics 100% Open, realizada no FISL 18.
Resumidamente, a chamada data science é uma forma de usar tecnologias já existentes para extrair insights e conhecimentos a partir de dados. Neste momento, as tecnologias convergem, e a data science se une ao big data, inteligência artificial, data mining, analytics, entre outras.
E por que todas as empresas vão querer saber de data science? Porque, com ela, há uma melhora na precisão das demandas – quem não gostaria de saber precisamente o quanto vai vender em janeiro de 2019? Além disso, é possível desenvolver novos serviços, descobrir novos padrões de demanda e realizar um planejamento de oferta em tempo real, utilizando recursos e dados de sensores de produção e da internet das coisas. Da mesma forma, a inteligência artificial traz vantagens competitivas como automação e, consequentemente, a redução de custos – estimativas indicam que 60% das funções no mercado de trabalho podem ter pelo menos um terço das suas atividades automatizadas.
Mas encontrar um profissional de data science não é tarefa fácil — e, por isso, o profissional da área já vem sendo chamado de unicórnio –, o que significa oportunidade. Além disso, a quantidade de ferramentas existentes é avassaladora. Mas, entre elas, existe um universo um pouco menor de ferramentas de software livre e open source, igualmente ou mais eficientes do que as proprietárias. “Pode até haver uma briga entre essas duas categorias (SL e open source) mas eu não entro nela. O importante é que sejam tecnologias abertas”, afirmou Vieira.
Vamos, então, ao passo a passo da data science e suas ferramentas. A primeira coisa que você precisa é capturar dados, e, para isso,pode contar com soluções como Zabbix, Dronecode, Apache Nutch, Apache Kafka, Spark Streaming e Apex, por exemplo.
Passo dois: armazenar dados. É preciso espaço, então são imprescindíveis tecnologias clusterizadas, que possam armazenar informações em mais de um computador — no mundo data science, se a ferramenta não clusteriza, não serve. “Para isso, o Hadoop HDFS é o mais utilizado. Você pode transformar cada computador em um pedaço do seu HD, e o limite de máquinas que pode colocar no cluster é limitado pelo IPV4”, avaliou. Entre as opções de ferramentas de banco de dados estão ElasticSearch, MariaDB, PostgreSQL, HBase, Apache Solr, MongoDB e Alfresco — que pode, por exemplo, guardar documentos jurídicos e usar machine learning. “Hoje é possível até fazer auditoria de documentos de forma automatizada”, destacou.
Agora, você precisa processar. O Spark, por exemplo, permite processar dados de forma distribuída — se tiver dez máquinas com dez processadores, ele cria um cluster. “A próxima onda vai ser o Apache Flink, já há algumas pessoas migrando para ele”, disse Vieira, em outra previsão. Ele lembra ainda que é possível fazer isso em Python, que também permite clusterizar. Se a ideia for trabalhar com processamento de imagem — como em lojas em que você apenas pega o produto e sai, e ela cobra processando visualmente –, é possível utilizar o OpenCV, que permite processar grande volume de dados.
Quarta etapa, Data Visualization e Query analytics: você precisa mostrar a informação processada para o usuário de forma simples, objetiva e visual. Ferramentas como Kibana e Saiku são indicadas para organizar esses dados de maneira clara e acessível. “As ferramentas de visualização também permitem que você monte dashboards em tempo real, podendo ser mais simples ou mais complexas”, destacou.
Machine learning
Vieira disse, ainda, que é importante lembrar que estamos passando por um momento de machine learning, e há centenas de opções livres. “Todos estão usando o Watson, da IBM, mas assim você nunca vai ter sua própria base de conhecimento. Vai estar sempre perguntando para alguém a resposta”, apontou. Para ele, a construção de uma base própria é imprescindível. Entre as ferramentas mais comuns está a TensorFlow, criada pelo Google.
“Minha ideia é dizer para vocês que não é preciso se prender a plataformas SaaS como a Amazon. Com elas, você vai encontrar facilidade. Mas no mundo open source, vai encontrar desafio. Não estou apresentando o melhor mundo, mas o da independência e da liberdade”, afirmou, acrescentando que, entre suas ferramentas preferidas estão Weka, Apache Mahout e Spark MLlib, também da Apache.
Líder em data science
Você deve ter reparado que a Apache marcou forte presença neste texto, né? Pois há um motivo para isso: para Vieira, ela é a empresa líder líder na data science mundial. Ela conta com 43 projetos na linha big data — Hadoop e Spark — e 25 projetos de database, incluindo o Cassandra.
Outra dica deixada pelo especialista é conhecer o Pentaho, software de código aberto para inteligência empresarial desenvolvido em Java que cobre áreas de ETL, reporting, OLAP e mineração de dados. O Pentaho Data Mining, baseado no projeto Weka, oferece uma solução completa de machine learning e permite, por exemplo, fazer correlação entre produtos com apenas um algoritmo — algo essencial para e-commerce, por exemplo. Ele conta com 79 algoritmos e uma comunidade forte no Brasil e no mundo.
O que está acontecendo no mercado?
Situação comum: uma empresa compra player de mercado e monta seu cluster na Amazon, por exemplo. A empresa cresce. Mas, aí então, vem a crise, o dólar sobe e tudo dobra de preço. O que ela faz? Começa a testar open source com tecnologias fechadas -i importante lembrar que as startups começam, justamente, ao contrário, 100% open source. Vieira conversou com algumas grandes empresas, entre elas Vivo Telefônica, NetShoes e Magazine Luiza, para saber se elas conseguiriam fazer como as startups e utilizar uma estrutura totalmente open source — e a resposta foi positiva.
Em resumo, a mensagem que fica é a seguinte: é possível, sim, elaborar uma plataforma de data science com tecnologias abertas. “Existem dificuldades, como as interfaces e a aceleração de trabalho, ou a eventual falta de documentação. Mas é, sim, possível. No mundo open source e software livre, é preciso ser persistente. Tem que ser pesquisador e ter uma equipe inteligente, mas isso não é ruim. Afinal, não tem nada de negativo em ter pessoas capacitadas trabalhando”, refletiu.
Texto: Márcia Schuler