Engenheiro de dados ou pedreiro de dados?

Difusores das inovações no tratamento de dados, os profissionais da área se dividem entre “inovadores” e “retardatários”. Mas existe um caminho do meio para efetuar transições tecnológicas.

Escrito por: Cristiano Falinácio

Recentemente, durante uma palestra sobre engenharia de dados, ouvi um espectador introduzir uma pergunta de uma forma, no mínimo, intrigante:

“Na empresa onde trabalho não temos engenheiros de dados, e sim pedreiros de dados: pessoas que acreditam que ‘essa questão’ de engenharia, data lakes e nuvem são ‘coisas dessa galera mais nova e entusiasta’”.

Obviamente, a observação provocou risos generalizados. No entanto, ao usar a analogia para tratar do momento de transição em que vivemos em relação a como lidar com os grandes volumes de dados nas empresas, o espectador me fez questionar alguns pontos que acredito serem bem relevantes. Mas, antes, uma breve contextualização:

Difusão da Inovação

Em 1962, Everett Rogers escreveu a primeira edição de “Diffusion of Innovations” (difusão de inovações, em tradução livre). No livro, o autor descreve brilhantemente o comportamento e as características de diferentes grupos de indivíduos. Eles foram colocados em contato com novas tecnologias ou ideias.

Participe do 6° Meetup Engenharia de Dados

A análise pretendia explicar como, quando, porque e a que velocidade estas inovações são incorporadas dentro de determinado grupo social. Por tanto, o foco foi empregado nas características individuais das pessoas que compõem este grupo.

Segundo Rogers, o processo de difusão de uma inovação pode ser descrito graficamente a partir de uma curva normal. Considerada da esquerda para a direita, representa a distribuição populacional pela suscetibilidade dos indivíduos ao novo. Mais especificamente, o autor caracteriza os indivíduos em…

Cinco grupos:

Inovadores – Sempre os primeiros a aderir uma novidade. O perfil representa 2,5% das pessoas, que possuem identidade vanguardista, aventureira e inclinada a assumir riscos. São, ainda, os responsáveis por disseminar as inovações por onde passam, como com pessoas de seus círculos de relacionamentos.

Primeiros Adeptos – Também conhecidos como adotantes iniciais, estes 13,5% têm perfil de líderes de opinião. Como os Inovadores, transpõe o abismo e permitem que o produto ou inovação chegue aos demais grupos.

Primeira Maioria – Tem como característica a observação. Com representatividade de 34%, se atentam às experiências dos antecessores para adquirir um novo produto, por exemplo. Agindo dessa forma, são capazes de perceber as vantagens mais claramente antes da adesão.

Segunda Maioria – Este perfil representa 34% e tende a apresentar maior resistência às mudanças. Não gosta de assumir riscos e dá preferência para produtos já testados no mercado.

Retardatários: Relutantes em mudar, pertencem ao último segmento a adotar uma inovação. Isso se dá, normalmente, pelo escasso acesso aos canais de comunicação utilizado pelas estratégias de marketing. Representam 16% do perfil e, normalmente, aceitam as transformações apenas quando elas se tornam comuns. Alguns, sequer tendem a aderir.

Os dados?

A saturação do mercado, público da inovação, atingiria o limite no momento em que o último grupo (retardatários) fosse sensibilizado. O que pode ser verificado na linha laranja do gráfico acima.

Os estudos sobre o conceito de difusão tiveram sua origem no século 19, na França, Alemanha e Áustria. Posteriormente, em 1920, o conceito de difusão de inovação surgiu nos Estados Unidos. Em função da introdução de novas tecnologias para o produção e utilização de sementes híbridas, seu foco mais específico se deu no setor de agricultura.

O trabalho de Rogers ganhou notoriedade ao longo do tempo nas mais diversas áreas do conhecimento. Atualmente, o teórico da comunicação e sociólogo é uma das maiores referências no estudo de inovação do século 21. Grande parte desse valor está intimamente ligado à possibilidade do entendimento mais explícito de cada grupo, que torna viável abordagens distintas em relação aos mesmos.

 

Engenharia de Dados na Flip

Engenharia de Dados. Metodologia ou Ferramenta?

No entanto, apesar de mais de um século e de todo conhecimento construído, minha percepção é: existe um déficit de empatia sobre a abordagem dos inovadores e gestores dentro das áreas de tecnologia (ou de transformação digital) com seus pares. Em outras palavras, apesar da velocidade com a qual somos bombardeados por inovações, não é incomum convivermos com pessoas com competências em tecnologias “do século passado”.

Inovadores x Retardatários

Por um lado, existe (sempre existiu) um grupo de profissionais resistente às mudanças consideradas disruptivas dentro da área de tecnologia. Por outro, é sensível o ímpeto pelo uso do novo em detrimento do que, então, passa a ser considerado velho, obsoleto ou de menor valor.

Mais frequentemente do que imaginamos, isso nos faz abandonar, ou deixar em segundo plano, técnicas e conhecimentos já consolidados na engenharia de dados e em uso dentro do contexto atual das empresas. Adicionalmente, não é incomum se adotar políticas de gestão que segmentam as equipes entre manutenção e inovação. Essa abordagem quase sempre gera uma analogia com o velho versus o novo.

Comumente, no caso das equipes de Data Science ou Analytics, existe um alinhamento com o novo ou com a inovação. O que é facilmente justificado pelo momento de difusão dessas disciplinas que estamos vivenciando.

Há alguns anos acompanho o relatório Developers Survey do Stack Overflow. Esta é considerada a pesquisa mais extensa e abrangente em relação a comunidade de desenvolvedores no mundo. É realizada anualmente e, em 2019, contou com 90 mil participantes. Destes, cerca de 2,2% são brasileiros (aproximadamente 2 mil).

Gosto de imaginar que o público do Stack Overflow, representa, em alguma medida, um grupo de inovadores. Digo isso evidenciando o contexto da utilização de técnicas e ferramentas, que contam com potencial para se estabelecer no tratamento de problemas que envolvem soluções de software.

Bancos de dados

Entre as visões disponibilizadas, considero particularmente interessantes as análises relacionadas às tecnologias que os respondentes pretendem “abandonar” (Dreaded), ou não seguir trabalhando com as mesmas. Acompanho de perto a análise dos bancos de dados, pois acredito que concerne diretamente ao campo da engenharia de dados.

Assim, de maneira similar, também observo a distribuição do uso de bancos de dados na perspectiva dos respondentes. Logo, um cruzamento simples dessas informações, em geral, revela interessantes características de comportamento.

Nos últimos anos tenho visto grandes bancos SQL, como Oracle, Microsoft SQL Server e MySQL, na coluna Dreaded na análise dos bancos de dados. Se adicionarmos, aqui, o fato de que os bancos SQL também aparecem no topo da lista dos bancos de dados transacionais mais utilizados atualmente, temos um dilema real.

No que diz respeito a engenharia de dados, grande parte dos dados consumidos periodicamente têm origem nesse tipo de fonte. Em outras palavras: a maioria dos sistemas de informação que são mantidos e geram dados transacionais, os armazenam utilizando sistemas gerenciadores de bancos de dados tradicionais, baseados em SQL.

Conhecer os caminhos para recuperação e armazenamento de dados nos “legados” ainda é primordial. Por mais glamourosas que pareçam as soluções de ingestão baseadas em pipelines para consumo de streams, modelos baseados em arquitetura lambda e tudo mais de inovador do ponto de vista de ferramentas e técnicas as quais temos acesso.

Eventualmente, será necessária a ajuda dos retardatários, ainda que seja apenas para fornecer feedbacks negativos e aprendizado. A difusão da inovação, na prática, é uma via de mão dupla.

Veja também:

Os 4 grandes pilares para promover uma cultura guiada por dados

Realidade x Inovação

Ironicamente, a pergunta do espectador citado no início deste artigo foi feita durante uma palestra na qual os apresentadores mostraram que implementaram de forma bem sucedida um pipeline na nuvem para ingestão de grandes volumes de dados. O engenheiro e o cientista de dados foram movidos por sérias restrições orçamentárias. No fim das contas, muitos foram os benefícios em recursos, como criação de snapshots, modelagem dimensional e cargas incrementais.

Todos esses conceitos de difusão se propagaram, originalmente, a partir da década de 1970, para lidar com o que então era tratado como o desafio para recuperação, armazenamento e apresentação de “grandes volumes de dados”.

Esses mesmos conceitos, na esteira da marginalização dos data warehouse tradicionais, têm adquirido status de empecilho para o desenvolvimento de soluções ágeis em data analytics.

Seguindo essa lógica, ao conversar com profissionais envolvidos nas etapas de análise e levantamento de projetos que envolvem data analytics, identificamos que:

Parte dos problemas estão, normalmente, relacionados à qualidade dos dados e do mapeamento das origens e fluxos dentro dos processos. Isso ocorre pela falta da respectiva documentação. Inclusive nas soluções de software transacionais que, em tese, deveriam se tratar de dados minimamente estruturados.

Afinal, o que é relevante na engenharia de dados?

Historicamente, nos processos e metodologias de desenvolvimento de software tradicionais, existia um conceito/condição. E isso se dava através da manutenção dos diagramas que explicavam, em diversos níveis, o funcionamento e a organização das soluções de software. Essa abordagem perdeu muito espaço com a introdução de metodologias mais ágeis. E em alguma medida, com razão. Hoje, inclusive, já existem discussões para sanar essa dívida técnica.

Para exemplificar, a existência de um conjunto de diagramas de fluxo de dados (mesmo que no mais alto nível), eventualmente, agilizaria significativamente o desenvolvimento das soluções de ingestão de dados. Infelizmente, até mesmo os apontamentos da existência de parte dos conceitos de análise estruturada sumiu dos currículos dos cursos relacionados ao desenvolvimento de software.

 

Flip Engenharia de dados

Engenheiro de dados ou pedreiro de dados? Ilustração: Luiza Amaral

Dessa maneira, em ambos os cenários, sempre se será relevante identificar como gerar ganhos dentro dos novos paradigmas. É preciso analisar o conhecimento coletivo, considerando o que funcionou no passado. Da mesma maneira, é essencial efetuar a revisão bibliográfica das técnicas utilizadas anteriormente e seus benefícios.

Conhecimento coletivo + Inovação

Na vida real sempre existirá o dilema da inserção de novos modelos e idéias. E isso, apesar do crescente número de ferramentas e técnicas que prometem (e em algum grau entregam) agilidade na recuperação, no armazenamento e na análise de dados.

Trabalhar para garantir que uma transição seja suave e inclusiva deve estar no foco de qualquer esforço de inovação. Isso se dá através da valorização das competências individuais e da potencialização do uso de ferramentas já consolidadas. Especialmente durante os períodos de mudanças.

Adicionalmente, no contexto de tecnologia de informação e comunicação, ao introduzir novos paradigmas na engenharia de dados, uma abordagem binária raramente é aceitável. Ou seja, esforços baseados nos conceitos de novo e velho ou mais ou menos valioso, invariavelmente, têm consequências desastrosas durante a transição.

As graduações de conhecimento de técnicas e ferramentas já consolidadas, aliadas às implementação dos novos paradigmas, podem gerar ganhos significativos para a divulgação e evangelização com idéias inovadoras. Sobretudo, com o foco na inclusão das pessoas. Até mesmo nos que usam ou acreditam nas soluções com tecnologias do “século passado”.

Assim, ao colocar em perspectiva perguntas como a do espectador mencionado no início do texto, precisamos identificar qual o nosso papel como difusores dessa inovação no contexto do tratamento de dados.

Quando falamos sobre conceitos, inovação não precisa, necessariamente, representar substituição. Acredito que o conhecimento coletivo estabelecido deve ser considerado na equação, a fim de somar ao processo de inovação.

Ao fim do evento, o rapaz da pergunta ganhou uma camiseta.

Escrito por Cristiano Falinácio.

Últimos posts por Cristiano Falinácio (exibir todos)

    Flip Lab – De 2011 até o dia de hoje.

    Faça parte da Flip. Cadastre-se em nossa Flip News.

     

    Criado com✊ por Flip + Data Experience +

    Endereço: Av. Getúlio Vargas, 1492 – 2º Andar | Savassi | Belo Horizonte

    © Copyright.

    Todos os direitos reservados à marca registrada Flip Lab. É proibida a cópia, reprodução e utilização de qualquer conteúdo deste site.

    ×