Olá pessoal, tudo joinha?! ??
De volta aqui para mais uma artigo e agora trazendo alguns conceitos e características sobre Mineração de Dados (Data Mining) e como este assunto acaba sendo cobrado em algumas provas de concurso. Vem comigo!
A mineração de dados é a técnica de exploração de grandes conjuntos de dados, como objetivo de estabelecer relações, associações e padrões de difícil visualização, fazendo a transformação de dados no seu estado bruto em informação de alto valor.
Podemos, neste contexto, então afirmar que a mineração de dados é o processo de extração de conhecimento de grandes bases de dados, sendo elas convencionais (estruturadas) ou não (semiestruturadas e não estruturadas), onde o seu objetivo é encontrar, automaticamente, padrões, anomalias e regras com o propósito de transformar dados, que são aparentemente ocultos, em informações úteis para a tomada de decisão ou até avaliação de resultados.
Neste contexto, cabe uma reflexão: A mineração de dados é feita de forma manual ou com auxílio de algumas ferramentas, mas que exijam a participação humana em todas as etapas?
Sobre este ponto, podemos afirmar que estas atividades podem ser feitas de forma automática ou semiautomática. Algumas destas formas são executadas, se valendo do uso do aprendizado de máquina (Machine Learning), onde diversos algoritmos, combinados com equipamentos de auto poder de armazenamento e processamento ajudam a indicar padrões e construir modelos preditivos. Sobre este assunto, recomento fortemente a leitura do artigo Aprendizado de Máquina-conceitos.
Vejamos o que alguns autores falam a respeito do tema do nosso artigo:
Segundo FAYYAD:
A mineração de dados é a aplicação de algoritmos específicos para extração de padrões a partir dos dados.
Segundo KAMBER e HAN:
A mineração de dados se refere à extração, ou mineração, de conhecimento a partir de grandes quantidades de dados.
Segundo Laudon & Laudon:
O data mining fornece percepções dos dados corporativos que não podem ser obtidas com o OLAP, descobrindo padrões e relacionamentos ocultos em grandes bancos de dados e inferindo regras a partir deles para prever comportamentos futuros. Estes modelos e regras podem então ser utilizados para guiar o processo de decisão e prever o efeito dessas decisões.
Perceba que é comum encontrar em diversos autores as seguintes citações: padrões, grandes bases de dados e prever o futuro. Independente das diferentes técnicas que possam ser utilizadas na mineração de dados, estes elementos estarão quase sempre presentes e recomendo que os internalizem bem em seus estudos, pois são bastante cobrados nas questões de concursos.
É muito comum que o candidato que está se preparando acabe confundindo os conceitos sobre Data Warehouse, OLAP e Data Mining. Por conta disso, trago abaixo uma lista de definições e comparações que são muito comuns em provas, vejamos.
Vejamos agora como este assunto é cobrado em questões de concursos, vem comigo!
[CEBRASPE/CESPE/POLÍICA FEDERAL/AGENTE DA POLÍCIA FEDERAL/2018]
Julgue o item que segue, relativo a noções de mineração de dados, big data e aprendizado de máquina.
Pode-se definir mineração de dados como o processo de identificar, em dados, padrões válidos, novos, potencialmente úteis e, ao final, compreensíveis.
Gabarito: Certo.
[CEBRASPE/CESPE/POLÍICA FEDERAL/PERITO CRIMINAL/2018]
Acerca de banco de dados, julgue o seguinte item.
Descobrir conexões escondidas e prever tendências futuras é um dos objetivos da mineração de dados, que utiliza a estatística, a inteligência artificial e os algoritmos de aprendizagem de máquina.
Gabarito: Certo.
Perfeita questão. Sei que muitas vezes até parece repetitivo, mas é assim que se estuda por questões até alcançar um alto nível de acertos, siga essa dica.
O texto da questão apresenta “conexões escondidas”, o que poderia causar dúvidas, a depender da interpretação dada e nisso você precisa ter cuidado.
As conexões são as possíveis correlações encontradas nas amostras de dados, “prever tendências” é fazer uso de técnicas de predição na mineração de dados, e para isso são utilizados os conhecimentos de estatística, inteligência artificial e algoritmos de machine learning, ou seja, é uma atividade multidisciplinar.
É isso aí pessoal, vou ficando por aqui e espero vocês em mais um artigo, abração!
Prof. Luis Octavio Lima
Leitura complementar recomendada: CRISP-DM – conceitos