Este repositório é dedicado ao projeto de conclusão de curso para o curso de Ciência de Dados da Universidade Vila Velha - UVV.
Título: UWine – Clube de Vinhos da UVV.
A proposta do projeto consiste na análise de um Clube de Vinhos universitário fictício, com base em dados simulados, que será totalmente orientado por técnicas e práticas de Ciência de Dados.
Autor: Rodrigo Lopes
Você foi designado como Consultor em Ciência de Dados ( Data Science Consultant ) para fazer uma análise completa dos dados dos clientes a partir de um conjunto de dados (Amostra) com mais de 1 milhão de notas fiscais (~ 350 Megabytes). Além disso, há uma entrada diária de aproximadamente umas 5000 novas notas fiscais no sistema.
O objetivo é permitir que cada consultor(a) percorra foco analíticos diferentes dentro do mesmo ecossistema de dados, aplicando modelos de machine learning supervisionado ou não supervisionado, análise preditiva, dashboards interativos, entre outros.
Para garantir organização, profundidade técnica e coerência metodológica no desenvolvimento do Projeto UWine, adotaremos um workflow composto por cinco etapas principais, alinhadas às boas práticas da Ciência de Dados. Cada etapa representa um marco do processo analítico, permitindo que cada analista avance de forma estruturada do entendimento inicial dos dados até a entrega final dos insights.
O projeto é realizado utilizando o VSCode com Plugin do Jupyter.
Foi adotada uma estrutura de modularização, separando o código por resolução de etapas.
Na Parte 1 do projeto foi realizado:
-
Estratificação amostral da população:
- Determinar tamanho da amostra;
- Analisar outliers;
- Testes de hipóteses.
-
Análise de estatística descritiva: variáveis qualitativas e quantitativas.
-
Análise na pesquisa de satisfação do cliente:
- Discretização da variável qualitativa;
- Análise bootstrap do resultado da pesquisa de satisfação;
- Apresentação do resultado final.
Ao final dessa etapa existe um relatório escrito detalhando tudo o que foi encontrado durante as análises.
A Parte 2 do projeto foi voltado para as etapas de Machine Learning, foi realizado:
-
Modelo de regressão:
- Normalização e discretização dos dados;
- ETL com separação das variáveis X e Y;
- Criação do modelo;
- Medição de acurácia;
- Teste com dados reais aleatórios da população.
-
Modelo de clusterização:
- Normalização e discretização dos dados;
- ETL com separação das variáveis X e Y;
- Utilização dos métodos Cotovelo e Silhueta para determinar número de clusters;
- Criação do modelo;
- Medição de acurácia;
- Teste com dados reais aleatórios da população.
-
Modelo de classificação:
- Normalização e discretização dos dados;
- ETL com separação das variáveis X e Y;
- Criação do modelo;
- Medição de acurácia;
- Teste com dados reais aleatórios da população.
Ao final dessa etapa existe um relatório escrito detalhando tudo o que foi encontrado durante as análises.