brunovilar / desafio-data-science-elo7 Goto Github PK

View Code? Open in Web Editor NEW

0.0 0.0 0.0 50.42 MB

Projeto desenvolvido durante o processo seletivo para o cargo de Cientista de Dados no Elo7.

Jupyter Notebook 99.73% Python 0.27%

classification machine-learning nlp python supervised-learning unsupervised-learning word-embeddings

desafio-data-science-elo7's People

Contributors

Watchers

desafio-data-science-elo7's Issues

Fazer re-treinamento e avaliação final

Apesar de o projeto ter uma versão inical entregável, os modelos criados continuam sendo os criados e avaliados usando cross-validation. É interessante criar a versão final do modelo, criada com os dados completos de treinamento e fazer a avaliação final usando os dados de teste.

Uma possibilidade interessante para melhorar a confiança sobre os resultados é usar o Nested Cross Validatio, conforme:

Analisar perfil de produtos do vendedor como opção de feature para predizer categorias

A identificação do vendedor (seller_id) não é usada atualmente no projeto. Entretando, é possível que alguns vendedores tenham um perfil mais especializado em categorias de produtos, como pessoas que trabalham especificamente com bijuterias ou decoração. Em alguns casos, mesmo que o vendedor trabalhe com múltiplas categorias, é provável que elas sejam relacionadas. Assim, pode compensar utilizar algo como um OHE para as categorias do vendedor. Para os dados completos, a criação de um modelo de embedding poderia ser útil sem aumentar muito a dimensionalidade dos dados.

Adicionar testes unitários

Como o projeto foi criado se aproximando de uma prova de conceito, alguns cuidados relevantes não foram tomados. Testes unitários são um deles. É preciso fazer a criação dos testes, sobretudo para as funções desenvolvidas em pipeline, para garantir o correto funcionamento do código e poder evoluir o projeto garantindo que não ocorram erros não aparentes.

Criar modelo complexo para a predição de categorias

O modelo de classificação de categorias é baseado em dois atributos: título e peso. Isto, para simplificar a criação e permitir o uso para a predição da categoria de busca, como se ela fosse um produto.

Para avaliar se o uso de outros atributos (e.g., preço, tags concatenadas e perfil de vendas do vendedor) trariam contribuições, é interessante fazer novos experimentos. Caso a melhoria seja relevante, é preciso lidar com a necessidade de uso para a classificação de categoria. Algumas possibilidades são:

Ter um modelo simples e um complexo para classificar categorias. O simples poderia ser usado para a classificação da busca e, também, ter seu resultado usado como entrada para o modelo complexo, criando um ensemble.
Usar uma segmentação maior dos produtos para estabelecer valores médios das características de cada segmento de produto.

Melhorar modelo de segmentação de produtos

Atualmente o projeto faz a segmentação de produtos com o uso de Gaussian Mixture Model e 50 clusters. É interessante analisar melhor os critérios para determinar o número de cluster e analisar formas alternativas de fazer o agrupamento. Algumas possibilidades:

LDA
DBScan

Melhorar a eficiência da de busca/recomendação

Ainda que seja uma prova de conceito, é interessante melhorar a capacidade do sistema de realizar uma busca ou recomendação de forma mais eficiente, reduzindo o tempo de resposta. Para isso, é interessante usar algum sistema que permita a comparação de embeddings, como:

També é possível focar apenas na paralelização do processo, seja de modo mais artesanal, como por Joblib, ou automática, como pelo Dask ou Vaex ou similar.

Validar dados de entrada para a CLI

Como a CLI é a representação do uso do modelo em produção, é preciso tomar cuidados adicionais para garantir que os dados de entrada estejam sendo corretamente fornecidos. Para isso, é possível usar uma ou mais técnicas de validação:

JSON Validate: estabelecer um esquema e validar a adequação do JSON de entrada a esse esquema;
Pydantic/Marshmallow: estabelecer regras de validação (especialmente relacionadas a dataclass) e validá-las ao fazer a conversão de JSON para um objeto Python.

Segmentação de produtos para cálculo de estatísticas usadas para imputação

O projeto usa estatísticas sobre todos os produtos (e.g., média, mediana e desvio padrão) para fazer o preenchimento de atributos não preenchidos. Como não é possível usar a categoria para fazer a segmentação desses produtos, por ser o rótulo do modelo supervisionado, é preciso criar uma segmentação alternativa. Algumas opções para isso:

Usar o modelo de agrupamento, criado a partir dos embeddings de títulos de produtos, para fazer a segmentação.
Criar um modelo KNN para estimar valores a partir dos produtos mais similares.

Adicionar regisro de log nas funções "produtizadas"

Para aproximar o projeto de uma solução realmente produtizada e final, é importante incorporar um mecanismo de registro de logs, com diferentes níveis de informação, para ajudar a registrar interações com o sistema e, quando necessário, identificar problemas. Por ser uma prova de conceito, o registro dos logs em arquivo deve ser o suficiente.

brunovilar / desafio-data-science-elo7 Goto Github PK

desafio-data-science-elo7's People

Contributors

Watchers

desafio-data-science-elo7's Issues

Fazer re-treinamento e avaliação final

Analisar perfil de produtos do vendedor como opção de feature para predizer categorias

Adicionar testes unitários

Criar modelo complexo para a predição de categorias

Melhorar modelo de segmentação de produtos

Melhorar a eficiência da de busca/recomendação

Validar dados de entrada para a CLI

Segmentação de produtos para cálculo de estatísticas usadas para imputação

Adicionar regisro de log nas funções "produtizadas"

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent