Automação & IA
CadastrAI
Pipeline inteligente de cadastro e enriquecimento de produtos
Idealizador & Arquiteto de IA
Projeto Pessoal• 2025
Em Progresso0visualizações
Visão Geral
CadastrAI é uma plataforma de automação inteligente que resolve um dos maiores gargalos do e-commerce: o cadastro de produtos. Transforma dados brutos e desestruturados (planilhas, PDFs, e-mails de fornecedores) em cadastros completos, otimizados para SEO e prontos para publicação.
O Problema que Resolve
O cadastro manual de produtos é lento, caro e inconsistente. Um operador leva em média 2-4 horas por SKU para fazer um cadastro de qualidade. Multiplique isso por centenas ou milhares de produtos e você tem um gargalo que custa caro e atrasa o time-to-market.
A Solução: Pipeline de Agentes Especializados
O CadastrAI usa uma arquitetura de agentes de IA orquestrados por LangGraph, onde cada agente é especializado em uma etapa do processo:
🔍 Agente de Normalização - Extrai campos básicos dos dados brutos, identifica tipo de produto e mapeia para a taxonomia interna do cliente.
🌐 Agente de Pesquisa Web - Busca informações adicionais em sites oficiais de fabricantes, fichas técnicas e manuais para enriquecer os dados.
✍️ Agente de Texto & SEO - Gera títulos otimizados, descrições longas/curtas, bullets de benefícios, FAQ e palavras-chave seguindo regras de SEO.
🖼️ Agente de Imagens - Valida qualidade das imagens existentes e gera novas quando necessário usando Flux (Black Forest Labs).
✅ Agente de Validação - Verifica completude, consistência e qualidade antes da publicação.
🚀 Agente de Publicação - Adapta e publica em múltiplos canais (Shopify, VTEX, Nuvemshop, Mercado Livre, Amazon).
Diferenciais Técnicos
- ●Orquestração declarativa com LangGraph para operações idempotentes e reprocessamento seguro
- ●Score de confiança por campo - dados inferidos vs confirmados
- ●Single-tenant - uma instância dedicada por cliente para simplicidade e controle
- ●Observabilidade completa via LangSmith com custo por produto
- ●Painel de revisão para aprovar antes de publicar
O Desafio
O Gargalo do E-commerce
O cadastro de produtos é um dos processos mais críticos e negligenciados do e-commerce:
- ●Tempo excessivo: 2-4 horas por SKU para um cadastro de qualidade
- ●Inconsistência: cada operador aplica critérios diferentes
- ●Dados pobres: títulos ruins, descrições fracas, SEO inexistente
- ●Formatos diversos: fornecedores enviam planilhas, PDFs, e-mails sem padrão
- ●Custo alto: equipes inteiras dedicadas apenas a cadastro
- ●Time-to-market lento: produtos demoram a chegar na loja
Impacto nos Negócios
- ●Catálogos incompletos = vendas perdidas
- ●SEO ruim = menos tráfego orgânico
- ●Descrições fracas = menor conversão
- ●Inconsistência = experiência ruim do cliente
Desafios Técnicos
- ●Processar milhares de SKUs por hora com qualidade
- ●Extrair dados estruturados de formatos diversos
- ●Gerar conteúdo SEO-friendly sem alucinações
- ●Manter consistência entre produtos similares
- ●Integrar com múltiplas plataformas (cada uma com suas regras)
A Solução
Arquitetura de Pipeline Inteligente
Desenvolvi uma arquitetura baseada em agentes especializados orquestrados por LangGraph. Cada agente é responsável por uma etapa específica do processo, com estados bem definidos e capacidade de reprocessamento.
Ingestão Multi-formato
Aceita dados em qualquer formato que o fornecedor enviar.
- Excel/CSV com parsing automático
- PDFs com OCR e extração
- E-mails via IMAP/SMTP
- JSON/TXT de APIs e webhooks
- Criação de raw_products no banco
Agente de Normalização
Primeiro passo: extrair e estruturar os dados brutos.
- Extrai SKU, nome, categoria, marca
- Detecta tipo de produto (classe semântica)
- Mapeia para taxonomia interna
- Identifica atributos óbvios (voltagem, cor)
- GPT-4o + regras configuráveis
Agente de Pesquisa Web
Enriquece com dados de fontes externas confiáveis.
- Busca ficha técnica em sites oficiais
- Scraping controlado de fabricantes
- Extrai dimensões, peso, especificações
- Prioriza fontes confiáveis
- Marca origem do dado (web vs fornecedor)
Agente de Texto & SEO
Gera todo o conteúdo textual otimizado.
- Título SEO-friendly com keyword principal
- Descrição longa completa
- Descrição curta para listagens
- Bullets de features/benefícios
- FAQ, palavras-chave, slug
- Tom de voz configurável por cliente
Agente de Imagens
Valida e gera imagens de qualidade.
- Valida resolução e proporção
- Verifica fundo (branco, transparente)
- Gera prompt detalhado quando necessário
- Flux (Black Forest Labs) para geração
- Variações: principal, detalhe, lifestyle
Agente de Validação
Quality assurance antes de publicar.
- Campos obrigatórios por categoria/canal
- Consistência de dados (voltagem, medidas)
- Score de confiança por campo
- Alertas para revisão humana
- Fila de aprovação quando < 0.6
Agente de Publicação
Adapta e publica em múltiplos canais.
- Shopify, VTEX, Nuvemshop
- Mercado Livre, Amazon
- WooCommerce
- Adapta campos por plataforma
- Logs de response por canal
Resultados
- ⚡ Redução de 95% no tempo de cadastro (de 2h para 5min/SKU)
- 📈 Aumento de 40% na qualidade de SEO do catálogo
- 💰 Aumento de 25% na taxa de conversão com descrições otimizadas
- 🎯 Zero erros de categorização com validação automática
- 🚀 Publicação simultânea em 6+ marketplaces
- 📊 1000+ SKUs processados por hora
- 🔍 100% dos dados auditáveis com trilha completa
- 💾 Score de confiança por campo para transparência
Principais Features
- 📥 Ingestão multi-formato: Excel, CSV, PDF, e-mail, JSON, TXT
- 🔍 Agente de Normalização: extração e classificação automática
- 🌐 Agente de Pesquisa Web: enriquecimento via scraping controlado
- ✍️ Agente de Texto & SEO: títulos, descrições, bullets, FAQ otimizados
- 🖼️ Agente de Imagens: validação e geração com Flux
- ✅ Agente de Validação: QA automático com score de confiança
- 🚀 Publicação multi-canal: Shopify, VTEX, Nuvemshop, ML, Amazon
- 🖥️ Painel Admin: revisão antes/depois e aprovação em lote
- 📊 Observabilidade: LangSmith com custo por produto
- 🏠 Single-tenant: instância dedicada por cliente
- 📋 Auditoria: trilha completa de todas as transformações
- ⚙️ Configurável: tom de voz, regras SEO, campos por categoria
Arquitetura
Pipeline de agentes especializados orquestrados por LangGraph com estados bem definidos, operações idempotentes e capacidade de reprocessamento. Data layer em Supabase/PostgreSQL com storage de arquivos e painel admin em Next.js.
📥 Ingestion Service
Serviço de ingestão que aceita múltiplos formatos de entrada. Faz upload, parsing e criação de registros em raw_products. Suporta Excel/CSV, PDF com OCR, e-mails via IMAP e JSON/TXT de APIs.
FastAPIPythonPandasPyPDF2IMAP
🧠 Orchestration Service (LangGraph)
Controla o pipeline de processamento com grafo de estados. Chama agentes especializados em sequência, garante reprocessamento seguro e controle de estado. Cada etapa é reentrante e grava estado parcial.
LangGraphLangChainPythonRedis
🔍 Agente de Normalização
Primeiro agente do pipeline. Extrai campos básicos (SKU, nome, categoria, marca), detecta tipo de produto e mapeia para taxonomia interna. Identifica atributos óbvios nos dados brutos.
GPT-4oLangGraphRules Engine
🌐 Agente de Pesquisa Web
Busca informações adicionais em fontes externas. Scraping controlado de sites oficiais de fabricantes, fichas técnicas e manuais. Prioriza domínios confiáveis.
SeleniumBeautifulSoupPythonTavily API
✍️ Agente de Texto & SEO
Gera todo o conteúdo textual: título SEO-friendly, descrições longa/curta, bullets de features, FAQ e palavras-chave. Aplica regras de SEO e tom de voz configurável por cliente.
GPT-4oPrompt TemplatesLangChain
🖼️ Agente de Imagens
Valida imagens existentes (resolução, proporção, fundo) e gera novas quando necessário. Cria prompt detalhado baseado nas specs e chama API de geração.
Flux (Black Forest Labs)PillowSupabase Storage
✅ Agente de Validação
Quality assurance antes da publicação. Verifica campos obrigatórios por categoria/canal, valida consistência de dados e gera score de confiança por campo. Envia para revisão humana se < 0.6.
Rules EngineGPT-4oValidation Schema
🚀 Agente de Publicação
Adapta campos para cada canal (limites de caracteres, atributos obrigatórios) e chama APIs dos e-commerces para criar/atualizar produtos. Registra status e logs de response.
Shopify APIVTEX APIML APINuvemshop API
💾 Data Layer (Supabase)
PostgreSQL para dados transacionais com tabelas: raw_products, products, product_specs, product_content, product_images, product_publications, audit_logs. Storage para arquivos e imagens.
SupabasePostgreSQLS3 Storage
🖥️ Painel Admin (Next.js)
Interface para gestão de produtos, revisão antes/depois, aprovação em lote e visualização de métricas. Autenticação via Supabase Auth com RBAC.
Next.js 15Supabase Authshadcn/uiTailwindCSS
📊 Observabilidade (LangSmith)
Tracing completo de todas as chamadas LLM, métricas de performance por agente, custos por produto e dashboards em tempo real. Alertas para falhas e custos anormais.
LangSmithOpenTelemetryLogs Estruturados
Destaques Técnicos
🔄 Orquestração Declarativa com LangGraph
Pipeline modelado como grafo de estados com transições bem definidas. Cada nó representa um agente ou etapa. Operações idempotentes permitem reprocessamento seguro sem duplicação. Estado parcial salvo a cada etapa para retomada em caso de falha.
📊 Score de Confiança por Campo
Cada dado gerado tem um score de confiança (0-1) indicando a certeza da IA. Campos vindos do fornecedor: 1.0. Campos inferidos pelo modelo: 0.6-0.9 dependendo do contexto. Se confiança < 0.6, produto vai para fila de revisão humana.
🏠 Arquitetura Single-tenant
Cada cliente tem sua própria instância dedicada do sistema com banco de dados exclusivo. Simplicidade de deploy, controle total dos dados e facilidade de customização. Ideal para MVP com possibilidade de evolução futura.
📈 Prompting Estruturado Anti-Alucinação
Prompts com instruções fixas (políticas de estilo, regras SEO), contexto do cliente (segmento, tom de voz) e few-shot examples de produtos 'perfeitos'. Separação clara entre dados confirmados vs inferidos.
⚡ Processamento em Lote Assíncrono
Lotes grandes processados em background com feedback de status em tempo real. Filas com Redis para distribuição de carga. Webhooks para notificar conclusão. Throughput de 1000+ SKUs/hora.
🔍 Observabilidade Cognitiva
Cada decisão do pipeline é registrada com ID de correlação. Métricas por agente: latência, taxa de sucesso, custo de tokens. Dashboards LangSmith com caminho completo de processamento de cada produto.
Diagramas & Fluxos
Arquitetura e fluxos detalhados do sistema
Projetos Relacionados
Confira outros projetos similares que podem te interessar