Somos inspired by tech powered by people. Por isso, precisamos de pessoas apaixonados por desafios e com sede de aprendizado contínuo.
Buscamos por novos makers para sonharem com a gente, que enxerguem além do óbvio e que estejam prontos para se juntar a nós nessa jornada de transformação e crescimento. Estamos expandindo nossos horizontes e buscamos pessoas que compartilhem dessa mesma paixão pela tecnologia e pelo aprendizado contínuo. Se você se encaixa nesse perfil, venha fazer parte do nosso time!
RESPONSABILIDADES E ATRIBUIÇÕES
- Liderar a curadoria, coleta, limpeza e padronização de documentos técnicos, FAQs e transcrições de vídeos utilizados como base de conhecimento;
- Desenvolver e manter pipelines de dados não estruturados, com foco em ETL de textos, aplicando técnicas de OCR, transcrição (Speech-to-Text) e parsing de PDFs complexos;
- Definir e implementar estratégias eficientes de fragmentação de texto (chunking) e indexação em bancos de dados vetoriais, visando otimizar a recuperação de informações;
- Atuar na engenharia de recuperação (RAG), colaborando com o time de desenvolvimento para ajustar embeddings, parâmetros de busca e reduzir alucinações das LLMs;
- Criar, manter e evoluir datasets de validação (Golden Datasets) para avaliar a acurácia, consistência e qualidade das respostas do assistente;
- Trabalhar em parceria com especialistas da área de sustentação e suporte, compreendendo as nuances dos chamados de ITSM e traduzindo esse conhecimento para a base de conhecimento da IA;
- Planejar e executar processos de avaliação (Eval), validando a precisão do assistente antes da disponibilização em ambiente produtivo.
REQUISITOS E QUALIFICAÇÕES
- Experiência comprovada em Engenharia de Dados ou IA, atuando em projetos que envolvam a manipulação e processamento de grandes volumes de dados;
- Domínio avançado de Python para automação de processos de limpeza, extração, transformação de dados e integração com APIs;
- Conhecimento em processamento de linguagem natural (NLP) e manipulação de texto, incluindo o uso de ferramentas de parsing e frameworks como Unstructured.io, PyMuPDF, LangChain e LlamaIndex;
- Experiência prática ou sólido entendimento conceitual de bancos de dados vetoriais, como PGVector, ChromaDB, Pinecone, Qdrant ou Milvus;
- Familiaridade com processos de ITSM, incluindo gestão de incidentes, problemas e bases de erros conhecidos, bem como ferramentas de mercado como Jira, ServiceNow ou similares.
Diferenciais:
- Certificações em Cloud (Azure, AWS ou GCP), preferencialmente com foco em serviços de IA e dados;
- Experiência prévia em áreas de suporte técnico, sustentação ou infraestrutura de TI;
- Conhecimento em técnicas de Prompt Engineering para otimização de buscas semânticas e refinamento das interações com LLMs.
Localidade: Brasil