ML-инженер по локальным LLM (Local AI Engineer) 200000

Добрый день!

Мы "VICTORY group" являемся одним из лидирующих рекламных агентств России. Наши клиенты — это крупнейшие автохолдинги, застройщики, медицинские центры и другие компании различных отраслей.

Более 15 000 компаний каждый месяц доверяют нам!

Ведём работу по двум направлениям:

1. ORM-сервис

Лучше всех в России понимаем, как работать с негативом, способствуем в создании положительного образа компании с гарантией.
Помогаем бизнесу привлекать потенциал и в дальнейшем увеличивать свою клиентскую базу.

2. Лидогенерация

Можем найти заинтересованных клиентов в любой сфере.
Применяем инновационные решения в интернет-маркетинге, показываем лучшие результаты на рынке.

Обязанности:

Транскрибация звонков с диаризацией — развернуть пайплайн (Whisper / WhisperX / pyannote / NeMo), разделять реплики менеджера и клиента, чистый текст с таймкодами, русская речь;
Миграция text2text-задач с внешних API на локалки — аудит задач на Gemini/Claude, подбор локальных моделей (включая квантованные), A/B качества против бейзлайна API, постепенная миграция;
LLM-шлюз / роутер между машинами компьютерных клубов холдинга — очередь, балансировка с учётом загрузки GPU, отказоустойчивость (модель освобождает ресурсы когда садится игрок), приоритизация, единый API;
Замеры throughput (tok/s), latency (TTFT, end-to-end), памяти, качества на наших задачах;
Документация, передача знаний команде разработки.

Требования:

Квантование — практический опыт с GGUF (Q4/Q5/Q6/Q8), GPTQ, AWQ, EXL2, bitsandbytes;
Управление VRAM — KV-cache, model offloading, tensor/pipeline parallelism, гетерогенный парк GPU (разные карты в кластере);
Оптимизация инференса — continuous batching, speculative decoding, paged attention, prefix caching, профилирование узких мест;
Инференс-фреймворки — vLLM / llama.cpp / TGI / Ollama / ExLlamaV2 / TensorRT-LLM (опыт хотя бы с двумя);
Speech-стек — Whisper, faster-whisper, WhisperX, диаризация (pyannote.audio, NeMo), VAD, опыт с русской речью;
Бэкенд — Python (async обязательно), очереди (Redis/RabbitMQ/Kafka), REST/gRPC API;
Linux, Docker, базовые сетевые навыки;
Готовность к переезду в Екатеринбург (релокация оплачивается, включая жильё на первый месяц).

Плюсом будет:

Fine-tuning под доменные задачи (LoRA / QLoRA);
RAG-системы, векторные БД (Qdrant, Weaviate, pgvector);
Мониторинг ML-систем (Prometheus, Grafana, кастомные метрики качества);
Опыт с распределёнными системами и балансировкой нагрузки в проде;
Свой Telegram-канал / GitHub с проектами по локальному инференсу;
Опыт MLOps (model registry, эксперимент-трекинг).

Условия:

Адрес офиса: г. Екатеринбург, ул. Восточная 7Г (ТЦ "Восточный);
График: 5/2 (пн-пт) с 10:00 до 19:00;
Уровень заработной платы обсуждается индивидуально по итогам собеседования;
Релокация оплачивается (включая жильё на первый месяц);
Бюджет на эксперименты, подписки, обучение;
Свобода технических решений (стек, фреймворки, архитектура);
Перспектива профессионального и карьерного роста.

Мы ищем себе в команду амбициозных, энергичных людей, тех, кто хочет много зарабатывать.

ML-инженер по локальным LLM (Local AI Engineer).
Опыт: От 1 года до 3 лет

Присоединяйся к команде
профессионалов

ML-инженер по локальным LLM (Local AI Engineer). Опыт: От 1 года до 3 лет

Другие вакансии

Присоединяйся к команде профессионалов

ML-инженер по локальным LLM (Local AI Engineer).
Опыт: От 1 года до 3 лет

Присоединяйся к команде
профессионалов