Вакансия ML-инженер по локальным LLM (Local AI Engineer) - VICTORY group
Другое

ML-инженер по локальным LLM (Local AI Engineer).
Опыт: От 1 года до 3 лет

от 200 000₽ до 500 000 ₽ За месяц

Добрый день!

Мы "VICTORY group" являемся одним из лидирующих рекламных агентств России. Наши клиенты — это крупнейшие автохолдинги, застройщики, медицинские центры и другие компании различных отраслей.

Более 15 000 компаний каждый месяц доверяют нам!

Ведём работу по двум направлениям:

1. ORM-сервис

Лучше всех в России понимаем, как работать с негативом, способствуем в создании положительного образа компании с гарантией.
Помогаем бизнесу привлекать потенциал и в дальнейшем увеличивать свою клиентскую базу.

2. Лидогенерация

Можем найти заинтересованных клиентов в любой сфере.
Применяем инновационные решения в интернет-маркетинге, показываем лучшие результаты на рынке.

Обязанности:

  • Транскрибация звонков с диаризацией — развернуть пайплайн (Whisper / WhisperX / pyannote / NeMo), разделять реплики менеджера и клиента, чистый текст с таймкодами, русская речь;
  • Миграция text2text-задач с внешних API на локалки — аудит задач на Gemini/Claude, подбор локальных моделей (включая квантованные), A/B качества против бейзлайна API, постепенная миграция;
  • LLM-шлюз / роутер между машинами компьютерных клубов холдинга — очередь, балансировка с учётом загрузки GPU, отказоустойчивость (модель освобождает ресурсы когда садится игрок), приоритизация, единый API;
  • Замеры throughput (tok/s), latency (TTFT, end-to-end), памяти, качества на наших задачах;
  • Документация, передача знаний команде разработки.
Требования:

  • Квантование — практический опыт с GGUF (Q4/Q5/Q6/Q8), GPTQ, AWQ, EXL2, bitsandbytes;
  • Управление VRAM — KV-cache, model offloading, tensor/pipeline parallelism, гетерогенный парк GPU (разные карты в кластере);
  • Оптимизация инференса — continuous batching, speculative decoding, paged attention, prefix caching, профилирование узких мест;
  • Инференс-фреймворки — vLLM / llama.cpp / TGI / Ollama / ExLlamaV2 / TensorRT-LLM (опыт хотя бы с двумя);
  • Speech-стек — Whisper, faster-whisper, WhisperX, диаризация (pyannote.audio, NeMo), VAD, опыт с русской речью;
  • Бэкенд — Python (async обязательно), очереди (Redis/RabbitMQ/Kafka), REST/gRPC API;
  • Linux, Docker, базовые сетевые навыки;
  • Готовность к переезду в Екатеринбург (релокация оплачивается, включая жильё на первый месяц).

Плюсом будет:

  • Fine-tuning под доменные задачи (LoRA / QLoRA);
  • RAG-системы, векторные БД (Qdrant, Weaviate, pgvector);
  • Мониторинг ML-систем (Prometheus, Grafana, кастомные метрики качества);
  • Опыт с распределёнными системами и балансировкой нагрузки в проде;
  • Свой Telegram-канал / GitHub с проектами по локальному инференсу;
  • Опыт MLOps (model registry, эксперимент-трекинг).

Условия:

  • Адрес офиса: г. Екатеринбург, ул. Восточная 7Г (ТЦ "Восточный);
  • График: 5/2 (пн-пт) с 10:00 до 19:00;
  • Уровень заработной платы обсуждается индивидуально по итогам собеседования;
  • Релокация оплачивается (включая жильё на первый месяц);
  • Бюджет на эксперименты, подписки, обучение;
  • Свобода технических решений (стек, фреймворки, архитектура);
  • Перспектива профессионального и карьерного роста.


​​​​​​​Мы ищем себе в команду амбициозных, энергичных людей, тех, кто хочет много зарабатывать.

Условия
Формат работы:
На месте работодателя
График:
5/2
Рабочие часы:
8 часов
Опыт работы:
От 1 года до 3 лет
Офис в центре города
г. Екатеринбург
ул. Восточная 7г
ПН–ПТ c 10:00 до 19:00
Начнём прямо сейчас

Присоединяйся к команде
профессионалов