Middle ML Engineer
Город:
Минск
Занятость:
Полная занятость
Компания "Трейдмарк холдер"
Middle ML Engineer (LLM Training from Scratch, Long-Context up to 1M)
Задача: создать собственную языковую модель (LLM) с нуля, масштабировать контекст до 1 000 000 токенов, построить полный пайплайн обучения, данных и оптимизации.
Обучение модели с нуля
Разработка и обучение архитектуры (Mamba / RWKV / SSM-подобные модели)
Создание и обучение собственного токенизатора
Реализация training loop, loss-ов, оптимизаций
Обучение модели поэтапно:
8k → 32k → 128k → 512k → 1M контекст
Построение пайплайна данных
Сбор и очистка корпуса текстов (50–300GB)
Дедупликация, нормализация, фильтрация
Streaming dataset, sharding, large-scale dataloaders
Подготовка long-sequence датасетов (до 1M токенов)
Инфраструктура тренинга
Multi-GPU обучение (DeepSpeed / FSDP)
Mixed precision (BF16)
Gradient checkpointing, memory optimization
Логирование (WandB/MLflow), трекинг метрик
Контроль качества (perplexity / еvаlsets)
Long-context специализация
Curriculum learning по длинам
Streaming training и state carry
Оптимизация модели под контекст до 1 000 000 токенов
Тестирование long-context задач (QA / reasoning / doc memory)
Инструкционное и диалоговое дообучение
Instruction-tuning под формат ассистента
Сбор и подготовка датасетов диалогов
Post-training улучшение качества
Требования
Обязательные
1. Опыт и образование
3+ лет опыта в Machine Learning / Deep Learning
Уверенный PyTorch (включая кастомные модели)
Опыт обучения моделей с нуля (не только fine-tune)
Опыт с Transformers или SSM-моделями
2. Навыки обучения LLM
Умение обучать модели от 50M до 1B параметров
Опыт создания токенизаторов (SentencePiece/BPE)
Умение работать с большими датасетами (10–500GB)
Опыт Multi-GPU обучения (DDP/DeepSpeed/FSDP)
3. Инфраструктура
Docker, Linux, Git
MLflow / WandB
Оптимизация GPU VRAM
Знание NVIDIA stack (nvidia-smi, DCGM, profiling)
4. Математика и алгоритмы
Оптимизация (AdamW, LR schedules, warmup)
регуляризация
работа с длинными последовательностями
понимание SSM/RNN/attention различий
Будет плюсом
Опыт с Mamba, RWKV, RetNet, SSM-based архитектурами
Опыт long-context тренировки (64k–1M+)
Опыт обучения embedding моделей
Знание DeepSpeed ZeRO-3
Опыт в data engineering / распределённых данных
Понимание архитектур Llama/GPT
Опыт RAG систем
Что мы предлагаем
Реальная возможность создать свою собственную LLM
Проект уровня R&D, но с чёткой практической целью
Работа рядом с CTO (быстрое принятие решений)
Возможность вырасти до Senior/Lead
Открытая архитектура, GPU ресурсы
Современный ML стек
Процесс отбора
1. Тестовое задание:
Обучить небольшую модель с нуля (10–20M параметров):
создать токенизатор
собрать датасет
написать training loop
показать логи, чекпоинт, perplexity
2. Техническое интервью (ML + deep learning + PyTorch)
3. Оффер
04 Января
Middle QA Manual Engineer (Android)
Минск
Компания "БЛД Софт" BLD Soft is looking for Middle QA Manual Engineer (Android) to work in the office on own line of products for IPTV/OTT....
05 Января
Минск
Компания "Спортдата" Минский офис международной компании, разрабатывающей игровое ПО приглашает на постоянную работу Middle/Senior IOS...
06 Января
Middle Frontend (React) Developer( ПикселПлекс )
Минск
Компания "ПикселПлекс" PixelPlex – ведущая продуктово-аутсорсинговая компания по Blockchain разработке, с 2013 года 90% наших проектов...
06 Января
Business Analyst (Middle/Senior)
Минск
Компания "ВЭБ Технологии" VEBTECH приглашает Business Analyst для работы на финтех проектах компании. Обязанности: ...
07 Января
Data Engineer( iGaming Company )
Минск
Компания "iGaming Company" Мы - iGaming-компания нового поколения. За 1,5 года мы запустили собственную платформу казино, написали уникальную...
Вакансия размещена в отрасли