Вакансия в архиве с 22.01.2026

Найти похожие вакансии

Middle ML Engineer

Трейдмарк холдер

Город:

Минск

Занятость:

Полная занятость

Компания "Трейдмарк холдер"

Middle ML Engineer (LLM Training from Scratch, Long-Context up to 1M)

Задача: создать собственную языковую модель (LLM) с нуля, масштабировать контекст до 1 000 000 токенов, построить полный пайплайн обучения, данных и оптимизации.

Обучение модели с нуля

Разработка и обучение архитектуры (Mamba / RWKV / SSM-подобные модели)

Создание и обучение собственного токенизатора

Реализация training loop, loss-ов, оптимизаций

Обучение модели поэтапно:

8k → 32k → 128k → 512k → 1M контекст

Построение пайплайна данных

Сбор и очистка корпуса текстов (50–300GB)

Дедупликация, нормализация, фильтрация

Streaming dataset, sharding, large-scale dataloaders

Подготовка long-sequence датасетов (до 1M токенов)

Инфраструктура тренинга

Multi-GPU обучение (DeepSpeed / FSDP)

Mixed precision (BF16)

Gradient checkpointing, memory optimization

Логирование (WandB/MLflow), трекинг метрик

Контроль качества (perplexity / еvаlsets)

Long-context специализация

Curriculum learning по длинам

Streaming training и state carry

Оптимизация модели под контекст до 1 000 000 токенов

Тестирование long-context задач (QA / reasoning / doc memory)

Инструкционное и диалоговое дообучение

Instruction-tuning под формат ассистента

Сбор и подготовка датасетов диалогов

Post-training улучшение качества

Требования

Обязательные

1. Опыт и образование

3+ лет опыта в Machine Learning / Deep Learning

Уверенный PyTorch (включая кастомные модели)

Опыт обучения моделей с нуля (не только fine-tune)

Опыт с Transformers или SSM-моделями

2. Навыки обучения LLM

Умение обучать модели от 50M до 1B параметров

Опыт создания токенизаторов (SentencePiece/BPE)

Умение работать с большими датасетами (10–500GB)

Опыт Multi-GPU обучения (DDP/DeepSpeed/FSDP)

3. Инфраструктура

Docker, Linux, Git

MLflow / WandB

Оптимизация GPU VRAM

Знание NVIDIA stack (nvidia-smi, DCGM, profiling)

4. Математика и алгоритмы

Оптимизация (AdamW, LR schedules, warmup)

регуляризация

работа с длинными последовательностями

понимание SSM/RNN/attention различий

Будет плюсом

Опыт с Mamba, RWKV, RetNet, SSM-based архитектурами

Опыт long-context тренировки (64k–1M+)

Опыт обучения embedding моделей

Знание DeepSpeed ZeRO-3

Опыт в data engineering / распределённых данных

Понимание архитектур Llama/GPT

Опыт RAG систем

Что мы предлагаем

Реальная возможность создать свою собственную LLM

Проект уровня R&D, но с чёткой практической целью

Работа рядом с CTO (быстрое принятие решений)

Возможность вырасти до Senior/Lead

Открытая архитектура, GPU ресурсы

Современный ML стек

Процесс отбора

1. Тестовое задание:

Обучить небольшую модель с нуля (10–20M параметров):

создать токенизатор

собрать датасет

написать training loop

показать логи, чекпоинт, perplexity

2. Техническое интервью (ML + deep learning + PyTorch)

3. Оффер

Похожие вакансии

04 Января

Middle QA Manual Engineer (Android)

Минск

Компания "БЛД Софт" BLD Soft is looking for Middle QA Manual Engineer (Android) to work in the office on own line of products for IPTV/OTT....

Отправить резюме

подробнее

05 Января

Middle/Senior iOS разработчик

Минск

Компания "Спортдата" Минский офис международной компании, разрабатывающей игровое ПО приглашает на постоянную работу Middle/Senior IOS...

Отправить резюме

подробнее

06 Января

Middle Frontend (React) Developer( ПикселПлекс )

Минск

Компания "ПикселПлекс" PixelPlex – ведущая продуктово-аутсорсинговая компания по Blockchain разработке, с 2013 года 90% наших проектов...

Отправить резюме

подробнее

06 Января

Business Analyst (Middle/Senior)

Минск

Компания "ВЭБ Технологии" VEBTECH приглашает Business Analyst для работы на финтех проектах компании. Обязанности: ...

Отправить резюме

подробнее

07 Января

Data Engineer( iGaming Company )

Минск

Компания "iGaming Company" Мы - iGaming-компания нового поколения. За 1,5 года мы запустили собственную платформу казино, написали уникальную...

Отправить резюме

подробнее

Больше похожих вакансий

Вакансия размещена в отрасли

Информационные технологии / IT / Интернет:

Другое

Middle ML Engineer

Подпишитесь на похожие вакансии