Агент для игры Hearthstone (CORL, offline обучение)

Ищу исполнителя для создания агента, играющего в Hearthstone, на основе готового набора данных (в формате JSON). Данные содержат эпизоды с состояниями игры, действиями и результатами. Цель: Обучить агента принимать разумные действия в новых ситуациях, опираясь на поведение из датасета. Обучение должно учитывать, что: - Данные фиксированы, и генерация новых эпизодов невозможна - Поведение агента не должно сильно отклоняться от поведения в данных Желаемые навыки: Опыт с обучением с подкреплением (Reinforcement Learning) — особенно офлайн-RL (CORL, KL-регуляризация и др.) Допустимы и альтернативные подходы (например, имитационное обучение, поведенческие модели, etc), если они работают лучше Умение разрабатывать и отлаживать ML-модели или системы принятия решений. Открыт к любым предложениям по методологии. Спасибо!

02.04.2025 в 14:40

Перейти к оригиналу