<u>Вам предстоит классифицировать отзывы на книгу "Война и мир" Льва Толстого. Задача заключается в разработке модели машинного обучения, которая определит, является ли отзыв положительным, отрицательным или нейтральным. Это задание поможет вам освоить основные принципы работы с текстовыми данными и применения моделей классификации.</u><div><u><br></u></div><div><u>Условие задачи</u></div><div><u>Вам предоставлены два набора данных: train.csv и test.csv. Набор данных test.csv будет использоваться для финального тестирования модели.</u></div><div><u><br></u></div><div><u>train.csv: содержит данные для обучения модели. Каждая строка представляет собой отзыв на книгу с меткой класса (sentiment):</u></div><div><u><br></u></div><div><u>0 — отрицательный отзыв</u></div><div><u>1 — положительный отзыв</u></div><div><u>2 — нейтральный отзыв</u></div><div><u>test.csv: содержит данные для тестирования модели, где необходимо предсказать метки классов для этих данных. Тестовый набор также содержит поле index, которое не является признаком и служит исключительно для идентификации записей в финальном файле предсказаний.</u></div><div><u><br></u></div><div><u>Задача</u></div><div><u>Разработайте модель машинного обучения, используя библиотеки классического ML (например, sklearn, Logistic Regression, Random Forest, CatBoost или XGBoost) или трансформерные модели.</u></div><div><u>Обучите модель на данных из train.csv, используя метку sentiment в качестве целевой переменной.</u></div><div><u>Используйте обученную модель для предсказания меток классов sentiment для данных из test.csv.</u></div><div><u>Сохраните предсказания в файл answer.csv в следующем формате:</u></div><div><u>Файл должен содержать два столбца:</u></div><div><u>index (значения индекса из test.csv)</u></div><div><u>sentiment — предсказанные значения:</u></div><div><u>0 — отрицательный отзыв</u></div><div><u>1 — положительный отзыв</u></div><div><u>2 — нейтральный отзыв</u></div><div><u>Описание признаков</u></div><div><u>index – уникальный идентификатор записи. Используется для связи с исходными данными.</u></div><div><u>review – текст отзыва на книгу "Война и мир".</u></div><div><u>sentiment – целевая метка, указывающая на оценку отзыва: 0 (отрицательный отзыв) или 1 (положительный отзыв).</u></div><div><u>Пример данных</u></div><div><u>Пример train.csv:</u></div><div><u><br></u></div><div><u>index,review,sentiment</u></div><div><u>0,"Книга потрясающая, очень понравилась!",1</u></div><div><u>1,"Не смог дочитать, совсем неинтересно.",0</u></div><div><u>2,"Лев Толстой мастер слова, очень рекомендую.",1</u></div><div><u>3,"Ужасно написано, жаль потраченного времени.",0</u></div><div><u>4,"Текст нейтральный, ничего особенного.",2</u></div><div><u>Пример test.csv:</u></div><div><u><br></u></div><div><u>index,review</u></div><div><u>0,"Это произведение заставляет задуматься о жизни."</u></div><div><u>1,"Скучная книга, не стоит внимания."</u></div><div><u>2,"Настоящий шедевр литературы!"</u></div><div><u>3,"Читается легко, ничего примечательного."</u></div><div><u>Формат файла submission.csv</u></div><div><u>Файл должен содержать два столбца:</u></div><div><u><br></u></div><div><u>index — изначальные значения индекса из test.csv</u></div><div><u>sentiment — предсказанные значения: 1 (положительный отзыв), 0 (отрицательный отзыв), 2 (нейтральный отзыв)</u></div><div><u>Пример submission.csv:</u></div><div><u><br></u></div><div><u>index,sentiment</u></div><div><u>0,1</u></div><div><u>1,0</u></div><div><u>2,1</u></div><div><u>3,2</u></div><div><u>Критерии оценки</u></div><div><u>Итоговый результат будет рассчитан на основе метрики F1 на скрытых тестовых данных.</u></div><div><u> Балл за задачу рассчитывается на основе метрики F1 по следующей формуле</u></div><div><u><br></u></div><div><u>Дополнительные инструкции</u></div><div><u>Обязательно проведите предобработку текстовых данных: удаление стоп-слов, стемминг/лемматизация и векторизация (например, TF-IDF).</u></div><div><u>Попробуйте различные модели машинного обучения и выберите лучшую на основе кросс-валидации.</u></div>