На главную

ML прототип

Разработать ML-пайплайн для автоматизированной сортировки и разметки шаблонных документов по охране труда Основные шаги: 1. Преобразование списка шаблонов в формат для обучения и разметки - Приведение списка шаблонов к единому формату - Автоматизация конвертации. 2. Интеграция существующей онтологии - Подключение онтологии для разметки. - Проверка маппинга онтологии на шаблоны. - Доработка механизма разметки (при необходимости). 3. Классификация документов - Разработка модели классификации (акт, приказ, инструкция и т. д.). - Классификация по видам деятельности (образование, медицина и т. д.). - Обучение моделей и тестирование. 4. NER-модель для извлечения переменных - Название компании, должность, дата, ответственные лица и др. - Интеграция NER-модели (spaCy, Transformers). 5. Связь документов с нормативными актами - Разработка API-интерфейса для связи с законодательной базой. - Возможность загрузки своих документов в векторное представление. 6. Связь с юридическими штрафами - Подключение базы данных юридических штрафов. - Разработка алгоритма связи. Выходной продукт: 1. Получает ввод от пользователя (описание деятельности). 2. Предлагает список необходимых документов. 3. Показывает массив полей для заполнения. 4. Настроенная инфраструктура для обучения и рекомендации. 5. Инструмент разметки документов и размеченные документы (разметка своими специалистами - для теста 100 шаблонов). 6. Инструмент Haystack или LangChain работа с юридическими документами.