Добиться распознавания текста и цифр в 99,9% (OCR, оптическое зрение)

Задача такая, распознавать текст и цифры с видео в Реальном времени. Текст и цифры пишутся в одних и тех же областях, что думаю как плюс. Пока реализация такая, делается скриншот, и подключена библиотека tesseract ocr. Но точность распознания примерно 95%. Платные библиотеки (OpenAI или Gemini) выходят очень дорого. (так как получается большое количество скриншотов) А мне надо достичь 99,9-100%. Если ваш план написать 30 строк кода и подключить готовые бесплатные библиотеки вроде tesseract, то это не сработает, нужного качества не дает. Тут нужен именно опыт с сфере оптического зрения, машинного обучения. Предлагается свои решения, до обучаем готовые либы, или свою нейронку, или еще что. Задача не для новичка. Оплата после тщательной проверки, шустрым ребятам кто просит предоплату и пытаются показать Скам видео, не теряйте время.

15.01.2025 в 21:06

Перейти к оригиналу