На главную

Разработка аналога NotebookLM на open-source моделях

Разработка аналога NotebookLM на open-source моделях Цель: Создать систему для анализа загруженных документов на сервере клиента без передачи данных в Google. Что использовать (гипотеза, возможно есть другой способ): - OCR: PaddleOCR / Tesseract - Анализ структуры документа: LayoutLM - Поиск по документам: Haystack + ElasticSearch - LLM для ответов: Mistral 7B / Llama 3 / Falcon - Backend: FastAPI (Python) - Frontend (если возможно): Web-интерфейс для загрузки файлов и запросов Что нужно сделать (гипотеза, возможно есть другой способ): 1. Развернуть сервер (Ubuntu/Debian) 2. Настроить OCR 3. Настроить поиск (Haystack + ElasticSearch) 4. Подключить LLM (Mistral 7B / Llama 3) 5. Создать API (/upload, /ask, /documents, /delete) 6. Оптимизировать скорость работы Важно: Использовать готовые open-source решения, не разрабатывать заново модели – просто интегрировать и настроить работу. --- Ожидаемый ответ: - Возможность выполнения (да/нет) - Сроки