Domain suspended or not configured

If you are the administrator and believe this is an error on our side, please check your BunnyCDN account configuration or contact customer support.

Извлечь контент из PDF через Python | fseek.ru
На главную

Извлечь контент из PDF через Python

Извлечь все элементы PDF файла (текст, изображения, графики, формулы) <br><a href="https://drive.google.com/file/d/16Hqa5crsdh90Fa_zM0t2jonWeflid3Km/view?usp=sharing">ссылка</a> на файл<br> <br>используя Python-библиотеки:<br><br><strong>PyPDF2</strong> или <strong>pdfplumber</strong> для текста.<strong>PyMuPDF (fitz)</strong> для извлечения изображений и графиков.<strong>pytesseract</strong> для OCR, для текста встроеного в изображения.Код для извлечения:<div>import fitz # PyMuPDF для PDF</div><div># Открываем PDF</div><div>pdf_file = "file.pdf"</div><div>doc = fitz.open(pdf_file)</div><div># Извлекаем содержимое</div><div>for page_num in range(len(doc)):</div><div> page = doc[page_num]</div><div> text = page.get_text("text") # Извлекаем текст</div><div> images = page.get_images(full=True) # Извлекаем изображения</div><div><br></div><div> # Обрабатываем изображения</div><div> for img_index, img in enumerate(images):</div><div> xref = img[0]</div><div> base_image = doc.extract_image(xref)</div><div> image_bytes = base_image["image"]</div><div><br></div><div> # Сохраняем изображения как файл (например, PNG)</div><div> with open(f"image_page{page_num}_{img_index}.png", "wb") as img_file:</div><div> img_file.write(image_bytes)</div><div><br></div><div>print("Извлечение завершено.")</div><div><br></div>