Извлечение изображений из PDF-документов на Python
Извлечение изображений из PDF-файла может быть полезной и практичной задачей в различных ситуациях. Если вам нужно использовать изображения для презентации, создать цифровой фотоальбом или просто сохранить изображения для дальнейшего использования, возможность извлечения изображений из PDF может сэкономить ваше время и силы. В этой статье вы узнаете, как извлекать изображения из PDF-документа на Python с помощью Spire.PDF for Python.
- Извлечение изображений с определенной страницы в Python
- Извлечение всех изображений из PDF-документа в Python
Установите зависимость
Это решение требует установки в качестве зависимости Spire.PDF for Python, которая представляет собой библиотеку Python для чтения, создания и работы с PDF-документами в программах на Python. Вы можете установить ее, выполнив следующую команду pip.
pip install Spire.PDF
Извлечение изображений с определенной страницы в Python
Spire.PDF for Python предлагает метод PdfPageBase.ExtractImages() для извлечения изображений с указанной страницы. Ниже приведены подробные шаги.
- Создайте объект PdfDocument.
- Загрузите PDF-документ с помощью метода PdfDocument.LoadFromFile().
- Получите определенную страницу через свойство PdfDocument.Pages[index].
- Извлеките изображения из страницы с помощью метода PdfPageBase.ExtractImages() и верните список изображений.
- Запишите каждое изображение в списке как PNG-файл.
from spire.pdf.common import *
from spire.pdf import *
# Create a PdfDocument object
doc = PdfDocument()
# Load a PDF document
doc.LoadFromFile(’C:/Users/Administrator/Desktop/input.pdf’)
# Get a specific page
page = doc.Pages[1]
# Extract images from the page
images = []
for image in page.ExtractImages():
images.append(image)
# Save images to specified location with specified format extension
index = 0
for image in images:
imageFileName = ’C:/Users/Administrator/Desktop/Extracted/Image-{0:d}.png’.format(index)
index += 1
image.Save(imageFileName, ImageFormat.get_Png())
doc.Close()
Извлечение всех изображений из PDF-документа в Python
Чтобы извлечь все изображения из всего PDF-документа, пройдитесь по страницам документа, а затем извлеките изображения с каждой страницы отдельно. Вот подробные шаги.
- Создайте объект PdfDocument.
- Загрузите PDF-документ с помощью метода PdfDocument.LoadFromFile().
- Пройдитесь по страницам документа и получите изображения с каждой страницы с помощью метода PdfPageBase.ExtractImages().
- Запишите все извлеченные изображения в виде отдельных PNG-файлов.
from spire.pdf.common import *
from spire.pdf import *
# Create a PdfDocument object
doc = PdfDocument()
# Load a PDF document
doc.LoadFromFile(’C:/Users/Administrator/Desktop/input.pdf’)
images = []
# Loop through the pages in the document
for i in range(doc.Pages.Count):
page = doc.Pages.get_Item(i)
# Extract images from a specific page
for image in page.ExtractImages():
images.append(image)
# Save images to specified location with specified format extension
index = 0
for image in images:
imageFileName = ’C:/Users/Administrator/Desktop/Extracted/Image-{0:d}.png’.format(index)
index += 1
image.Save(imageFileName, ImageFormat.get_Png())
doc.Close()
Выводы
В этой статье мы узнали, как извлекать изображения из PDF. Spire.PDF for Python, являясь продвинутой библиотекой Python, позволяет разработчикам выполнять широкий спектр операций с PDF-документами, таких как:
Преобразование изображений в PDF с помощью Python