Главное Авторские колонки Вакансии Образование
395 0 В избр. Сохранено
Авторизуйтесь
Вход с паролем

Извлечение изображений из PDF-документов на Python

В этой статье вы узнаете, как извлекать изображения из PDF-документа на Python с помощью Spire.PDF for Python.
Мнение автора может не совпадать с мнением редакции

Извлечение изображений из PDF-файла может быть полезной и практичной задачей в различных ситуациях. Если вам нужно использовать изображения для презентации, создать цифровой фотоальбом или просто сохранить изображения для дальнейшего использования, возможность извлечения изображений из PDF может сэкономить ваше время и силы. В этой статье вы узнаете, как извлекать изображения из PDF-документа на Python с помощью Spire.PDF for Python.

  • Извлечение изображений с определенной страницы в Python
  • Извлечение всех изображений из PDF-документа в Python

Установите зависимость

Это решение требует установки в качестве зависимости Spire.PDF for Python, которая представляет собой библиотеку Python для чтения, создания и работы с PDF-документами в программах на Python. Вы можете установить ее, выполнив следующую команду pip.

pip install Spire.PDF

Извлечение изображений с определенной страницы в Python

Spire.PDF for Python предлагает метод PdfPageBase.ExtractImages() для извлечения изображений с указанной страницы. Ниже приведены подробные шаги.

  1. Создайте объект PdfDocument.
  2. Загрузите PDF-документ с помощью метода PdfDocument.LoadFromFile().
  3. Получите определенную страницу через свойство PdfDocument.Pages[index].
  4. Извлеките изображения из страницы с помощью метода PdfPageBase.ExtractImages() и верните список изображений.
  5. Запишите каждое изображение в списке как PNG-файл.

from spire.pdf.common import *

from spire.pdf import *

# Create a PdfDocument object

doc = PdfDocument()

# Load a PDF document

doc.LoadFromFile(’C:/Users/Administrator/Desktop/input.pdf’)

# Get a specific page

page = doc.Pages[1]

# Extract images from the page

images = []

for image in page.ExtractImages():

images.append(image)

# Save images to specified location with specified format extension

index = 0

for image in images:

imageFileName = ’C:/Users/Administrator/Desktop/Extracted/Image-{0:d}.png’.format(index)

index += 1

image.Save(imageFileName, ImageFormat.get_Png())

doc.Close()

Извлечение всех изображений из PDF-документа в Python

Чтобы извлечь все изображения из всего PDF-документа, пройдитесь по страницам документа, а затем извлеките изображения с каждой страницы отдельно. Вот подробные шаги.

  1. Создайте объект PdfDocument.
  2. Загрузите PDF-документ с помощью метода PdfDocument.LoadFromFile().
  3. Пройдитесь по страницам документа и получите изображения с каждой страницы с помощью метода PdfPageBase.ExtractImages().
  4. Запишите все извлеченные изображения в виде отдельных PNG-файлов.

from spire.pdf.common import *

from spire.pdf import *

# Create a PdfDocument object

doc = PdfDocument()

# Load a PDF document

doc.LoadFromFile(’C:/Users/Administrator/Desktop/input.pdf’)

images = []

# Loop through the pages in the document

for i in range(doc.Pages.Count):

page = doc.Pages.get_Item(i)

# Extract images from a specific page

for image in page.ExtractImages():

images.append(image)

# Save images to specified location with specified format extension

index = 0

for image in images:

imageFileName = ’C:/Users/Administrator/Desktop/Extracted/Image-{0:d}.png’.format(index)

index += 1

image.Save(imageFileName, ImageFormat.get_Png())

doc.Close()

Выводы

В этой статье мы узнали, как извлекать изображения из PDF. Spire.PDF for Python, являясь продвинутой библиотекой Python, позволяет разработчикам выполнять широкий спектр операций с PDF-документами, таких как:

Преобразование изображений в PDF с помощью Python

Шифрование PDF с помощью Python

Добавление водяного знака в PDF с помощью Python

0
В избр. Сохранено
Авторизуйтесь
Вход с паролем