Как преобразовать PDF в TXT в Java
Когда речь идет о работе с цифровыми документами, возможность конвертировать PDF-файлы в формат обычного текста (TXT) может оказаться невероятно полезной. Конвертирование PDF в TXT позволяет извлекать текстовое содержимое из PDF-документа, делая его легко редактируемым и доступным для поиска. В этой статье мы расскажем вам о том, как конвертировать PDF в TXT на Java с помощью Free Spire.PDF for Java.
Установка файла Free Spire.Pdf.jar
Бесплатная Spire.PDF for Java — это профессиональная Java-библиотека для чтения, создания и работы с PDF-файлами в Java-приложениях. Она поможет разработчикам выполнять широкий спектр операций с PDF-документами.
Если вы создали
Maven-проект, вы можете легко импортировать jar в свое приложение, используя следующие
конфигурации. Для проектов, не использующих Maven, загрузите jar-файл по этой ссылке
и добавьте его в качестве зависимости в свое приложение.
Преобразование PDF в TXT в Java
Бесплатный Spire.PDF для Java предоставляет класс PdfTextExtractor для извлечения текста из PDF с возможностью поиска и класс PdfTextExtractOptions для управления параметрами извлечения. По умолчанию метод PdfTextExtractor.extract() извлекает весь текст с указанной страницы без необходимости указывать определенную опцию извлечения.
import com.spire.pdf.PdfDocument;
import com.spire.pdf.PdfPageBase;
import com.spire.pdf.texts.PdfTextExtractOptions;
import com.spire.pdf.texts.PdfTextExtractor;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
public class ExtractTextFromPage {
public static void main(String[] args) throws IOException {
//Create a PdfDocument object
PdfDocument doc = new PdfDocument();
//Load a PDF file
doc.loadFromFile("C:\Users\Administrator\Desktop\Terms of Service.pdf");
//Get the second page
PdfPageBase page = doc.getPages().get(1);
//Create a PdfTextExtractor object
PdfTextExtractor textExtractor = new PdfTextExtractor(page);
//Create a PdfTextExtractOptions object
PdfTextExtractOptions extractOptions = new PdfTextExtractOptions();
//Extract text from the page
String text = textExtractor.extract(extractOptions);
//Write to a txt file
Files.write(Paths.get("output/Extracted.txt"), text.getBytes());
}
Резюме
В этой статье мы узнали, как использовать Free Spire.PDF for Java для преобразования PDF в TXT. Кроме того, эта библиотека поддерживает другие функции обработки PDF, такие как:
Преобразование PDF в изображения в Java