Поделиться через


Действия с PDF

Действия с PDF позволяют извлекать изображения, текст и таблицы из файлов PDF и упорядочивать страницы для создания новых документов.

Чтобы извлечь текст из файла PDF, используйте действие Извлечь текст из PDF. В следующем примере извлекается текст из определенного диапазона страниц в защищенном паролем файле. Пароль указывается в параметрах раздела Дополнительно.

Чтобы извлекать тексты в табличной форме, включите функцию Оптимизация для структурированных данных, чтобы улучшить форматирование и точность результатов.

Снимок экрана действия Извлечь текст из PDF-файла.

Чтобы извлечь таблицы из PDF-файла, используйте действие Извлечь таблицы из PDF, выберите файл и укажите страницы, с которых нужно извлечь таблицы.

Действие создает переменную с именем ExtractedPDFTables, которая содержит список информации из таблиц в PDF. Дополнительную информацию об этом типе списка см. в статье Расширенные типы данных.

Заметка

  • Действие Извлечь таблицы из PDF не использует распознавание текста (OCR), поэтому вы не можете извлечь некопируемый текст из отсканированных PDF-файлов.
  • Библиотека, стоящая за действием, иногда извлекает дополнительные данные PDF, которые не являются таблицами. Эта функциональность сводит к минимуму риск случайного пропуска реальной таблицы.

Снимок экрана действия Извлечь таблицы из PDF-файла.

Помимо извлечения информации из PDF-файлов, вы можете создать новый PDF-документ из существующего файла, используя действие Извлечь страницы PDF-файла в новый PDF-файл.

В следующем примере выбирается сочетание определенных страниц и диапазон страниц.

Снимок экрана действия Извлечь страницы PDF-файла в новый PDF-файл.

Извлечь текст из PDF-файла

Вы можете извлечь текст из файла PDF, используя действие "Извлечь текст из PDF". В свойствах действия вы можете определить исходный PDF-файл и страницы, из которых следует извлечь текст. В дополнительных свойствах действия вы можете определить пароль на случай, если файл PDF защищен, и должна ли подсистема оптимизировать структурированные данные или нет.

Входные параметры

Аргумент Необязательно Принимает Значение по умолчанию Description
PDF file Нет Файл PDF-файл, из которого требуется извлечь текст. Введите путь к файлу, переменную, содержащую файл, или текстовый путь
Страницы для извлечения Неприменимо Все, Одна, Диапазон Все Указывает, со скольких страниц требуется извлечь изображения: все страницы, одна страница или диапазон страниц
Single page number Нет Числовое значение Номер одной страницы, с которой требуется извлечь текст.
From page number Нет Числовое значение Номер первой страницы в диапазоне страниц, из которого требуется извлечь текст.
To page number Нет Числовое значение Номер последней страницы в диапазоне страниц, из которого требуется извлечь текст
Password Да Прямой ввод зашифрованного текста или Текстовое значение Пароль PDF-файла. Оставьте это поле пустым, если PDF-файл не защищен паролем
Оптимизировать под структурированные данные Неприменимо Логическое значение False Укажите, нужно ли обнаруживать в документе форматированный макет и извлекать текст соответствующим образом

Создаваемые переменные

Аргумент Type Description
ExtractedPDFText Текстовое значение Извлеченный текст.

Исключения

Исключение Описание
PDF-файл не существует. Файл не существует по данному пути.
Недопустимый пароль Данный пароль недопустим.
Не удалось извлечь текст Ошибка при попытке извлечь текст

Извлечь таблицы из PDF

Вы можете извлечь таблицы, содержащиеся в файле PDF, с помощью действия Извлечь таблицы из PDF. В свойствах действия вы можете определить исходный PDF-файл и диапазон страниц, из которых следует извлечь таблицы. В свойствах расширенного действия вы можете определить пароль на случай, если PDF-файл защищен, определить, есть ли в таблице заголовки или нет, и, наконец, следует ли объединять таблицы, пересекающие поля страницы, или нет.

Входные параметры

Аргумент Необязательно Принимает Значение по умолчанию Description
PDF-файл Нет Файл PDF-файл для извлечения таблиц из него. Введите путь к файлу, переменную, содержащую файл, или текстовый путь
Страницы для извлечения Неприменимо Все, Одна, Диапазон Все Указывает, со скольких страниц требуется извлечь таблицы: все страницы, одна страница или диапазон страниц
Номер одной страницы Нет Числовое значение Номер одной страницы, с которой требуется извлечь таблицы
Со страницы Нет Числовое значение Номер первой страницы в диапазоне страниц, из которого требуется извлечь таблицы
По страницу Нет Числовое значение Номер последней страницы в диапазоне страниц, из которого требуется извлечь таблицы
Password Да Прямой ввод зашифрованного текста или Текстовое значение Пароль PDF-файла. Оставьте это поле пустым, если PDF-файл не защищен паролем
Объединять таблицы, пересекающие поля страниц Неприменимо Логическое значение True Указывает, следует ли объединять таблицы, пересекающие поля страниц в указанном диапазоне страниц
Первая строка содержит имена столбцов Неприменимо Логическое значение True Определяет, содержит ли первая строка таблицы имена столбцов

Создаваемые переменные

Аргумент Type Description
ExtractedPDFTables Список информации таблиц PDF Извлеченные таблицы с информацией из них в виде списка

Исключения

Исключение Описание
PDF-файл не существует Файл не существует по данному пути.
Недопустимый пароль Данный пароль недопустим
Не удалось извлечь таблицы Ошибка при попытке извлечения таблиц

Извлечь изображения из PDF-файла

Чтобы извлечь изображения из файла PDF, можно использовать действие Извлечь изображения из PDF. В параметрах действия вы можете определить PDF-файл и страницы для извлечения изображений, соглашение об именовании извлеченных изображений и целевое местоположение сохраненных изображений. Вы также можете определить пароль, если PDF-файл защищен в дополнительных параметрах.

Входные параметры

Аргумент Необязательно Принимает Значение по умолчанию Description
PDF file Нет Файл PDF-файл, из которого требуется извлечь изображения. Введите путь к файлу, переменную, содержащую файл, или текстовый путь
Password Да Прямой ввод зашифрованного текста или Текстовое значение Пароль PDF-файла. Оставьте это поле пустым, если PDF-файл не защищен паролем
Page(s) to extract Н/Д Все, Одна, Диапазон Все Указывает, со скольких страниц требуется извлечь изображения: все страницы, одна страница или диапазон страниц
Single page number Нет Числовое значение Номер одной страницы, с которой требуется извлечь изображения.
From page number Нет Числовое значение Номер первой страницы из диапазона страниц, из которого требуется извлечь изображения
To page number Нет Числовое значение Номер последней страницы из диапазона страниц, из которого требуется извлечь изображения
Image(s) name Нет Текстовое значение Как начинаются имена изображений. Пример имен извлеченных изображений: GivenName_1, GivenName_2
Save image(s) to Нет Папка Папка для сохранения извлеченных изображений как PNG-файлов

Создаваемые переменные

Это действие не создает никаких переменных.

Исключения

Исключение Description
Недопустимый пароль Данный пароль недопустим
Не удалось извлечь изображения Указывает, что произошла ошибка при извлечении изображений из данных страниц PDF-файла
Папка не существует Указывает, что папка не существует.
PDF-файл не существует Файл не существует по данному пути

Извлечь страницы PDF-файла в новый PDF-файл

Вы можете создать новый PDF-документ, извлекая страницы из существующего файла PDF с помощью действия Извлечь страницы PDF-файла в новый PDF-файл. В параметрах действия вы можете определить PDF-файл, из которого нужно извлечь страницы, страницы, которые нужно извлечь, местоположение нового PDF-файла и событие, которое должно произойти, если файл с таким же именем и расширением уже существует. Наконец, в дополнительных свойствах вы можете определить пароль на случай, если исходный PDF-файл защищен.

Входные параметры

Аргумент Необязательно Принимает Значение по умолчанию Description
PDF file Нет Файл PDF-файл, из которого требуется извлечь страницы. Введите путь к файлу, переменную, содержащую файл, или текстовый путь
Password Да Прямой ввод зашифрованного текста или Текстовое значение Пароль PDF-файла. Оставьте это поле пустым, если PDF-файл не защищен паролем
Page selection Нет Текстовое значение Номера индексов страниц, которые нужно сохранить (например, 1,3,17–24)
Extracted PDF path Нет Файл Путь для хранения извлеченного PDF-файла.
If file exists Н/Д Перезаписать, Не перезаписывать, Добавить последовательный суффикс Добавить последовательный суффикс Указывает, что нужно сделать, если выходной PDF-файл уже существует.

Создаваемые переменные

Аргумент Type Description
ExtractedPDF Файл Новый PDF-файл.

Исключения

Исключение Описание
Недопустимый пароль Данный пароль недопустим.
PDF-файл не существует. Файл не существует по данному пути.
Страница выходит за границы. Указывает, что одна или несколько страниц выходят за границы PDF-файла
Недопустимый выбор страниц Указывает, что данные страницы недопустимы для PDF-файла
Не удалось извлечь новый PDF Указывает, что произошла ошибка при попытке извлечь новый PDF-файл

Объединить PDF-файлы

Объединяет несколько PDF-файлов в новый файл.

Вы можете использовать действие Объединить PDF-файлы, чтобы взять два или более PDF-файла и объединить их в один файл. Файлы для объединения могут быть указаны либо в форме списка, либо они должны быть заключены в двойные кавычки и разделены с помощью разделителя. Вы также можете указать пароли для файлов PDF, если они защищены паролем.

Входные параметры

Аргумент Необязательно Принимает Значение по умолчанию Description
PDF files Нет Списокфайлов Файлы для объединения. Заключите несколько файлов в двойные кавычки (") и разделите их с помощью разделителя или используйте список файлов
Merged PDF path Нет Файл Путь для хранения объединенного PDF-файла.
If file exists Н/Д Перезаписать, Не перезаписывать, Добавить последовательный суффикс Добавить последовательный суффикс Указывает, что нужно сделать, если конечный файл уже существует
Passwords Да Прямой ввод зашифрованного текста или Текстовое значение Пароли с разделителями. Порядок должен быть таким же, как и во входных PDF-файлах. Оставьте это поле пустым, если PDF-файлы не защищены паролем
Разделитель Нет Текстовое значение , Пользовательский разделитель паролей. Этот разделитель не должен быть частью паролей

Создаваемые переменные

Аргумент Type Description
MergedPDF Файл Объединенный PDF-файл.

Исключения

Исключение Описание
PDF-файл не существует. Файл не существует по данному пути.
Недопустимый пароль Данный пароль недопустим
Не удалось объединить PDF-файлы Указывает, что произошла ошибка при объединении файлов