Действия с PDF
Действия с PDF позволяют извлекать изображения, текст и таблицы из файлов PDF и упорядочивать страницы для создания новых документов.
Чтобы извлечь текст из файла PDF, используйте действие Извлечь текст из PDF. В следующем примере извлекается текст из определенного диапазона страниц в защищенном паролем файле. Пароль указывается в параметрах раздела Дополнительно.
Чтобы извлекать тексты в табличной форме, включите функцию Оптимизация для структурированных данных, чтобы улучшить форматирование и точность результатов.
Чтобы извлечь таблицы из PDF-файла, используйте действие Извлечь таблицы из PDF, выберите файл и укажите страницы, с которых нужно извлечь таблицы.
Действие создает переменную с именем ExtractedPDFTables, которая содержит список информации из таблиц в PDF. Дополнительную информацию об этом типе списка см. в статье Расширенные типы данных.
Заметка
- Действие Извлечь таблицы из PDF не использует распознавание текста (OCR), поэтому вы не можете извлечь некопируемый текст из отсканированных PDF-файлов.
- Библиотека, стоящая за действием, иногда извлекает дополнительные данные PDF, которые не являются таблицами. Эта функциональность сводит к минимуму риск случайного пропуска реальной таблицы.
Помимо извлечения информации из PDF-файлов, вы можете создать новый PDF-документ из существующего файла, используя действие Извлечь страницы PDF-файла в новый PDF-файл.
В следующем примере выбирается сочетание определенных страниц и диапазон страниц.
Извлечь текст из PDF-файла
Вы можете извлечь текст из файла PDF, используя действие "Извлечь текст из PDF". В свойствах действия вы можете определить исходный PDF-файл и страницы, из которых следует извлечь текст. В дополнительных свойствах действия вы можете определить пароль на случай, если файл PDF защищен, и должна ли подсистема оптимизировать структурированные данные или нет.
Входные параметры
Аргумент | Необязательно | Принимает | Значение по умолчанию | Description |
---|---|---|---|---|
PDF file | Нет | Файл | PDF-файл, из которого требуется извлечь текст. Введите путь к файлу, переменную, содержащую файл, или текстовый путь | |
Страницы для извлечения | Неприменимо | Все, Одна, Диапазон | Все | Указывает, со скольких страниц требуется извлечь изображения: все страницы, одна страница или диапазон страниц |
Single page number | Нет | Числовое значение | Номер одной страницы, с которой требуется извлечь текст. | |
From page number | Нет | Числовое значение | Номер первой страницы в диапазоне страниц, из которого требуется извлечь текст. | |
To page number | Нет | Числовое значение | Номер последней страницы в диапазоне страниц, из которого требуется извлечь текст | |
Password | Да | Прямой ввод зашифрованного текста или Текстовое значение | Пароль PDF-файла. Оставьте это поле пустым, если PDF-файл не защищен паролем | |
Оптимизировать под структурированные данные | Неприменимо | Логическое значение | False | Укажите, нужно ли обнаруживать в документе форматированный макет и извлекать текст соответствующим образом |
Создаваемые переменные
Аргумент | Type | Description |
---|---|---|
ExtractedPDFText | Текстовое значение | Извлеченный текст. |
Исключения
Исключение | Описание |
---|---|
PDF-файл не существует. | Файл не существует по данному пути. |
Недопустимый пароль | Данный пароль недопустим. |
Не удалось извлечь текст | Ошибка при попытке извлечь текст |
Извлечь таблицы из PDF
Вы можете извлечь таблицы, содержащиеся в файле PDF, с помощью действия Извлечь таблицы из PDF. В свойствах действия вы можете определить исходный PDF-файл и диапазон страниц, из которых следует извлечь таблицы. В свойствах расширенного действия вы можете определить пароль на случай, если PDF-файл защищен, определить, есть ли в таблице заголовки или нет, и, наконец, следует ли объединять таблицы, пересекающие поля страницы, или нет.
Входные параметры
Аргумент | Необязательно | Принимает | Значение по умолчанию | Description |
---|---|---|---|---|
PDF-файл | Нет | Файл | PDF-файл для извлечения таблиц из него. Введите путь к файлу, переменную, содержащую файл, или текстовый путь | |
Страницы для извлечения | Неприменимо | Все, Одна, Диапазон | Все | Указывает, со скольких страниц требуется извлечь таблицы: все страницы, одна страница или диапазон страниц |
Номер одной страницы | Нет | Числовое значение | Номер одной страницы, с которой требуется извлечь таблицы | |
Со страницы | Нет | Числовое значение | Номер первой страницы в диапазоне страниц, из которого требуется извлечь таблицы | |
По страницу | Нет | Числовое значение | Номер последней страницы в диапазоне страниц, из которого требуется извлечь таблицы | |
Password | Да | Прямой ввод зашифрованного текста или Текстовое значение | Пароль PDF-файла. Оставьте это поле пустым, если PDF-файл не защищен паролем | |
Объединять таблицы, пересекающие поля страниц | Неприменимо | Логическое значение | True | Указывает, следует ли объединять таблицы, пересекающие поля страниц в указанном диапазоне страниц |
Первая строка содержит имена столбцов | Неприменимо | Логическое значение | True | Определяет, содержит ли первая строка таблицы имена столбцов |
Создаваемые переменные
Аргумент | Type | Description |
---|---|---|
ExtractedPDFTables | Список информации таблиц PDF | Извлеченные таблицы с информацией из них в виде списка |
Исключения
Исключение | Описание |
---|---|
PDF-файл не существует | Файл не существует по данному пути. |
Недопустимый пароль | Данный пароль недопустим |
Не удалось извлечь таблицы | Ошибка при попытке извлечения таблиц |
Извлечь изображения из PDF-файла
Чтобы извлечь изображения из файла PDF, можно использовать действие Извлечь изображения из PDF. В параметрах действия вы можете определить PDF-файл и страницы для извлечения изображений, соглашение об именовании извлеченных изображений и целевое местоположение сохраненных изображений. Вы также можете определить пароль, если PDF-файл защищен в дополнительных параметрах.
Входные параметры
Аргумент | Необязательно | Принимает | Значение по умолчанию | Description |
---|---|---|---|---|
PDF file | Нет | Файл | PDF-файл, из которого требуется извлечь изображения. Введите путь к файлу, переменную, содержащую файл, или текстовый путь | |
Password | Да | Прямой ввод зашифрованного текста или Текстовое значение | Пароль PDF-файла. Оставьте это поле пустым, если PDF-файл не защищен паролем | |
Page(s) to extract | Н/Д | Все, Одна, Диапазон | Все | Указывает, со скольких страниц требуется извлечь изображения: все страницы, одна страница или диапазон страниц |
Single page number | Нет | Числовое значение | Номер одной страницы, с которой требуется извлечь изображения. | |
From page number | Нет | Числовое значение | Номер первой страницы из диапазона страниц, из которого требуется извлечь изображения | |
To page number | Нет | Числовое значение | Номер последней страницы из диапазона страниц, из которого требуется извлечь изображения | |
Image(s) name | Нет | Текстовое значение | Как начинаются имена изображений. Пример имен извлеченных изображений: GivenName_1, GivenName_2 | |
Save image(s) to | Нет | Папка | Папка для сохранения извлеченных изображений как PNG-файлов |
Создаваемые переменные
Это действие не создает никаких переменных.
Исключения
Исключение | Description |
---|---|
Недопустимый пароль | Данный пароль недопустим |
Не удалось извлечь изображения | Указывает, что произошла ошибка при извлечении изображений из данных страниц PDF-файла |
Папка не существует | Указывает, что папка не существует. |
PDF-файл не существует | Файл не существует по данному пути |
Извлечь страницы PDF-файла в новый PDF-файл
Вы можете создать новый PDF-документ, извлекая страницы из существующего файла PDF с помощью действия Извлечь страницы PDF-файла в новый PDF-файл. В параметрах действия вы можете определить PDF-файл, из которого нужно извлечь страницы, страницы, которые нужно извлечь, местоположение нового PDF-файла и событие, которое должно произойти, если файл с таким же именем и расширением уже существует. Наконец, в дополнительных свойствах вы можете определить пароль на случай, если исходный PDF-файл защищен.
Входные параметры
Аргумент | Необязательно | Принимает | Значение по умолчанию | Description |
---|---|---|---|---|
PDF file | Нет | Файл | PDF-файл, из которого требуется извлечь страницы. Введите путь к файлу, переменную, содержащую файл, или текстовый путь | |
Password | Да | Прямой ввод зашифрованного текста или Текстовое значение | Пароль PDF-файла. Оставьте это поле пустым, если PDF-файл не защищен паролем | |
Page selection | Нет | Текстовое значение | Номера индексов страниц, которые нужно сохранить (например, 1,3,17–24) | |
Extracted PDF path | Нет | Файл | Путь для хранения извлеченного PDF-файла. | |
If file exists | Н/Д | Перезаписать, Не перезаписывать, Добавить последовательный суффикс | Добавить последовательный суффикс | Указывает, что нужно сделать, если выходной PDF-файл уже существует. |
Создаваемые переменные
Аргумент | Type | Description |
---|---|---|
ExtractedPDF | Файл | Новый PDF-файл. |
Исключения
Исключение | Описание |
---|---|
Недопустимый пароль | Данный пароль недопустим. |
PDF-файл не существует. | Файл не существует по данному пути. |
Страница выходит за границы. | Указывает, что одна или несколько страниц выходят за границы PDF-файла |
Недопустимый выбор страниц | Указывает, что данные страницы недопустимы для PDF-файла |
Не удалось извлечь новый PDF | Указывает, что произошла ошибка при попытке извлечь новый PDF-файл |
Объединить PDF-файлы
Объединяет несколько PDF-файлов в новый файл.
Вы можете использовать действие Объединить PDF-файлы, чтобы взять два или более PDF-файла и объединить их в один файл. Файлы для объединения могут быть указаны либо в форме списка, либо они должны быть заключены в двойные кавычки и разделены с помощью разделителя. Вы также можете указать пароли для файлов PDF, если они защищены паролем.
Входные параметры
Аргумент | Необязательно | Принимает | Значение по умолчанию | Description |
---|---|---|---|---|
PDF files | Нет | Списокфайлов | Файлы для объединения. Заключите несколько файлов в двойные кавычки (") и разделите их с помощью разделителя или используйте список файлов | |
Merged PDF path | Нет | Файл | Путь для хранения объединенного PDF-файла. | |
If file exists | Н/Д | Перезаписать, Не перезаписывать, Добавить последовательный суффикс | Добавить последовательный суффикс | Указывает, что нужно сделать, если конечный файл уже существует |
Passwords | Да | Прямой ввод зашифрованного текста или Текстовое значение | Пароли с разделителями. Порядок должен быть таким же, как и во входных PDF-файлах. Оставьте это поле пустым, если PDF-файлы не защищены паролем | |
Разделитель | Нет | Текстовое значение | , | Пользовательский разделитель паролей. Этот разделитель не должен быть частью паролей |
Создаваемые переменные
Аргумент | Type | Description |
---|---|---|
MergedPDF | Файл | Объединенный PDF-файл. |
Исключения
Исключение | Описание |
---|---|
PDF-файл не существует. | Файл не существует по данному пути. |
Недопустимый пароль | Данный пароль недопустим |
Не удалось объединить PDF-файлы | Указывает, что произошла ошибка при объединении файлов |