Действия OCR

Статья
03/16/2023

Power Automate позволяет пользователям читать, извлекать и управлять данными в файлах с помощью оптического распознавания символов (OCR).

Чтобы создать механизм OCR и извлекать текст из изображений и документов, используйте действие Извлечь текст путем распознавания. В следующем примере текст извлекается из всего указанного изображения.

Снимок экрана действия Извлечь текст путем распознавания.

Все действия OCR могут создавать новую переменную механизма OCR или использовать существующую. Вы можете использовать переменные подсистемы OCR в любом действии, которое предлагает возможности OCR.

Power Automate поддерживает подсистему Windows OCR и подсистему Tesseract. Чтобы настроить выбранный механизм OCR, перейдите к пункту Параметры подсистемы распознавания текста соответствующего действия. Доступные параметры включают язык и множители ширины и высоты изображения.

Заметка

Все доступные механизмы OCR предварительно установлены в Power Automate и работают локально без подключения к облаку. Однако вам может потребоваться загрузить языковые пакеты или файлы данных для извлечения текстов на определенных языках.
Множители изображений позволяют увелчиить размер изображения, что делает поиск и извлечение текста более эффективным. Задание значений больше 3 может привести к ошибочным результатам.

Использование подсистемы распознавания текста Windows

Подсистема распознавания текста по умолчанию в Power Automate — это подсистема Windows OCR. Чтобы извлечь тексты с помощью подсистемы Windows OCR, необходимо установить соответствующий языковой пакет для языка, который вы хотите извлечь.

Если соответствующий языковой пакет не установлен, Power Automate выдаст ошибку с предложением установить его. Дополнительную информацию о загрузке и установке языковых пакетов см. в статье Языковые пакеты для Windows.

После установки соответствующего языкового пакета разверните раздел Настройки подсистемы OCR действия OCR и выберите нужный язык. Подсистема Windows OCR поддерживает 25 языков, включая китайский (упрощенный и традиционный), чешский, датский, голландский, английский, финский, французский, немецкий, греческий, венгерский, итальянский, японский, корейский, норвежский, польский, португальский, румынский, русский, сербский (кириллица и латиница), словацкий, испанский, шведский и турецкий.

Использование подсистемы распознавания текста Tesseract

Заметка

Чтобы использовать механизм распознавания текста Tesseract, убедитесь, что ЦП компьютера поддерживает набор инструкций AVX2.

Помимо подсистемы Windows OCR Power Automate поддерживает подсистему Tesseract. Эта подсистема может извлекать текст на пяти языках без дополнительной настройки: на английском, немецком, испанском, французском и итальянском.

Чтобы извлечь текст на языке вне указанного списка, включите вариант Использовать другие языки в Настройки подсистемы OCR действия OCR. Когда этот параметр включен, действие отображает два дополнительных параметра: Аббревиатура языка и Путь к языковым данным.

Поле Сокращение языка указывает подсистеме, на каком языке искать во время распознавания текста. Поле Путь к языковым данным содержит файлы языковых данных (.traineddata) используемые для обучения подсистемы распознавания текста. Вы можете найти файлы языковых данных для всех доступных языков в этом репозитории GitHub.

Подсистему Tesseract также можно использовать для извлечения текста из многоязычных документов. Дополнительную информацию об извлечении текста из многоязычных документов см. в статье Распознавание текста многоязычных документов.

Если текст находится на экране (распознавание текста)

Помечает начало условного блока действий в зависимости от того, находится ли данный текст на экране или нет, с использованием распознавания текста.

Входные параметры

Аргумент	Необязательно	Принимает	Значение по умолчанию	Description
If text	Н/Д	Существует, Не существует	Существует	Указывает, следует ли проверять наличие текста для анализа в указанном источнике
Тип подсистемы OCR	Нет	Подсистема распознавания текста Windows, подсистема Tesseract, переменная подсистемы распознавания текста	Переменная подсистемы OCR	Тип используемой подсистемы распознавания текста. Выберите предварительно настроенную подсистему OCR или настройте новую.
Переменная подсистемы OCR	Нет	OCREngineObject		Подсистема для распознавания текста.
Text to find	Нет	Текстовое значение		Текст для поиска в указанном источнике
Is regular expression	Н/Д	Логическое значение	Ложь	Указывает, нужно ли использовать регулярное выражение для поиска указанного текста
Search for text on	Н/Д	Весь экран, Окно переднего плана	Весь экран	Указывает, нужно ли искать заданный текста на всем видимом экране или только на окне переднего плана
Search mode	Неприменимо	Источник целиком, Только определенная подобласть, Подобласть относительно изображения	Источник целиком	Указывает, следует ли сканировать весь экран (или окно) или только его определенную подобласть
Image(s)	Нет	Список изображений		Изображение или изображения, определяющие подобласть (относительно верхнего левого угла изображения) для поиска заданного текста
X1	Да	Числовое значение		Начальная координата X подобласти для поиска заданного текста
Tolerance	Да	Числовое значение	10	Указывает, насколько искомое изображение может отличаться от изначально выбранного изображения.
Y1	Да	Числовое значение		Начальная координата Y подобласти для поиска заданного текста
X1	Да	Числовое значение		Начальная координата X подобласти (относительно заданного изображения) для поиска заданного текста
X2	Да	Числовое значение		Конечная координата X подобласти для поиска заданного текста
Y1	Да	Числовое значение		Начальная координата Y подобласти (относительно заданного изображения) для поиска заданного текста
Y2	Да	Числовое значение		Конечная координата Y подобласти для поиска заданного текста
X2	Да	Числовое значение		Конечная координата X подобласти (относительно заданного изображения) для поиска заданного текста
Y2	Да	Числовое значение		Конечная координата Y подобласти (относительно заданного изображения) для поиска заданного текста
Язык Windows OCR	Неприменимо	Китайский (упрощенный), китайский (традиционный), чешский, датский, голландский, английский, финский, французский, немецкий, греческий, венгерский, итальянский, японский, корейский, норвежский, польский, португальский, румынский, русский, сербский (кириллица), сербский (латиница), словацкий, испанский, шведский, турецкий	Английский	Язык текста, распознаваемого подсистемой Windows OCR
Использовать другой язык	Неприменимо	Логическое значение	False	Указывает, следует ли использовать язык, не заданный в поле "Язык Tesseract"
Язык Tesseract	Неприменимо	Английский, Немецкий, Испанский, Французский, Итальянский	Английский	Язык текста, распознаваемого подсистемой Tesseract
Сокращение языка	Нет	Текстовое значение		Сокращение используемого языка для Tesseract. Например, если данные — "eng.traineddata", установите для этого параметра значение "eng"
Путь к языковым данным	Нет	Текстовое значение		Путь к папке, содержащей данные Tesseract для указанного языка
Множитель ширины изображения	Нет	Числовое значение	1	Множитель ширины изображения
Множитель высоты изображения	Нет	Числовое значение	1	Множитель высоты изображения
Алгоритм сопоставления изображений	Неприменимо	Базовый, Расширенный	Обычный	Какой алгоритм будет использоваться при поиске изображения

Заметка

Механизм регулярных выражений Power Automate — .NET. Дополнительную информацию о регулярных выражениях см. в статье Язык регулярных выражений — краткий справочник.
Планируется прекращение поддержки параметра Переменная подсистемы OCR.

Создаваемые переменные

Аргумент	Type	Description
LocationOfTextFoundX	Числовое значение	Координата X точки, в которой текст появляется на экране. Если поиск выполняется в окне переднего плана, возвращаемая координата указывается относительно левого верхнего угла окна
LocationOfTextFoundY	Числовое значение	Координата X точки, в которой текст появляется на экране. Если поиск выполняется в окне переднего плана, возвращаемая координата указывается относительно левого верхнего угла окна

Исключения

Исключение	Description
Невозможно проверить наличие текста в неинтерактивном режиме.	Указывает, что проверить наличие текста на экране в неинтерактивном режиме невозможно.
Недопустимые координаты подобласти	Указывает, что координаты заданной подобласти недопустимы.
Не удалось проанализировать текст с помощью распознавания текста.	Указывает, что произошла ошибка при попытке проанализировать текст с помощью распознавания текста.
Не удалось создать подсистему распознавания текста	Указывает, что произошла ошибка при попытке создать подсистему распознавания текста
Папка пути к данным не существует	Указывает, что папка, заданная для данных языка, не существует
Выбранный языковой пакет Windows не установлен на компьютере	Означает, что выбранный языковой пакет Windows не установлен на компьютере
Подсистема распознавания текста недоступна	Указывает, что подсистема распознавания текста недоступна

Ожидание текста на экране (распознавание текста)

Ожидание, пока определенный текст не появится/исчезнет на экране, в окне переднего плана или относительно изображения на экране или в окне переднего плана, с использованием распознавания текста.

Входные параметры

Аргумент	Необязательно	Принимает	Значение по умолчанию	Description
Wait for text to	Н/Д	Отобразить, Скрыть	Отобразить	Указывает, следует ли ждать появления или скрытия текста
Тип подсистемы OCR	Нет	Подсистема распознавания текста Windows, подсистема Tesseract, переменная подсистемы распознавания текста	Переменная подсистемы OCR	Тип используемой подсистемы распознавания текста. Выберите предварительно настроенную подсистему OCR или настройте новую.
Переменная подсистемы OCR	Нет	OCREngineObject		Подсистема для распознавания текста.
Text to find	Нет	Текстовое значение		Текст для поиска в указанном источнике
Is regular expression	Н/Д	Логическое значение	Ложь	Указывает, нужно ли использовать регулярное выражение для поиска указанного текста
Search for text on	Н/Д	Весь экран, Окно переднего плана	Весь экран	Указывает, нужно ли искать заданный текста на всем видимом экране или только на окне переднего плана
Search mode	Неприменимо	Источник целиком, Только определенная подобласть, Подобласть относительно изображения	Источник целиком	Указывает, следует ли сканировать весь экран (или окно) или только его определенную подобласть
Image(s)	Нет	Список изображений		Изображение или изображения, определяющие подобласть (относительно верхнего левого угла изображения) для поиска заданного текста
X1	Да	Числовое значение		Начальная координата X подобласти для поиска заданного текста
Tolerance	Да	Числовое значение	10	Указывает, насколько искомое изображение может отличаться от изначально выбранного изображения.
Y1	Да	Числовое значение		Начальная координата Y подобласти для поиска заданного текста
X1	Да	Числовое значение		Начальная координата X подобласти (относительно заданного изображения) для поиска заданного текста
X2	Да	Числовое значение		Конечная координата X подобласти для поиска заданного текста
Y1	Да	Числовое значение		Начальная координата Y подобласти (относительно заданного изображения) для поиска заданного текста
Y2	Да	Числовое значение		Конечная координата Y подобласти для поиска заданного текста
X2	Да	Числовое значение		Конечная координата X подобласти (относительно заданного изображения) для поиска заданного текста
Y2	Да	Числовое значение		Конечная координата Y подобласти (относительно заданного изображения) для поиска заданного текста
Язык Windows OCR	Неприменимо	Китайский (упрощенный), китайский (традиционный), чешский, датский, голландский, английский, финский, французский, немецкий, греческий, венгерский, итальянский, японский, корейский, норвежский, польский, португальский, румынский, русский, сербский (кириллица), сербский (латиница), словацкий, испанский, шведский, турецкий	Английский	Язык текста, распознаваемого подсистемой Windows OCR
Использовать другой язык	Неприменимо	Логическое значение	False	Указывает, следует ли использовать язык, не заданный в поле "Язык Tesseract"
Язык Tesseract	Неприменимо	Английский, Немецкий, Испанский, Французский, Итальянский	Английский	Язык текста, распознаваемого подсистемой Tesseract
Сокращение языка	Нет	Текстовое значение		Сокращение используемого языка для Tesseract. Например, если данные — "eng.traineddata", установите для этого параметра значение "eng"
Путь к языковым данным	Нет	Текстовое значение		Путь к папке, содержащей данные Tesseract для указанного языка
Множитель ширины изображения	Нет	Числовое значение	1	Множитель ширины изображения
Множитель высоты изображения	Нет	Числовое значение	1	Множитель высоты изображения
Алгоритм сопоставления изображений	Неприменимо	Базовый, Расширенный	Обычный	Какой алгоритм будет использоваться при поиске изображения
Сбой с ошибкой времени ожидания	Неприменимо	Логическое значение	False	Укажите, должно ли действие ждать бесконечно или завершаться сбоем по прошествии заданного периода времени

Заметка

Механизм регулярных выражений Power Automate — .NET. Дополнительную информацию о регулярных выражениях см. в статье Язык регулярных выражений — краткий справочник.
Планируется прекращение поддержки параметра Переменная подсистемы OCR.

Создаваемые переменные

Аргумент	Type	Description
LocationOfTextFoundX	Числовое значение	Координата X точки, в которой текст появляется на экране. Если поиск выполняется в окне переднего плана, возвращаемая координата указывается относительно левого верхнего угла окна
LocationOfTextFoundY	Числовое значение	Координата X точки, в которой текст появляется на экране. Если поиск выполняется в окне переднего плана, возвращаемая координата указывается относительно левого верхнего угла окна

Исключения

Исключение	Description
Невозможно проверить наличие текста в неинтерактивном режиме.	Указывает, что проверить наличие текста на экране в неинтерактивном режиме невозможно.
Недопустимые координаты подобласти	Указывает, что координаты заданной подобласти недопустимы.
Не удалось проанализировать текст с помощью распознавания текста.	Указывает, что произошла ошибка при попытке проанализировать текст с помощью распознавания текста.
Не удалось создать подсистему распознавания текста	Указывает, что произошла ошибка при попытке создать подсистему распознавания текста
Папка пути к данным не существует	Указывает, что папка, заданная для данных языка, не существует
Выбранный языковой пакет Windows не установлен на компьютере	Означает, что выбранный языковой пакет Windows не установлен на компьютере
Подсистема распознавания текста недоступна	Указывает, что подсистема распознавания текста недоступна
Ошибка времени ожидания	Указывает, что действие завершилось неудачно по истечении заданного периода времени.

Извлечь текст путем распознавания

Извлечение текста из заданного источника с помощью указанной подсистемы распознавания текста.

Входные параметры

Аргумент	Необязательно	Принимает	Значение по умолчанию	Description
Подсистема OCR	Нет	Подсистема распознавания текста Windows, подсистема Tesseract, переменная подсистемы распознавания текста	Переменная подсистемы OCR	Тип используемой подсистемы распознавания текста. Выберите предварительно настроенную подсистему OCR или настройте новую
Переменная подсистемы OCR	Нет	OCREngineObject		Подсистема для распознавания текста
OCR source	Н/Д	Экран, Окно переднего плана, Изображение на диске	Экран	Источник изображения для распознавания текста
Image file path	Нет	Файл		Путь изображения для распознавания текста
Search mode	Н/Д	Источник целиком, Только определенная подобласть, Подобласть относительно изображения	Источник целиком	Выбранный режим для распознавания текста
Изображения	Нет	Список изображений		Изображение, которое ограничивает сканирование подобластью относительно указанного изображения
Tolerance	Да	Числовое значение	10	Указывает, насколько изображение может отличаться от изначально выбранного изображения.
X1	Да	Числовое значение		Начальная координата X подобласти для ограничения сканирования
X2	Да	Числовое значение		Конечная координата X подобласти для ограничения сканирования
Y1	Да	Числовое значение		Начальная координата Y подобласти для ограничения сканирования
Y2	Да	Числовое значение		Конечная координата Y подобласти для ограничения сканирования
Язык Windows OCR	Неприменимо	Китайский (упрощенный), китайский (традиционный), чешский, датский, голландский, английский, финский, французский, немецкий, греческий, венгерский, итальянский, японский, корейский, норвежский, польский, португальский, румынский, русский, сербский (кириллица), сербский (латиница), словацкий, испанский, шведский, турецкий	Английский	Язык текста, распознаваемого подсистемой Windows OCR
Использовать другой язык	Неприменимо	Логическое значение	False	Указывает, следует ли использовать язык, не заданный в поле "Язык Tesseract"
Язык Tesseract	Неприменимо	Английский, Немецкий, Испанский, Французский, Итальянский	Английский	Язык текста, распознаваемого подсистемой Tesseract
Сокращение языка	Нет	Текстовое значение		Сокращение используемого языка для Tesseract. Например, если данные — "eng.traineddata", установите для этого параметра значение "eng"
Путь к языковым данным	Нет	Текстовое значение		Путь к папке, содержащей данные Tesseract для указанного языка
Множитель ширины изображения	Нет	Числовое значение	1	Множитель ширины изображения
Множитель высоты изображения	Нет	Числовое значение	1	Множитель высоты изображения
Ожидать появления изображения	Неприменимо	Логическое значение	True	Определяет, следует ли ожидать появления изображения на экране или в окне переднего плана
Время ожидания	Нет	Числовое значение	5	Указывает время ожидания выполнения операции, прежде чем действие будет признано неудачным
Алгоритм сопоставления изображений	Неприменимо	Базовый, Расширенный	Обычный	Какой алгоритм будет использоваться при поиске изображения

Заметка

Планируется прекращение поддержки параметра Переменная подсистемы OCR.

Создаваемые переменные

Аргумент	Type	Description
OcrText	Текстовое значение	Результат после извлечения текста

Исключения

Исключение	Описание
Не удалось извлечь текст с помощью распознавания текста.	Указывает, что произошла ошибка при попытке извлечь текст из заданного источника с помощью распознавания текста.
Файл изображения не найден.	Указывает, что файл по заданному пути не существует.
Изображение достопримечательности не найдено	Указывает, что изображение достопримечательности не существует
Невозможно получить текст на экране в неинтерактивном режиме	Указывает, что получить текст на экране в неинтерактивном режиме невозможно
Не удалось создать подсистему распознавания текста	Указывает, что произошла ошибка при попытке создать подсистему распознавания текста
Папка пути к данным не существует	Указывает, что папка, заданная для данных языка, не существует
Выбранный языковой пакет Windows не установлен на компьютере	Означает, что выбранный языковой пакет Windows не установлен на компьютере
Подсистема распознавания текста недоступна	Указывает, что подсистема распознавания текста недоступна

Поделиться через

Действия OCR

Использование подсистемы распознавания текста Windows

Использование подсистемы распознавания текста Tesseract

Если текст находится на экране (распознавание текста)

Входные параметры

Создаваемые переменные

Исключения

Ожидание текста на экране (распознавание текста)

Входные параметры

Создаваемые переменные

Исключения

Извлечь текст путем распознавания

Входные параметры

Создаваемые переменные

Исключения

Дополнительные ресурсы